Los datos suelen ser el elefante en la habitación. Es obvio que las aplicaciones son inútiles sin datos, que los datos no son menos importantes ahora que en los albores de la informática, y que el crecimiento exponencial de los datos no tiene fin a la vista. El término «exponencial» se utiliza con bastante ligereza en estos días (es fácil perder de vista sus implicaciones matemáticas básicas), pero algunos analistas sugieren que se crearán más datos en los próximos tres años de los que se han creado en los últimos treinta.

La mayoría de las personas en tecnología están familiarizadas con la Ley de Moore, originalmente una observación de que el número de transistores en un chip se duplica cada dos años, lo que se traduce aproximadamente en una capacidad de cómputo que se duplica proporcionalmente. El fenómeno específico de la duplicación de la densidad de transistores se mantuvo durante muchos años, pero finalmente se aplanó a medida que se abordaron varias asíntotas físicas. Sin embargo, al retirar la cámara y mirar la imagen más amplia, la capacidad de cálculo continuó su trayectoria gracias a otros factores que contribuyeron, como una mejor paralelización.

Entonces, ¿Qué significa esto para los datos y el almacenamiento? Una analogía importante por considerar es que, al igual que no podríamos continuar obteniendo un crecimiento exponencial en la computación simplemente aumentando la densidad de transistores, es probable que una empresa determinada no tenga éxito en obtener un valor sostenido de sus datos en crecimiento simplemente agregando más matrices de almacenamiento en su red.

Servicios de datos en el mundo nativo de la nube:

Ingrese al mundo de los servicios de datos nativos de la nube. «Nativo de la nube» es quizás un término un poco sobrecargado en el lenguaje de moda de la industria, pero en este punto está razonablemente bien establecido como implica el uso de modularización fina (contenedores) y un medio para automatizar la orquestación de grandes números de módulos (Kubernetes).

Los contenedores han permitido a los desarrolladores estructurar aplicaciones como compuestos de muchos módulos pequeños (microservicios), brindando beneficios como una innovación incremental más fácil y rápida con menos riesgo e interrupción, así como una mayor flexibilidad operativa y resistencia cuando la capacidad y las necesidades de ubicación evolucionan. Red Hat OpenShift reúne todo esto en una plataforma empresarial en la nube basada en Kubernetes para el desarrollo y las operaciones.

Con un gran número de pequeñas cargas de trabajo inmutables que se alternan constantemente en un entorno de microservicios, la suposición de conexiones de datos estáticas y de larga duración se vuelve problemática.

En el viejo mundo de las aplicaciones de monolito a monolito, aplicación a base de datos, la sobrecarga para establecer una conexión no era un gran problema. Ahora hay una discrepancia de impedancia entre los almacenes de datos monolíticos y las cargas de trabajo distribuidas y detalladas.

Tecnologías como Ceph (y su contraparte empresarial Red Hat OpenShift Container Storage) cierran esta brecha y combinan el hardware de almacenamiento nuevo y existente a través de una abstracción definida por software que permite a los microservicios obtener la conexión y desconexión automática y rápida que necesitan.

Datos en reposo, datos en movimiento y datos en acción: 

Pero no se trata solo de conectarse a un almacenamiento simple. Por supuesto, la necesidad de funciones de almacenamiento tradicionales como copias de seguridad, replicación y seguridad no desaparece en un mundo de servicios de datos nativos de la nube, simplemente se inician y administran de nuevas formas, en muchos casos de manera mucho más automática.

Aquí es donde las capacidades de almacenamiento definidas por software de Ceph son un poderoso complemento para la maquinaria de Kubernetes para el aprovisionamiento dinámico de cargas de trabajo con la funcionalidad de persistencia adecuada. Muchas de estas capacidades se refieren a datos «en reposo».

Las aplicaciones a menudo extraen datos de varias fuentes para llevar a cabo una tarea y, cada vez más, se espera dicha agregación a pedido: el trabajo por lotes de anoche ya está obsoleto. Esta es un área donde el enfoque de servicios de datos realmente brilla: los desarrolladores pueden confiar en la automatización de Kubernetes para conectar dinámicamente las fuentes de datos, a veces transmitiendo con Apache Kafka, a veces activando funciones sin servidor con eventos, para manejar datos «en movimiento».

Cuando esos datos dispares se han reunido, puede tener un impacto. Un servicio de datos puede completar esa lista de próximas acciones recomendadas. Un modelo entrenado puede ayudar a identificar si una radiografía de pulmón indica un posible cáncer. Un modelo de aprendizaje continuo puede ayudar a un automóvil autónomo a evitar a un peatón. Estos son datos «en acción».

El futuro: IA / ML
 

Incluso en nuestra realidad impactada por COVID, el aprendizaje automático sigue siendo un fuerte impulsor de la expansión en la necesidad de capacidades de datos, tanto en términos de capacidad bruta como en nuevas funcionalidades. El entrenamiento de modelos implica agregar grandes cantidades de datos (cuanto más grandes, mejor) en una estructura temporal. Es probable que un entorno de aprendizaje maduro tenga un flujo de datos sofisticado que alimente un régimen de entrenamiento que se ejecuta de forma regular para el refinamiento continuo del modelo. Todo esto motiva la necesidad de un nuevo tipo de plataforma de procesamiento de datos.

Red Hat ha estado incubando una plataforma de este tipo en el proyecto de código abierto Open Data Hub.

Open Data Hub combina Ceph, Kubeflow, Apache Spark, Jupyter, Kafka, Seldon, Argo CD y otros proyectos de código abierto para crear un entorno completo, pero conectable y configurable para admitir una variedad de casos de uso de aprendizaje automático. Lo usamos hoy debajo de Red Hat Insights, y Red Hat Consulting lo ha utilizado en una serie de implementaciones de clientes. ¡Busque un desarrollo continuo en esta área!

 

Conclusión

Para la gente de operaciones, el almacenamiento ha sido durante mucho tiempo un elemento de infraestructura crítico para hacerlo bien. Eso es aún más cierto hoy. Para los desarrolladores, el almacenamiento ha sido durante mucho tiempo algo enterrado profundamente en la infraestructura que probablemente no les importaba (hasta que se rompió). En la actualidad, los impulsores de los microservicios y el aprendizaje automático que se refuerzan mutuamente exigen un nuevo enfoque, con capacidades de datos expresadas como servicios de datos nativos de la nube que empoderan al desarrollador y deleitan al operador.

¡Adelante a la nube híbrida abierta!

Sobre el autor: Mike Piech

vicepresidente y director general de servicios de datos y almacenamiento en la nube, para Red Hat ejecutivo de producto imaginativo pero basado en la realidad, con pasión por sacar a la luz la esencia relevante de la tecnología compleja. Sólida comprensión técnica complementada con la capacidad de explicar, emocionar y liderar. Impulsado hacia el desafío y lo desconocido.

Articulo tomado de: «Piech Mike, (29 de septiembre de 2020),Red Hat, Recuperado de https://red.ht/36CCqDt» 

Para leer el articulo en su idioma original

Entradas recomendadas