Los retos en el análisis de los datos

Javier Murillo escribe como invitado para Forbes México y nos comparte su artículo más reciente que habla sobre los retos que se presentan en el análisis de datos y cómo ayudar con mayor eficiencia a la humanidad.
Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on email
Email

Ahora que inicia el noveno mes del año de la pandemia por Covid-19, bien vale la pena reflexionar sobre los retos que tenemos los expertos en análisis de datos para crear los diseños de coordinación y estructuración para ayudar con mayor eficiencia a la humanidad en imprevistos como el de la aparición de un nuevo virus.

Los datos continúan creciendo de manera más diversa y distribuida, al igual que las fuentes de ellos y los puntos de consumo de los mismos. La sana distancia, el home office, las clases escolares virtuales, todo al mismo tiempo, junto con las necesidades analíticas y los usos operativos de los datos están proliferando en todo el mundo. Las necesidades de las partes interesadas ya no pueden satisfacerse con arquitecturas tradicionales que se basan en la recopilación de datos de forma centralizada y permiten usos predefinidos. Los líderes de datos y análisis y sus equipos deben ofrecer una infraestructura de gestión de datos moderna que admita flexibilidad, diversidad de necesidades de datos y conectividad. ¿Estamos listos?

Esto querido lector requiere una combinación de diferentes enfoques de procesamiento y organización de datos. Sin embargo, algunos equipos y análisis todavía se centran en satisfacer necesidades utilizando un único patrón arquitectónico, ya sea un almacén de datos empresarial tradicional, un lago de datos moderno o un centro de datos.

Existe una gran confusión entre estos conceptos y de alguna forma es comprensible. Muchas organizaciones, privadas y de gobierno usarán estos términos indistintamente o usarán el mismo término para significar cosas diferentes en diversos escenarios. Por ejemplo, mientras que las consultas de los clientes de Gartner Inc. (empresa de investigación de las tecnologías de la información con sede en Stamford, Connecticut, Estados Unido) se refieren a centros de datos, estas aumentaron en un 20 por ciento entre 2018 y 2019, más del 25 por ciento de las consultas fueron en realidad sobre conceptos de lago de datos. Esto sugiere que existe confusión o mal uso de la terminología.

También hay una falta de claridad sobre las funciones de los almacenes de datos y los lagos de datos. Se estima que el 30 por ciento de los clientes que plantean consultas sobre el lago de datos están considerando este como reemplazo de un almacén o no tienen claro la relación entre los lagos y los almacenes de datos.

Estos tres patrones arquitectónicos (almacenes de datos, lagos de datos y centros de datos) son áreas clave de inversión. Sin embargo, es necesaria una mayor claridad y concentración. Los líderes de datos y análisis deben comprender el propósito de estos tres tipos de estructuras y el papel que pueden desempeñar en una infraestructura de gestión de datos moderna para a hacer frente a prácticamente cualquier adversidad, ya sea un proyecto de expansión empresarial, o un nuevo virus que ponga en jaque la economía mundial. Quizá, si todo esto lo hubiéramos entendido antes, los efectos de la epidemia por Sars-cov2 serían menos devastadores. Quizá sea tiempo de aprender de esta amarga experiencia para dejar el egoísmo de lado y trabajar más coordinadamente para salvar más vidas.

Pasemos a la práctica del “cómo y qué” debemos hacer dentro de los nuevos aprendizajes obligados por esta pandemia en el ámbito de la medicina. Necesitamos datos de pacientes de todo el mundo, datos de niveles de contagio, datos de estrategias tomadas para minimizar el avance del virus, datos de las diferentes investigaciones sobre los medicamentos que se encuentran bajo evaluación, sobre las fases de prueba y datos de la población a la que se le aplicarán las vacunas.

Debemos procesarlos y refinarlos rápidamente (en su mayoría se encuentran en un estado no estructurado o semiestructurado para el análisis) para ser consumidos por las herramientas de inteligencia artificial (AI) y aprendizaje automático con la finalidad de promover una exploración y evaluación eficaz. En este sentido, los lagos de datos son una plataforma eficiente y escalable para aprovechar toda esta información y permitir el análisis. No hay que dejar de lado que los enfoques tradicionales utilizados para reunir grandes volúmenes de datos de múltiples fuentes o formatos múltiples en un lago de datos suelen ser lentos y requieren de muchos recursos y tiempo de análisis, que tarde o temprano, pueden arrojar errores importantes o lentitud para una emergencia como la que se convirtió la aparición del virus.

Gran parte de esta información necesaria se refiere a datos médicos de cientos de miles de pacientes de todo el mundo para los principales programas de descubrimiento de medicamentos, o datos de comportamiento, buscando una hiper personalización en el análisis. Los enfoques tradicionales conducen a la incapacidad de extraer datos de una manera rápida y fácil en una variedad de sistemas fuente que se halla en constante crecimiento, en cuellos de botella de transferencia de datos, frente a desafíos para adaptarse a plataformas cambiantes, procesos de refinamiento engorrosos e intensivos en codificación, y la integridad de los datos y los problemas de confianza: Todo hace que la realización del retorno oportuno de las iniciativas del lago de datos sea un desafío.

La creación de un lago de datos administrado puede ayudar a las organizaciones a superar estos obstáculos y acelerar la entrega de datos listos para análisis continuamente actualizados. La arquitectura del lago está evolucionando, de ahí que es imprescindible entender que mientras planificamos la construcción de información más ágil y de alto rendimiento, debemos tener en consideración claves que prepararán las inversiones a futuro como una independencia de plataforma, es decir las fuentes de datos, los puntos finales de destino y las plataformas evolucionan constantemente. Es clave asegurarse que la solución elegida no esté vinculada a ningún proveedor específico de la nube o plataforma analítica, ya que debemos hallar la flexibilidad de adaptarnos a fuentes, objetivos y plataformas en constante cambio y crecimiento para consumir los datos en las herramientas analíticas de nuestra elección.

Es necesario hablar de la automatización de extremo a extremo. Los modelos requieren un flujo constante de datos actualizados de forma continua para mejorar. Debemos buscar una solución que permita tuberías de lago de datos totalmente automatizadas, desde la ingestión de datos, transformación y creación para el análisis, hasta el aprovisionamiento de conjuntos de data con fines comerciales que aseguren de esta manera la disponibilidad en tiempo real.

Hasta aquí solo algunos de los pendientes que tenemos como humanidad. Nunca es tarde para empezar a trabajar.



Javier Murillo es socio fundador y presidente del Consejo de Metrics.
Los retos en el análisis de los datos, es un artículo invitado publicado en Forbes México el 09 de septiembre de 2020.