Big Data es un término que se acuñó desde los noventa. A partir de que se incrementaron las capacidades de cómputo en procesamiento, almacenamiento y capacidad de mantener datos en memoria de trabajo, de pronto nos dimos cuenta que los modelos de datos a los que estábamos acostumbrados comenzaron a quedarse cortos y que teníamos que comenzar a producirlos en mayor cantidad y velocidad.

Cuando hablamos de Big Data hablamos de las famosas 4 V´s

La primera es Velocidad, esto hace referencia a la manera en la que generamos datos en todos nuestros dispositivos. Ya sean fotos, videos, audios, post, comentarios, likes… todo el tiempo estamos generando nuevos datos. Este es un factor determinante del big data.

La segunda V se refiere a Volumen: A medida que se generan datos con mayor velocidad el tamaño de las capacidades de almacenamiento se incrementa. Anteriormente almacenar datos era complicado y costoso. Si comparamos lo que nos cuesta hoy almacenar un Tera, la relación del costo es de hasta 1 a 100. Esto trae como consecuencia la tendencia a acumular más datos.

La tercera V es Variedad: Generamos datos en todo momento, si llegamos a un lugar, que comemos, si nos gusto, si tomamos una foto, todo el tiempo estamos comunicando nuestra percepción del mundo y esto se convierte en datos. Si pensamos en otros dispositivos como por ejemplo las computadoras de los autos, estas generan información como la ruta, el tráfico, el estado de la maquinaria, el desgaste de las llantas, así se genera un sin fin de datos todo el tiempo. Cada interacción con el mundo genera datos que se almacenan en distintos formatos, de aquí la variedad.

Y la cuarta V es la Veracidad, tiene que ver con que si hoy consumo un dato ya sea de una persona o de una empresa enorme este dato sea consistente con la vez anterior que lo consumí o las siguientes interacciones. Al final lo que buscamos con Big Data es tomar decisiones fundamentadas en los datos que tenemos y que estos sean confiables.

El Big data se usa en distintas industrias

El Big Data nació para poder administrar estos grandes volúmenes y poder generar modelos que representen un hecho que me interesa observar, ya sea en su estado actual (p.e.: la salud de un negocio) o cómo podría verse en un futuro (ya sean predicciones, proyecciones o modelos que prescriban recomendaciones). Bajo este enfoque, consolidar los datos se convirtió en todo un reto. Aquí la ingeniería de datos juega un rol crucial para hacer que los datos lleguen a un solo punto y garantizar su integridad y consistencia.

Una vez que tenemos los datos en un solo lugar (aunque en realidad podrían ser muchos servidores distribuidos en el mundo). El siguiente reto es, ¿cómo sacamos beneficio de ellos? Debido a la velocidad de los cambios que surgen en estos datos y su gran variedad y volumen, los algoritmos computacionales tienen que adaptarse para que puedan darme información relevante para mis decisiones de negocio y personales, por ejemplo las recomendaciones de compras de amazon.

El Big Data se usa en muchas industrias, sobre todo en empresas de Retail, como mercado libre o Amazon, afinan modelos, para decidir qué tipo de públicos pueden estar interesados en ciertos productos, de acuerdo a sus hábitos, edad, costumbres, búsquedas, temporada del año, entre otras variables. Ellos mandan el mensaje adecuado a las personas correctas para conseguir sus metas. Ya no es un mensaje general, ahora es más específico. Conforme las empresas entienden qué es relevante para mi con base en datos, los modelos apoyados en big data ayudan a entender estas necesidades, para buscar el lograr el máximo impacto.

Cuando las estrategias de datos están enfocadas en la población pueden ayudar a entender las necesidades de salud, educación y transporte, pueden ayudar a temas como: ¿cuál es la mejor forma de habilitar una unidad de salud? Si la población que atiende tiene tendencias a obesidad, puedo implementar programas para las personas entre los 12 y 18 años para generar hábitos que tengan mayor impacto a largo plazo. La posibilidad de ayudar tiene más sentido y no es solo hacer por hacer.

La movilidad entra en estas utilidades del Big data, para tomar en cuenta las distancias, el riesgo del camino, complejidad o bien, los tiempos para desplazarse de una comunidad a otra. Se puede decidir la mejor ubicación para un centro de salud o social basada en todos los datos disponibles. Esto resulta muy muy útil para quienes deben tomar este tipo de decisiones.

Últimamente hemos escuchado que estos términos se han vuelto populares, pero los datos siempre han sido importantes, solo que antes no era tan fácil tenerlos a la mano, en los 60tas había que ir a los libros físicos, transcribirlos y era un proceso muy complejo, ahora se han vuelto más presentes porque todo el tiempo estamos generándolos y registrándolos.

No es que se hayan vuelto importantes, más bien entendimos que una buena administración, gobierno y resguardo ayuda a cambiar las condiciones de una empresa o persona, cuando alguien tiene organizados sus datos puede saber si puede irse de vacaciones, donde se puede hospedar, cuanto podría llegar a gastar. Se pueden hacer proyecciones sobre durante cuánto tiempo se tiene que ahorrar y que se puede obtener por ello. Imagina esto a gran escala con todas las posibles combinaciones de destinos y datos disponibles.

En cuestión de las organizaciones cada vez tenemos más presente que si tenemos más fuentes de datos consistentes y confiables, es más fácil alcanzar ciertas metas.

Cómo poner en práctica el Big data

Para entrar al mundo del big data hay varias fronteras, una es entender cómo se almacenan los datos, datos de gran volumen y cambiantes todo el tiempo, otra es como hacer para que esos datos puedan ser confiables y estén consolidados en un solo lugar y que sean lo suficientemente confiables para alimentar modelos y poder tomar decisiones.

Para hacer esto podrías convertirte en arquitecto de datos y diseñar el almacenamiento, diseñar las posibles fuentes y datos que necesitará tu organización.

Otra forma es la ingeniería de datos, donde tú puedes calcular la capacidad de cómputo que requieren los sistemas para que estén llegando a la velocidad necesaria, para que mis dispositivos de almacenamiento físicos o virtuales tengan la capacidad para almacenar lo que llega y los pueda mover de un punto a otro a la velocidad que requiere la organización. Y sobretodo, que siempre sean consistentes y confiables.

Por otra parte, ¿cómo puedo construir inteligencia a partir de los datos que tengo disponibles? En este campo surgen perfiles como los analistas de datos o el más sexy: los científicos de datos.

El analista se encarga de ver los datos que tiene disponibles la organización, cuáles son las fuentes, como están estructurados, como se almacenan, cómo se relacionan entre ellos, cuáles son sus ciclos de vida. Por otro lado, también son responsables de evaluar qué tan sanos y confiables están y cómo muestran un reflejo de la realidad que queremos estudiar.

El científico de datos nos ayuda a responder preguntas de negocio por ejemplo: ¿cuál es el estado de salud de mi negocio en cualquier momento del tiempo?, ¿qué variables tengo que comenzar a adquirir para llegar mayor rentabilidad? ¿Cómo hago a más usuarios felices? ¿Cómo colocar más productos en el mercado?, entre otras preguntas de negocio. Un científico de datos puede generar modelos que sean capaces de responderlas o documentar qué hace falta para construir los modelos que necesita la organización.

Existen muchas certificaciones, en donde puedes convertirte en arquitecto de datos, analista o científico de datos. Muchas de las grandes empresas como IBM, Google y Microsoft tienen sus propias certificaciones, cada uno se enfoca en sus productos, lo importante es aprender el corazón y los conceptos generales que son:

  • organizar y almacenar datos de formas que hagan ágil su consumo.
  • hacer que los datos diversos puedan construir una sola historia.
  • consolidar los datos en un solo punto que sea explotable para toda la organización.
  • construir modelos que saquen el máximo beneficio de los datos.
  • dar visibilidad de todas las métricas de negocio lo más cercano a tiempo real.
  • que la organización tenga disponibles datos en cualquier momento para acompañar la toma de decisiones.

Una vez que los aprendes podrías trabajar en cualquier organización, solo será cuestión de aprender las particularidades de cada institución a la que te vayas integrando.

Por Antonio Galindo, VP de Ingeniería en BEDU