12.1 Big Data

Big data es un término sin definición clara. Es utilizado para describir un gran volumen de datos estructurados y/o no-estructurados.

La mayoría de los científicos y personas de Tecnologías de la Información están acostumbrados a trabajar con datos estructurados. Estos son simplemente datos que están escritos en un formato que es fácilmente comprensible por las computadoras y que por tanto se pueden procesar con algoritmos básicos. Este tipo de datos entra de manera natural en una base de datos relacional (ahondaremos un poco en esto más adelante) puesto a que se pueden asociar los datos de manera inequívoca a campos fijos.

Los datos no-estructurados son aquellos que no pueden sencillamente asociarse a una estructura como la anterior. Ni siquiera asignarle campos porque naturalmente no están asociados a un modelo de datos. Ejmplos de esto: presentaciones de powerpoint, archivos PDF, tweets, videos digitales.

Tómense 10 minutos para pensar en 2 ejemplos de datos estructurados y 2 de datos no-estructurados en biodiversidad. Anotar por qué son el uno o el otro.

Ahora bien, anuque el término Big Data es relativamente nuevo, producir y almacenar relativamente grandes cantidades de datos para llevar a cabo análisis es una práctica antigua. El concepto Big Data se popularizó a principio de los años 2000s cuando el analista Doug Laney articuló una definición de Big Data conocida como las tres V’s:

  • Volumen: las organizaciones colectan simultáneamente datos de múltiples fuentes.

  • Velocidad: los flujos de datos son cada vez más veloces, por ejemplo datos provenientes de sensores nos otorgan datos prácticamente en tiempo real.

  • Variedad: los datos vienen en todo tipo de formatos, estructurados y no-estrucutrados.

A este se han agregado otras características que es importante tener en mente, sobre todo en ecología, biodiversidad, etc

  • Variabilidad: además de la creciente velocidad y variabilidad de datos, los flujos de datos tienden a ser muy inconsistentes, por ejemplo con grandes sesgos temporales y espaciales.

  • Complejidad: los datos cada vez vienen de más fuentes, lo cuál los hace difícil limpiarlos, transformarlos, asociarlos y unificarlos para poder meterlos a un solo sistema para luego ser analizados en conjunto.

Tómense 10 minutos para formular un ejemplo de análisis de datos en el tema de biodiversidad donde se requieren múltiples fuentes de datos, describir de dónde provienen tales datos, su velocidad, variabilidad y complejidad.

Ahora hay que aclarar que el Big Data no es valioso en sí mismo. Realmente no importa la cantidad de datos que se tienen, lo que importa es lo que hacen las organizacions con ellos. Lo importante es que el Big Data tiene el potencial de generar conocimiento que lleve a mejores decisiones y estrategias.