Desde hace tiempo el término Big Data está adquiriendo notoriedad y relevancia hasta convertir esta tecnología en uno de los paradigmas tecnológicos disruptivos de este siglo.
Big Data hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos.
La primera vez que oímos este término fue en 2004 cuando dos ingenieros de Google publicaron un artículo titulado «MapReduce: Simplified Data Processing on Large Clusters».
En él describían un modelo de programación que daba respuesta a necesidades del propio Google y que permitía simplificar el procesamiento de grandes volúmenes de datos y al que bautizaron como MapReduce (hablaremos de él en próximos posts).
Haciendo un poco de historia el primer proceso que podríamos calificar como Big Data nació para hacer estadísticas y en él se usaban tarjetas perforadas creadas por operadores.
Con el paso del tiempo, los usuarios empezaron a interactuar directamente con las máquinas, ya no eran operadores. Nada era más importante para los departamentos IT que atender las peticiones de esos usuarios, que demandaban rápidas respuestas en el tratamiento y uso de esos datos. La información crecía de manera exponencial y cada vez era más accesible para los usuarios que demandaban gran cantidad de informes.
Aparecieron las primeras herramientas de consulta, el usuario podía generarse sus propios informes, se empezaron a manejar conceptos como el de Datawarehouse, Datamars o la Analítica de negocio. Había empezado a nacer el Big Data, un modelo que ha venido para quedarse y con el que tendremos que familiarizarnos y saber dónde y cómo está presente.
La importancia de la categorizar los datos
Es muy importante clasificar los datos cuando vamos a trabajar con grandes volúmenes de información. Dos de las categorías más utilizadas en Big Data son las relacionadas con la estructura de los datos y con el origen de los mismos.
En lo que a estructura se refiere, los tipos de datos suelen organizarse en dos categorías: datos no estructurados y datos estructurados.
La gestión de los datos no estructurados se ha convertido en uno de los principales retos a los que hacen frente las compañías en lo relativo a gestión de la información y Big Data. Son aquellos datos no almacenados en una base de datos tradicional y su índice de crecimiento es muy superior al de los datos estructurados.
Hablamos de datos estructurados cuando tienen bien definidas su longitud y su formato. Vienen a representar el 20% de los datos que maneja una compañía.
En cuanto al origen es muy diverso, hablamos de datos generados en redes sociales, datos procedentes del correo electrónico, documentos tipo Word, Excel, Power Point, etc. Para su tratamiento, es necesario utilizar arquitecturas específicas donde la escalabilidad es una característica imprescindible debido a las necesidades crecientes de procesamiento y almacenamiento.
No existe un único criterio para clasificar el origen de los datos pero si podemos pensar en estos grupos:
- Internet: información de clics, búsquedas en buscadores, contenido web e información de las diferentes redes sociales ( Twitter, Facebook, Linkedin,… ).
- Machine to Machine (M2M): Comunicación entre máquinas, hablamos de datos RFID, GPS, sensores que capturan temperatura, luz, altura, presión, sonido, etc.
- Biométricos, reconocimiento facial e información genética.
- Creados por el ser humano: Hablamos de informes médicos, grabaciones, emails, etc.
- Transacciones: registro de comunicaciones, registros de facturación, operaciones bancarias, etc.
Internet de las Cosas y Big Data
Otro concepto muy relacionado con el Big Data es el de Internet de las Cosas (Internet of Things o IoT) y que se refiere a la tecnología que permite que todas las cosas estén conectadas a internet. El año pasado IBM ya anunció que la primera fuente de información para el Big Data sería el Internet de las Cosas.
Si unificamos las dos tecnologías, Big Data e Internet de las Cosas, conseguimos desarrollar proyectos como el llevado a cabo por la escudería de Fórmula 1 McLaren – Honda, en colaboración con IBM, donde a través de 160 sensores incorporados en el monoplaza se ha recogido información, la cual se ha transmitido en tiempo real a unos servicios cloud y se ha analizado por la aplicación de computación cognitiva IBM Watson.
El uso de esta tecnología ha permitido al equipo tomar decisiones en tiempo real durante una carrera, basadas en información recogida y analizada a través del Big Data y la computación cognitiva.
Si los análisis y las estadísticas no fallan, Fernando Alonso volverá a ser Campeón del Mundo de Fórmula 1, así lo predice el Big Data.
Si queréis saber más sobre Big Data e Internet de las Cosas os animo a inscribiros en alguno de los cursos que organizamos periódicamente, puedes solicitar más información en formacion.efor.es
Deja una respuesta
Lo siento, debes estar conectado para publicar un comentario.