Big Data: cómo procesar grandes volúmenes de información

 Por Evelio Martínez Martínez, This email address is being protected from spambots. You need JavaScript enabled to view it.

MUNDO DIGITAL
 
Introducción
La red Internet, la computación en la nube, los dispositivos móviles, los datos científicos, entre otra información, ha servido para el desarrollo de la ciencia y tecnología y otras áreas del conocimiento en el mundo. En la actualidad se ha visto que la cantidad de información que se ha generado en forma digital es inmensa. Según la compañía IBM, sólo en los últimos dos años se ha generado el 90% de la información total existente en el mundo. Por otro lado, la firma consultora Gartner, predice que la tasa de crecimiento anual de la información en el mundo es del 59%. .
 
Cada día se generan más de 2.2 millones de Terabytes de nuevos datos. Un Terabyte equivale a un 1 seguido por 12 ceros (1,000,000,000,000 bytes). Pero la cantidad de información que existe hoy en día, podría medirse ya en términos de Petabytes y Exabytes.Un Petabyte es equivalente a un 1 seguido de 15 ceros, mientras que un Exabyte equivale a un 1 seguido por 18 ceros de bytes. 
 
Para lograr la manipulación de tanta información ya existen nuevas propuestas tecnológicas. A esta nueva área dentro de las Tecnologías de la Información se le conoce como Big Data, o Grandes Datos en español.
 
¿Qué es Big Data?
“Son grandes y complejas colecciones de datos, los cuales, debido a su enorme tamaño es muy difícil su captura, curación, almacenamiento, búsqueda, compartición, análisis, visualización, administración, procesamiento, entre otras, utilizando las técnicas de software y base de datos tradicionales en un lapso de tiempo tolerable”. 
 
Los Grandes Datos están compuestos de información estructurada y sin estructurar, estos pueden estar en la red o fuera de la red. El 10% de la información está estructurada, la cual está dentro de bases de datos. El 90% de los Grandes Datos no está estructurada y corresponde a correos electrónicos, videos, tweets, comentarios en facebooks, conversaciones de centros de llamadas, videos de circuitos cerrados de TV, llamadas de teléfonos móviles, etc. 
 
Según la firma consultora, Gartner, los Grandes Datos pueden ser definidos usando las tres “V” de la siguiente manera:
  • Volumen: se refiere a los grandes volúmenes de información que se generan diariamente.
  • Velocidad: se refiere a la velocidad de como los datos deben ser producidos y procesados para satisfacer las demandas.
  • Variedad: se refiere a los diferentes tipos de formatos de información, ya sea estructurada y sin estructurar.

 

El 90% de los Grandes Datos fueron generados sólo en los últimos dos años
2.5 millones de Terabytes de nuevos datos son generados diariamente
Google procesa más 600 petabytes mensualmente
Más datos cruzan en Internet cada segundo que los almacenados en la misma red hace 20 años
 
Tecnologías para manipular los Grandes Datos
Muchos especialistas en el área han propuesto una variedad de tecnologías tanto de hardware como de software que podrían apoyar a la manipulación de los Grandes Datos, entre ellas, se encuentran las siguientes:
  • Servidores económicos con un abundante espacio de almacenamiento
  • Procesadores más rápidos
  • Procesamiento en paralelo masivo de bases de datos
  • Virtualización de servidores
  • Enormes ambientes de malla (grid) de minería de datos
  • Computación en la nube
  • Bases de datos orientadas a columnas
  • Bases de datos sin esquema
  • Algoritmos genéticos
  • Modelado predictivo
  • Aprendizaje supervisado y no supervisado
  • Aplicaciones como Hadoop, Hive, PIG, WibiData, Platfora y SkyTree.
  • entre otras
 
Conclusión
La manipulación de los Grandes Datos será en el futuro un gran reto para las organizaciones, pero también será un área oportunidad para otras.  
 
Imagínese compañías como Google, que no podría hacer con toda la información que generan los usuarios con las búsquedas. Google es capaz de detectar epidemias en base patrones de búsqueda de internautas en una región. Por otro lado, imagínese que se podría recolectar en una sola base de datos toda la información geosísmica del mundo. Pero que a la vez se pudiese procesar en cuestión de segundos. Se podrían detectar patrones para predecir movimientos de la Tierra que podrían, tal vez en un futuro cercano, la predicción de sismos y terremotos. Parece de ciencia ficción, pero todo esto se podría lograr con las nuevas tecnologías que se están desarrollando en el área de Big Data.
 
Como hemos mencionado, la forma tradicional para procesar la información de los Grandes Datos, se está volviendo obsoleta, así que nuevas maneras de manipularla están desarrollándose, esto abrirá nuevos paradigmas y nuevo conocimiento en las ciencias de la computación enfocadas en el desarrollo de nuevos algoritmos y formas para almacenar, organizar, buscar, etc., la enorme información que se está generando diariamente.
 
*El autor es profesor-investigador de la carrera de Lic. en Ciencias Computacionales de  la Facultad de Ciencias, UABC.
 
 
 
Hits: 23572

Licencia

Creative Commons License El contenido de la web está bajo licencia Creative Commons. Eres libre de copiar, distribuir y comunicar públicamente la obra. No puedes utilizar esta obra para fines comerciales. Si alteras, transformas o creas una obra a partir de esta obra, solo podrás distribuir la obra resultante bajo una licencia igual a ésta. Debes reconocer la autoría de la obra en los términos especificados por el propio autor o licenciante mediante un enlace a este Sitio. 

<a href="http://www.eveliux.com/mx/"> Eveliux.com </a>