CambioDigital-OL

0

¿Qué es Big Data? Todo lo que necesita saber

Informe_Tendencias_BigDataBig Data en general se refiere a los conjuntos de datos que son tan grandes en volumen y tan complejos, que los productos de software de procesamiento de datos tradicionales no son capaces de capturar, administrar y procesar los datos dentro de un período de tiempo razonable.

Estos grandes conjuntos de datos pueden incluir datos estructurados, no estructurados y parcialmente estructurados, cada uno de los cuales puede extraerse para obtener estadísticas.

La cantidad de datos que realmente constituyen lo “Big” está abierta al debate, pero normalmente pueden ser múltiplos de petabytes -y para los proyectos más grandes encontrarse en el rango de los exabytes.

A menudo, el Big Data se caracteriza por las tres V:
– Un volumen extremo de datos
– Una variedad amplia de tipos de datos
– La velocidad a la que los datos deben ser procesados y analizados

Los datos que componen los almacenes de Big Data pueden provenir de fuentes como los sitios web, redes sociales, aplicaciones de escritorio y móviles, experimentos científicos y, cada vez más, sensores y otros dispositivos en la Internet de las cosas (IoT, por sus siglas en inglés).

El concepto de Big Data viene con un conjunto de componentes relacionados que permiten a las organizaciones poner los datos en práctica, y resolver una serie de problemas comerciales. Éstos incluyen la infraestructura de TI necesaria para soportar el Big Data; la analítica aplicada a los datos; las tecnologías necesarias para los proyectos de Big Data; los conjuntos de habilidades relacionados; y los casos de uso reales que tienen sentido para Big Data.

Big Data y la analítica
Lo que realmente genera valor de todo el big data que las organizaciones están reuniendo es la analítica aplicada a los datos. Sin analítica, solo se trata de un conjunto de datos con uso comercial limitado.

Al aplicar la analítica al big data, las empresas pueden disfrutar de beneficios tales como el aumento en las ventas, la mejora en el servicio al cliente, el aumento de la eficiencia y un impulso general en la competitividad.

La analítica de datos implica examinar conjuntos de datos para obtener información o sacar conclusiones sobre lo que contienen, como las tendencias y las predicciones sobre las actividades futuras.

Al analizar los datos, las organizaciones pueden tomar decisiones comerciales mejor informadas, como cuándo y dónde ejecutar una campaña de marketing o presentar un nuevo producto o servicio.

La analítica puede referirse a aplicaciones básicas de inteligencia de negocio o a analítica predictiva más avanzada, como la que utilizan las organizaciones científicas. Entre los tipos más avanzados de analítica de datos se encuentra la minería de datos, donde los analistas evalúan grandes conjuntos de datos para identificar relaciones, patrones y tendencias

La analítica de datos puede incluir análisis exploratorio de datos (para identificar patrones y relaciones en los datos) y análisis confirmatorio de datos (aplicando técnicas estadísticas para averiguar si una suposición sobre un conjunto de datos en particular es verdadera).

Otra distinción es el análisis de datos cuantitativos (o el análisis de datos numéricos que tienen variables cuantificables que se pueden comparar estadísticamente) frente al análisis de datos cualitativos (que se centra en datos no numéricos como video, imágenes y texto).

La infraestructura de TI para soportar Big Data
Para que funcione el concepto de Big Data, las organizaciones deben contar con la infraestructura necesaria para recopilar y almacenar los datos, proporcionar acceso a ellos y proteger la información mientras está almacenada y en tránsito.

A un alto nivel, estos incluyen sistemas y servidores de almacenamiento diseñados para Big Data, software de integración y administración de datos, software de inteligencia de negocios y de analítica de datos, así como aplicaciones de Big Data.

Gran parte de esta infraestructura probablemente se encuentre on-premises, ya que las empresas buscan continuar aprovechando sus inversiones en centros de datos. Pero cada vez más las organizaciones confían en los servicios de computación en la nube para manejar gran parte de sus requerimientos de Big Data.

La recopilación de datos requiere tener fuentes para recopilar los datos. Muchos de éstas, como las aplicaciones web, canales de redes sociales, aplicaciones móviles y archivos de correo electrónico, ya están en funcionamiento. Pero a medida que la IoT se afianza, las empresas pueden necesitar instalar sensores en todo tipo de dispositivos, vehículos y productos para recopilar datos, así como también nuevas aplicaciones que generan datos de usuarios. (El análisis de Big Data orientado a la IoT tiene sus propias técnicas y herramientas especializadas).

Para almacenar todos los datos entrantes, las organizaciones deben contar con un almacenamiento de datos adecuado. Entre las opciones de almacenamiento se encuentran los depósitos de datos tradicionales, los lagos de datos y el almacenamiento en la nube.

Las herramientas de infraestructura de seguridad pueden incluir el cifrado de los datos, la autenticación de usuarios y otros controles de acceso, sistemas de monitoreo, firewalls, administración de la movilidad empresarial y otros productos para proteger sistemas y datos.

Tecnologías específicas para Big Data
Además de la infraestructura de TI anterior utilizada para los datos en general. Existen varias tecnologías específicas para Big Data que su infraestructura de TI debe soportar.

Ecosistema de Hadoop: Hadoop es una de las tecnologías más estrechamente asociadas con Big Data. El proyecto Apache Hadoop desarrolla software de código abierto para computación distribuida y escalable.

La biblioteca de software de Hadoop es un marco que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras que usan modelos de programación simples. Está diseñado para crecer desde un solo servidor a miles, cada uno de ellos ofrece cómputo y almacenamiento local.

El proyecto incluye varios módulos:
– Hadoop Common, las utilidades comunes que admiten otros módulos de Hadoop
– Hadoop Distributed File System, que proporciona acceso de alto rendimiento a los datos de la aplicación
– Hadoop YARN, un marco para la programación de trabajos y la gestión de recursos de clúster
– Hadoop MapReduce, un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

Apache Spark: Parte del ecosistema de Hadoop, Apache Spark es un marco de trabajo para computación de clúster de código abierto que sirve como motor para procesar Big Data dentro de Hadoop. Spark se ha convertido en uno de los principales marcos de procesamiento distribuido de Big Data, y se puede implementar de varias formas. Proporciona enlaces nativos para Java, Scala, Python (especialmente la distribución Anaconda Python) y los lenguajes de programación R (R es especialmente adecuado para Big Data), y es compatible con SQL, transmisión de datos, aprendizaje de máquina y procesamiento de gráficos.

Lagos de datos: Los lagos de datos son depósitos de almacenamiento que contienen volúmenes extremadamente grandes de datos en bruto, en su formato nativo, hasta que los usuarios comerciales los necesitan. Ayudar a impulsar el crecimiento de los lagos de datos son iniciativas de transformación digital y el crecimiento de la IoT. Los lagos de datos están diseñados para facilitar a los usuarios el acceso a grandes cantidades de datos cuando surge la necesidad.

Bases de datos NoSQL: Las bases de datos SQL convencionales están diseñadas para transacciones confiables y consultas ad hoc, pero vienen con restricciones tales como esquemas rígidos que las hacen menos adecuadas para algunos tipos de aplicaciones. Las bases de datos NoSQL resuelven esas limitaciones y almacenan y gestionan los datos de forma que permiten una gran velocidad operativa y una gran flexibilidad. Muchas fueron desarrolladas por compañías que buscaban mejores formas de almacenar contenido o procesar datos para sitios web masivos. A diferencia de las bases de datos SQL, muchas bases de datos NoSQL pueden crecer horizontalmente en cientos o miles de servidores.

Bases de datos en memoria: Una base de datos en memoria (IMDB) es un sistema de gestión de bases de datos que se basa primariamente en la memoria principal, en lugar de la del disco, para el almacenamiento de datos. Las bases de datos en memoria son más rápidas que las bases de datos optimizadas para disco, una consideración importante para los usos de la analítica de Big Data y la creación de data warehouses y data marts.

Habilidades de Big Data
Los esfuerzos de Big Data y Big Data Analytics requieren habilidades específicas, ya sea que provengan del interior de la organización o de expertos externos.

Muchas de estas habilidades están relacionadas con los componentes clave de la tecnología de Big Data, como Hadoop, Spark, bases de datos NoSQL, bases de datos en memoria y software de analítica.

Otros son específicos de disciplinas tales como ciencia de datos, minería de datos, análisis estadístico y cuantitativo, visualización de datos, programación de propósito general y estructura de datos y algoritmos. También es necesario que las personas con habilidades administrativas generales supervisen los proyectos de Big Data hasta su finalización.

Dado lo comunes que se han vuelto los proyectos de analítica de Big Data y la escasez de personas con este tipo de habilidades, encontrar profesionales experimentados podría ser uno de los mayores desafíos para las organizaciones.

Casos de uso de Big Data
El big data y la analítica se pueden aplicar a muchos problemas de negocios y casos de uso. Aquí están algunos ejemplos:

– Analítica del cliente. Las empresas pueden examinar los datos de los clientes para mejorar la experiencia de éstos, optimizar las tasas de conversión y aumentar la retención.

– Analítica operativa. Mejorar el rendimiento operativo y hacer un mejor uso de los activos corporativos son los objetivos de muchas empresas. La analítica de Big Data puede ayudar a las empresas a encontrar formas de operar de manera más eficiente y mejorar el rendimiento.

– Prevención de fraudes.
La analítica de datos puede ayudar a las organizaciones a identificar actividades y patrones sospechosos que podrían indicar un comportamiento fraudulento y ayudar a mitigar los riesgos.

– Optimización de los precios.Las empresas pueden usar la analítica de Big data para optimizar los precios que cobran por productos y servicios, lo que ayuda a aumentar los ingresos.

Bob Violino, InfoWorld.com – CIOPeru.pe

Ordenado por: De interés y curiosidades Tags: 

TOT

 

 

Contenidos recomendados...

Comparta esta publicación

Artículos relacionados

Escriba su comentario

Ud. tiene que estar conectado para publicar comentarios.

Red de publicaciones IDG en Latinoamérica: Computerworld Ecuador - Computerworld Colombia - CIO Perú // Contáctenos
© 2018 Computerworld Venezuela - All rights reserved ---- WordPress - Tema adaptado por GiorgioB