CambioDigital-OL

0

3 plataformas de big data que miran más allá de Hadoop

BigData3Un sistema de archivos distribuido, un marco de programación de MapReduce y una extensa familia de herramientas para procesar grandes conjuntos de datos en grandes grupos de hardware básico, Hadoop ha sido sinónimo de “big data” durante más de una década. Sin embargo, ninguna tecnología puede ser el centro de atención para siempre.

Hadoop sigue siendo una parte esencial de las plataformas de big data, y sus principales proveedores -concretamente Cloudera, Hortonworks y MapR- han cambiado sus plataformas de forma espectacular. Los proyectos que alguna vez fueron periféricos como Apache Spark y Apache Kafka se han convertido en las nuevas estrellas, y el enfoque ha cambiado para centrarse en otras formas de profundizar en los datos y extraer información.

Hagamos un breve recorrido por las tres principales plataformas de big data para ver lo que cada una agrega a la mezcla de las tecnologías de Hadoop para diferenciarlas, y la manera en la que están evolucionando para abarcar una nueva era de contenedores, Kubernetes, aprendizaje automático y aprendizaje profundo.

Cloudera Enterprise Data Hub
Cloudera fue el primero en comercializar una distribución de Hadoop -hecho poco sorprendente, dado que su equipo central estaba formado por ingenieros que habían aprovechado Hadoop en lugares como Yahoo, Google y Facebook. El co-creador de Hadoop, Doug Cutting, es el arquitecto principal.

La estrategia de la empresa con Cloudera Enterprise Data Hub (EDH) es “seleccionar y ampliar” los proyectos de fuente abierta en el ecosistema de Hadoop para proporcionar una plataforma con licencia comercial, y soporte y servicio de grado empresarial como parte de la etiqueta de precio. Esta también ofrece una distribución Hadoop de fuente abierta y gratuita, llamada Cloudera Data Hub (CDH). Además, Cloudera ofrece una edición de prueba de 60 días de EDH como otra forma de comenzar.

Dónde descargar Cloudera: Cloudera proporciona varias formas de descargar y usar CDH. Las imágenes de VMs y Docker se pueden usar para ejecutar el EDH de manera local, Cloudera Manager se puede usar para implementar CDH y EDH (incluida la versión de prueba) en un cluster y Cloudera Director puede implementar entornos en la nube, entre ellos Amazon a través de AWS Quick Start.

Características únicas de Cloudera: Cloudera se ha centrado en Apache Spark, y en otros proyectos relacionados con Spark, como el corazón y el alma de su distribución. Aprovechando al máximo el motor de análisis unificado, Cloudera utiliza Spark Streaming, Spark MLlib y Spark SQL para datos de transmisión en tiempo real, aprendizaje automático y consulta de datos al estilo SQL, respectivamente.

Un importante valor añadido proporcionado por Cloudera es su software Cloudera Navigator, un conjunto de herramientas patentadas de gestión y optimización de datos. Este monitorea la procedencia de los datos en una organización para la gestión, el cumplimiento y la auditoría; proporciona estadísticas continuas de la utilización de la carga de trabajo de datos; y recomienda estrategias de ubicación de datos para que coincidan.

Los aspectos de aprendizaje automático nativos de Cloudera EDH se limitan a Spark MLlib. El soporte nativo para TensorFlow, por ejemplo, no es una función de EDH anunciada. Sin embargo, el producto Cloudera Data Science Workbench proporciona un front-end de ciencia de datos fácil de usar para EDH, donde los usuarios finales pueden crear sus propias integraciones entre EDH y algunos marcos como TensorFlow.

Hortonworks Data Platform
La Plataforma de Datos de Hortonworks (HDP) es una distribución de Hadoop de fuente abierta y pura. El producto en sí es de uso gratuito. Los clientes empresariales de Hortonworks pagan por el soporte y también reciben herramientas proactivas de solución de problemas (que son de su propiedad) para evitar futuros problemas.

Dónde descargar Hortonworks: 
El sitio web de Hortonworks proporciona descargas de HDP en múltiples formatos. Los instaladores automatizados pueden implementarlo en una variedad de arquitecturas locales o en la nube, y los RPMs están disponibles para aquellos que desean implementarlos manualmente. Las versiones anteriores de HDP están disponibles como ediciones de Hortonworks Sandbox, que son entornos HDP preconfigurados y empaquetados en una máquina virtual para uso de desarrollo y prueba.

Características únicas de Hortonworks: 
HDP 3.0, ahora en GA, incluye aprovisionamiento automático para entornos en la nube y formatos nativos de la nubede almacenamiento de datos (por ejemplo, Amazon S3 y Google Cloud Storage), funcionalidad de consulta interactiva SQL a través de Apache Hive y soporte para procesamiento basado en GPU.

La nueva adición más significativa involucra contenedores. Las aplicaciones en contenedores Docker se pueden ejecutar como trabajos YARN al lado de las cargas de trabajo tradicionales de Hadoop. La implementación en dichos contenedores es una forma útil de garantizar que un trabajo se pueda ejecutar con una edición específica de un language runtime. También es posible ejecutar contenedores en Kubernetes, a través de Kubernetes en YARN, en el que este último se utiliza como planificador del primero.

Otra característica nueva, actualmente disponible como vista previa de tecnología, le permite implementar aplicaciones de aprendizaje profundo de TensorFlow en contenedores a través de un cluster de HDP. Este es claramente un paso para convertir a HDP en una plataforma de inteligencia de máquina, de punta a punta.

MapR Converged Data Platform
El producto insignia de MapR, rebautizado como “Plataforma de Datos de Convergencia de MapR” en el 2016, se encuentra entre Hortonworks y Cloudera en términos de licencias. MapR, por un lado, tiene una distribución tipo comunidad completamente abierta, que se puede usar libremente; y, por el otro, ofrece una edición empresarial de pago con alta disponibilidad, capturas de datos, recuperación ante desastres, soporte técnico y otras características de nivel empresarial.

Dónde descargar MapR: 
MapR ofrece un paquete de instalación para implementar, ya sea la edición de comunidad o empresa. Las implementaciones en la nube están disponibles directamente para AWS, Microsoft Azure, Google Cloud y otros proveedores de nube en todo el mundo. MapR también ofrece una edición de “Sandbox“, con imágenes de máquinas virtuales disponibles para VMware o VirtualBox.

Características únicas de MapR:
 Plataforma de Datos de Convergencia de MapR consta de tres componentes principales: el sistema de archivos MapR-FS (esencialmente, integración transparente de múltiples paradigmas de almacenamiento de datos en las interfaces del sistema de archivos, incluyendo el HDFS de Hadoop), una base de datos de documentos al estilo NoSQL y un motor de transmisión de eventos compatible con Apache Kafka.

Este motor de transmisión de eventos MapR Streams compatible con Kafka es otro de los principales diferenciadores de MapR, con su énfasis en los escenarios de procesamiento de edgeen línea, en transmisión y en tiempo real. Una pequeña y compacta edición de MapR llamada MapR Edge está diseñada para procesar datos en escenarios de IoT.

MapR ha hecho espacio en su plataforma para acomodar/alojar a dos tendencias recientes y significativas: contenedores y aprendizaje automático. Las imágenes de Docker se pueden programar y ejecutar en un cluster de MapR utilizando Kubernetes, y MapR proporciona un controlador de volumen de Kubernetes que permite que esos contenedores se conecten directamente a los recursos de MapR-FS.

Serdar Yegulalp, InfoWorld

Ordenado por: Big Data Tags: 

TOT

 

 

Contenidos recomendados...

Comparta esta publicación

Artículos relacionados

Escriba su comentario

Ud. tiene que estar conectado para publicar comentarios.

Red de publicaciones IDG en Latinoamérica: Computerworld Ecuador - Computerworld Colombia - CIO Perú // Contáctenos
© 5417 Computerworld Venezuela - All rights reserved ---- WordPress - Tema adaptado por GiorgioB