0

6 proyectos para automatizar el aprendizaje de máquina

machine-learningEl poder del aprendizaje de máquina viene con un precio. Una vez que cuenta con las habilidades, el kit de herramientas, el hardware, y los datos, sigue existiendo la complejidad involucrada en la creación y afinamiento de un modelo de aprendizaje de máquina.

Pero si el propósito absoluto del aprendizaje de máquina es automatizar tareas que previamente requerían de un ser humano al mando, ¿no sería posible usar aprendizaje de máquina para restarle algo del trabajo tedioso al propio aprendizaje de máquina?

Respuesta rápida: Ciertamente, sí. Una colección de técnicas, bajo el título general de “aprendizaje de máquina automatizado”, o AML, puede reducir el trabajo necesario para preparar un modelo y refinarlo incrementalmente para mejorar su precisión.

El aprendizaje de máquina automatizado se encuentra en sus etapas tempranas. Hoy en día es implementado como un gran conjunto de partes disparejas y tecnologías desconectadas, pero está moldeándose rápidamente para ser producido, y estar disponible para el usuario de negocio promedio, en lugar de para el experto en aprendizaje de máquina.

A continuación, tenemos seis herramientas de aprendizaje de máquina automatizado que están allanando el camino.

Auto-sklearn y Auto-Weka
Dos ejemplos de aprendizaje de máquina automatizado, cuyo uso ya se encuentra en expansión, vienen en la forma de mejorar para el ampliamente utilizado proyecto, Scikit-learn, un paquete de funciones comunes de aprendizaje de máquina.

Scikit-learn viene con muchas funciones de “estimador” distintas, o metodologías para aprendizaje en base a datos proporcionados. Debido a que elegir el estimador correcto puede ser un ejercicio tedioso, el proyecto Auto-sklearn apunta a deshacerse de parte de ese tedio. Proporciona una función genérica de estimador que conduce sus propios análisis para determinar el mejor algoritmo y programar los hiperparámetros para un trabajo específico de Scikit-learn.

El Auto-sklearn aún requiere de algo de intervención manual. El usuario final tiene que establecer límites sobre cuánta memoria y tiempo puede generar el proceso de afinamiento. Pero es mucho más fácil tomar esas decisiones y permitirle a la máquina decidir el resto con el tiempo, que reparar las selecciones de modelo y los hiperparámetros.

Para los que están aprendiendo el aprendizaje de máquina usando java y el paquete de aprendizaje de máquina, Weka, existe un proyecto similar llamado Auto-Weka. Auto-sklearn fue de hecho inspirado por el trabajo realizado para Auto-Weka.



Prodigy
Un aspecto intensivo en mano de obra en la creación de modelos supervisados de aprendizaje de máquina -como el procesamiento del lenguaje natural- es la fase de anotación. Un ser humano tiene que crear metadatos a mano para describir, o anotar, los datos empleados por el modelo.

No es posible automatizar completamente ese proceso -al menos todavía no. Sin embargo, es posible usar el aprendizaje de máquina para acelerar el proceso y hacerlo menos irritante.

Esa es la premisa detrás de la herramienta de anotación llamada Prodigy. Ésta usa una interfaz web para hacer que el proceso de entrenamiento le sea tan rápido e intuitivo como sea posible para los modelos que necesitan anotar conjuntos de datos. Las anotaciones que ya han sido añadidas al conjunto de datos son usadas para guiar anotaciones futuras, ayudando a acelerar el proceso de anotación con el paso del tiempo.

Prodigy hace un uso sólido de Python como ambiente de aprendizaje de máquina. Proporciona módulos de Python para modelos de entrenamiento, poniéndolos a prueba, explorando conjuntos de datos anotados y administrando los resultados entre los proyectos. Los modelos terminados pueden ser exportados como paquetes de Python y puestos directamente en producción mediante cualquier otra aplicación de Python.

Driverless AI de H2o
Driverless AI de H2o.ai es otro producto que apunta a lograr que el aprendizaje de máquina esté más al alcance de aquellos que no son expertos. Driverless AI está diseñada para usuarios de negocio que estén familiarizados con productos como Tableau, y que desean adquirir conocimientos de los datos sin tener que aprender todo respecto a los algoritmos del aprendizaje de máquina.

Al igual que Prodigy, Driverless AI utiliza una interfaz de usuario en web. Aquí, el usuario escoge una o más variables objetivo para resolver en el conjunto de datos, y el sistema provee la respuesta. Los resultados son presentados por medio de cuadros interactivos y explicados con anotaciones en inglés simple.

A diferencia de Prodigy, Driverless AI es un producto propietario. Mucho del stack de H20.ai es de código abierto, pero este componente en particular no lo es. Es una señal de que los productos comerciales, en lugar de los stacks de código abierto, podrían ser el método primario para llevar el aprendizaje de máquina a los usuarios que no son técnicos.

AutoML y Vizier de Google
En meses recientes, Google ha señalado hacia dos de sus propios proyectos -aunque proyectos enteramente internos- como ejemplos de cómo la compañía se encuentra implementando el aprendizaje de máquina automatizado.

El primer proyecto, “AutoML”, fue creado para automatizar el diseño de modelos de aprendizaje profundo de capas múltiples.

“El proceso de diseñar redes con frecuencia requiere una cantidad significativa de tiempo y experimentación por parte de aquellos con una experiencia significativa en aprendizaje de máquina”, afirma Google. En lugar de tener a seres humanos probando un diseño de aprendizaje profundo tras otro, AutoML usa un algoritmo de aprendizaje de refuerzo para probar miles de posibles redes. La retroalimentación de cada operación del algoritmo puede ser usada para crear nuevas arquitecturas candidatas para la siguiente operación. Con suficientes operaciones, el mecanismo de entrenamiento puede descifrar cuál de las creaciones de modelos generan mejores resultados.

Otro producto de Google, bautizado como Google Vizier y mostrado en un artículo publicado en agosto, es un “servicio para la optimización de la caja negra”. En palabras más simples, es una forma de encontrar mejores parámetros de operación para un sistema en casos donde es difícil correlacionar entre los parámetros que ingresa y los resultados que extrae.

Según el artículo, Google usó a Vizier para estudiar cuántos de sus propios servicios podían ser mejorados mediante ajustes en sus comportamientos. Los ejemplos incluyeron “afinamiento de los parámetros de usuario-interfaz como los tamaños de la fuente y de las imágenes reducidas, esquema de color, y espaciado, o parámetros de servicio de tráfico como el de la importancia relativa de varias señales para la determinación de cuáles ítems se muestran a un usuario”.

En estos momentos, Vizier es solo de uso interno en Google. Pero no es descabellado esperar que Google eventualmente ofrezca una versión producida para el público de este servicio o hasta que lo lance como parte de un proyecto de código abierto, de la misma manera en que TensorFlow fue desarrollado internamente y después lanzado al mundo en general.

Serdar Yegulalp, InfoWorld.com

Ordenado por: A.I. Tags: 

Contenidos recomendados...

Comparta esta publicación

Artículos relacionados

Escriba su comentario

Ud. tiene que estar conectado para publicar comentarios.

Red de publicaciones IDG en Latinoamérica: Computerworld Ecuador - Computerworld Colombia - CIO Perú // Contáctenos
© 3505 Computerworld Venezuela - All rights reserved ---- WordPress - Tema adaptado por GiorgioB