Google anuncia Gemma: una IA de código abierto adecuada para portátiles

Google anuncia Gemma: una IA de código abierto adecuada para portátiles

Google ha lanzado un gran modelo de lenguaje de código abierto basado en la tecnología utilizada para crear Gemini, que es a la vez potente y liviano, optimizado para su uso en entornos con recursos limitados, como una computadora portátil o una infraestructura de nube.

Gemma se puede utilizar para crear un chatbot, una herramienta de generación de contenido y casi cualquier cosa que pueda hacer un modelo de lenguaje. Esta es la herramienta que los SEO estaban esperando.

Viene en dos versiones, una con dos mil millones de parámetros (2B) y otra con siete mil millones de parámetros (7B). El número de parámetros indica la complejidad y capacidad potencial del modelo. Los modelos con más parámetros pueden permitir una mejor comprensión del lenguaje y generar respuestas más sofisticadas, pero también requieren más recursos para entrenarse y ejecutarse.

El objetivo del lanzamiento de Gemma es democratizar el acceso a la inteligencia artificial de vanguardia, entrenada para ser segura y responsable desde el principio, con un conjunto de herramientas para optimizarla aún más en materia de seguridad.

Gemma de DeepMind

El modelo está desarrollado para ser liviano y eficiente, lo que lo hace ideal para llegar a más usuarios finales.

El anuncio oficial de Google destacó los siguientes puntos clave:

  • “Ofrecemos pesos de patrón en dos tamaños: Gemma 2B y Gemma 7B. Cada tamaño se lanza con variantes previamente entrenadas y adaptadas a las instrucciones.
  • Un nuevo kit de herramientas de IA generativa responsable proporciona orientación y herramientas esenciales para crear aplicaciones de IA más seguras con Gemma.
  • Proporcionamos cadenas de herramientas para inferencia y ajuste fino supervisado (SFT) en todos los marcos principales: JAX, PyTorch y TensorFlow a través de Keras 3.0 nativo.
  • Las notebooks Colab y Kaggle listas para usar, además de la integración con herramientas populares como Hugging Face, MaxText, NVIDIA NeMo y TensorRT-LLM, hacen que sea fácil comenzar con Gemma.
  • Los modelos Gemma previamente entrenados y fáciles de usar se pueden ejecutar en su computadora portátil, computadora de escritorio o Google Cloud con una fácil implementación en Vertex AI y Google Kubernetes Engine (GKE).
  • La optimización en múltiples plataformas de hardware de IA garantiza el máximo rendimiento, incluidas las GPU NVIDIA y las TPU de Google Cloud.
  • Los Términos de uso permiten el uso comercial y la distribución responsable para todas las organizaciones, independientemente de su tamaño.

El análisis de Gemma

Según un análisis de Awni Hannun, investigador de aprendizaje automático de Apple, Gemma está optimizado para ser altamente eficiente y poder usarse en entornos de bajos recursos.

READ  Durante el juicio de Epic, Phil Schiller se alejó

Hannun observó que Gemma tiene un vocabulario de 250.000 (250.000) tokens en comparación con los 32.000 de modelos comparables. La importancia de esto es que Gemma puede reconocer y procesar una variedad más amplia de palabras, lo que le permite manejar tareas con lenguaje complejo. Su análisis sugiere que este vocabulario ampliado mejora la versatilidad del modelo en diferentes tipos de contenido. También cree que puede resultar útil en matemáticas, codificación y otras áreas.

También se señaló que los “pesos de la integración” son enormes (750 millones). Los pesos integrados son una referencia a parámetros que ayudan a asignar palabras a representaciones de sus significados y relaciones.

Una característica importante que destacó es que los pesos incorporados, que codifican información detallada sobre el significado y las relaciones de las palabras, se utilizan no sólo para procesar la parte de entrada, sino también para generar la salida del modelo. Este intercambio mejora la eficiencia del modelo al permitirle explotar mejor su comprensión del lenguaje al producir texto.

Para los usuarios finales, esto significa respuestas (contenido) más precisas, relevantes y contextualmente apropiadas del modelo, mejorando su uso en la generación de contenido, así como para chatbots y traducciones.

Él tuiteó:

“El vocabulario es enorme en comparación con otros modelos de código abierto: 250 000 frente a 32 000 del Mistral 7B

Tal vez ayude mucho con matemáticas/código/otras modalidades con una cola de símbolos pesada.

Además, los pesos de integración son grandes (~750 millones de parámetros), por lo que se comparten con el cabezal de salida.

En un tweet de seguimiento, también señaló una optimización del entrenamiento que da como resultado respuestas del modelo potencialmente más precisas y refinadas porque permite que el modelo aprenda y se adapte de manera más efectiva durante la fase de entrenamiento.

READ  Microsoft: Windows 11 recibirá Copilot el 26 de septiembre; 365 Copilot para empresas el 1 de noviembre

Él tuiteó:

“El peso normativo RMS tiene un desplazamiento unitario.

En lugar de “x*peso” hacen “x*(1+peso)”.

Supongo que esto es una optimización del entrenamiento. Por lo general, el peso se inicializa en 1, pero es probable que se inicialice cerca de 0. Similar a todos los demás parámetros.

Añadió que hubo más optimizaciones en los datos y la capacitación, pero fueron estos dos factores los que se destacaron particularmente.

Diseñado para ser seguro y responsable

Una característica clave importante es que está diseñado desde cero para ser seguro, lo que lo hace ideal para su implementación y uso. Los datos de entrenamiento se han filtrado para eliminar información personal y confidencial. Google también utilizó el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) para entrenar el modelo para un comportamiento responsable.

Luego se depuró con refactorización manual, pruebas automatizadas y verificación de capacidad para detectar actividades peligrosas y no deseadas.

Google también lanzó un conjunto de herramientas para ayudar a los usuarios finales a mejorar aún más la seguridad:

“También estamos lanzando un nuevo Kit de herramientas de IA generativa responsable en colaboración con Gemma para ayudar a los desarrolladores e investigadores a priorizar la creación de aplicaciones de IA seguras y responsables. El kit de herramientas incluye:

  • Clasificación de seguridad: Proponemos una nueva metodología para crear clasificadores de seguridad robustos con ejemplos mínimos.
  • Depuración: una herramienta de depuración de modelos le ayuda a estudiar el comportamiento de Gemma y resolver problemas potenciales.
  • Orientación: puede acceder a las mejores prácticas para creadores de modelos basadas en la experiencia de Google en el desarrollo e implementación de modelos de lenguaje grandes.

Lea el anuncio oficial de Google:

READ  Snapchat está comenzando a implementar esta función de ubicación similar a WhatsApp

Gemma: Presentamos nuevos modelos abiertos de última generación

Imagen destacada de Shutterstock/Photo for Everything

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *