El CTO de Microsoft Alemania, Andreas Braun, ha confirmado que GPT-4 llegará la semana del 9 de marzo de 2023 y será multimodal. La IA multimodal significa que podrá trabajar con múltiples tipos de entrada, como video, imágenes y sonido.
Grandes modelos de lenguaje multimodal
La gran conclusión del anuncio es que GPT-4 es multimodal (SEJ predijo que GPT-4 es multimodal en enero de 2023).
La modalidad es una referencia al tipo de entrada que (en este caso) procesa un modelo de lenguaje grande.
Multimodal puede abarcar texto, voz, imágenes y video.
GPT-3 y GPT-3.5 solo funcionaban en una modalidad, texto.
Según el informe alemán, GPT-4 podría funcionar en al menos cuatro modalidades, imágenes, sonido (auditivo), texto y video.
Se cita al Dr. Andreas Braun, CTO de Microsoft Alemania:
“Presentaremos el GPT-4 la próxima semana, allí tendremos modelos multimodales que ofrecerán posibilidades completamente diferentes, por ejemplo, videos…”
El informe carecía de detalles para GPT-4, por lo que no está claro si lo que se compartió sobre la multimodalidad era específico de GPT-4 o solo en general.
Director de Estrategia Comercial en Microsoft holger kenn explicó las multimodalidades, pero el informe no dejó claro si se refería a la multimodalidad GPT-4 o a la multimodalidad de género.
Creo que sus referencias a la multimodalidad eran específicas de GPT-4.
El informe compartido:
«Kenn explicó qué es la IA multimodal, que puede traducir texto no solo en imágenes, sino también en música y video».
Otro dato interesante es que Microsoft está trabajando en «medidas de fomento de la confianzapara basar su IA en hechos para hacerla más confiable.
microsoft kosmos-1
Algo que aparentemente se ha subestimado en los EE. UU. es que Microsoft lanzó un modelo de lenguaje multimodal llamado Kosmos-1 a principios de marzo de 2023.
Según información del sitio de noticias alemán, Heise.dmi:
«… el equipo sometió el modelo previamente entrenado a varias pruebas, con buenos resultados en la clasificación de imágenes, respondiendo preguntas sobre el contenido de la imagen, etiquetado automatizado de imágenes, texto de reconocimiento óptico y tareas de generación de voz.
…El razonamiento visual, es decir, sacar conclusiones a partir de imágenes sin utilizar el lenguaje como paso intermedio, parece ser clave aquí…»
Kosmos-1 es un modal multimodal que integra modalidades de texto e imagen.
GPT-4 va más allá que Kosmos-1 ya que agrega una tercera modalidad, video, y parece incluir también la modalidad de sonido.
Funciona en varios idiomas.
GPT-4 parece funcionar en todos los idiomas. Se le describe como capaz de recibir una pregunta en alemán y una respuesta en italiano.
Este es un ejemplo un poco extraño porque, ¿quién haría una pregunta en alemán y le gustaría recibir una respuesta en italiano?
Esto es lo que se ha confirmado:
“…la tecnología es tan avanzada que ‘funciona en todos los idiomas’: puedes hacer una pregunta en alemán y obtener una respuesta en italiano.
Con la multimodalidad, Microsoft (-OpenAI) «completará los modelos».
Creo que el punto del gran avance es que el modelo trasciende el lenguaje con su capacidad de extraer conocimiento a través de diferentes idiomas. Entonces, si la respuesta está en italiano, él la sabrá y podrá proporcionar la respuesta en el idioma en el que se hizo la pregunta.
Esto lo haría similar en propósito a la IA multimodal de Google llamada MUM. Se dice que mamá puede proporcionar respuestas en inglés para las cuales los datos solo existen en otro idioma, como el japonés.
Aplicaciones GPT-4
No hay ningún anuncio actual de dónde aparecerá GPT-4. Pero se mencionó específicamente Azure-OpenAI.
Google está luchando por ponerse al día con Microsoft mediante la integración de tecnología de la competencia en su propio motor de búsqueda. Este desarrollo exacerba aún más la percepción de que Google se está quedando atrás y carece de liderazgo en la IA del consumidor.
Google ya está integrando IA en varios productos como Google Lens, Google Maps y otras áreas donde los consumidores interactúan con Google. Este enfoque implica el uso de IA como tecnología de asistencia para ayudar a las personas con tareas pequeñas.
La forma en que Microsoft lo implementa es más visible y, como resultado, capta toda la atención y refuerza la imagen de Google como inquieto y luchando por ponerse al día.
Lea el informe alemán original aquí:
GPT-4 llegará la próxima semana, y será multimodal, según Microsoft Alemania
Imagen destacada de Shutterstock/Master1305
window.addEventListener( 'load2', function() { console.log('load_fin');
if( sopp != 'yes' && !window.ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'gpt-4-is-multimodal', content_category: 'news seo' }); } });

«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch
