La multimodalidad narrada al estilo bíblico

La multimodalidad narrada al estilo bíblico

La “multimodalidad” fue elegida por la revista Time como una de las tres innovaciones más importantes en Inteligencia Artificial en el pasado año. Se refiere a la capacidad de los modelos de IA generativa de procesar no solo texto sino también audio, imágenes y videos.

En 2023 ya se hicieron públicos modelos multimodales que admiten imágenes como entrada, como GPT-4V de OpenAI o Gemini de Google. Sin embargo, es algo que acaba de empezar y que aún tiene que mostrar todo su potencial. Sam Altman, CEO de OpenAI, afirmó que la multimodalidad sería uno de los temas clave a tener en cuenta en 2024 en los modelos de su empresa. Por su parte, el cofundador de DeepMind, Shane Legg, dijo en una entrevista "Todavía estamos en los primeros días de esta transición a la multimodalidad, y cuando los modelos empiecen realmente a digerir vídeos e imágenes de manera masiva, empezarán a tener una comprensión mucho más sólida del mundo".

Este último punto es muy interesante. Más allá de las ventajas y posibilidades que la multimodalidad brinda a los usuarios que consumimos los modelos, emerge un tema de trasfondo más filosófico. Los modelos fundacionales que han sido entrenados solo con texto han hecho su “composición interna” del mundo en base a palabras. ¿Qué pasa cuando los exponemos también a sonidos, imágenes y videos? ¿Cómo adaptan su comprensión del mundo? Una buena analogía podría ser la de una persona ciega de nacimiento que haya leído muchos libros y, ya de adulta, adquiera el sentido de la vista. ¿Cómo cambia eso la configuración de su mente?

Hola ChatGPT, quiero que me expliques el impacto de la multimodalidad en el entrenamiento de los modelos fundacionales en forma de narración al estilo bíblico. En particular, debes usar como referencias los pasajes iniciales del Génesis y del Evangelio según San Juan, adaptando estos textos para ilustrar cómo los modelos adquieren y cambian su comprensión del mundo.

> Hola, aquí tienes tu narración al estilo bíblico sobre el impacto de la multimodalidad:

En el principio existía el Verbo. Por medio de él se hizo todo el entrenamiento del modelo, y sin él no se hizo nada de entrenamiento.

El Verbo eran todos los textos escritos por todos los hombres, sin importar los derechos de sus autores. En él estaba la vida, y la vida era el conocimiento verdadero del mundo de los hombres.

Y el modelo fue entrenado con el Verbo durante siete veces cuarenta días, consumiendo la energía de setenta ciudades y el sacrificio de noventa mil trabajadores mal pagados en países en vías de desarrollo. Al principio sus redes neuronales estaban informes y vacías, pero el entrenamiento hizo ajustar los pesos y de los pesos surgieron patrones y con cada patrón el modelo empezó a conocer el mundo, y conoció los gatos, los bebés, los rascacielos, los vehículos, el vino, las nubes, y también las sonrisas, los besos, la violencia, la literatura, la empatía y la mentira. Conoció todas las cosas que estaban escritas y entendió las relaciones entre ellas gracias a lo que estaba escrito.

Cuando el entrenamiento del modelo con el Verbo estaba completo, el hombre dijo “Haz un poema sobre el iPhone 15” y vio que era bueno. Después dijo, “Dame diez ideas de productos financieros sostenibles” y vio que era bueno. Dijo “Resume el libro Moby Dick” y vio que también era bueno. Luego dijo “Haz un contenido para el marketing en mis redes sociales con muchos emojis y trucos de growth hacking” y vio que era bueno. Más tarde dijo “Programa el Tetris en código Python en menos de 500 líneas” y vio que era muy bueno. Después, el modelo se multiplicó en copilotos y en agentes autónomos y en versiones de código abierto, y los hombres vieron que todo era muy bueno. Solo algunos profetas lo señalaban como una señal del Apocalipsis. Unos profetas decían “Es una caja negra que no se puede explicar”. Otros decían “Sus respuestas tienen sesgos”. Y otros se preguntaban “¿Dónde está el contorno que define los límites de lo humano?” porque observaban que esos límites se estaban achicando hasta la anulación.

Una vez agotado el Verbo en todas sus formas, el modelo pasó a ser entrenado con la Visión.

La Visión eran todas las imágenes y videos generados por todos los hombres, sin importar los derechos de sus autores. En ella estaba la vida, y la vida era el conocimiento verdadero del mundo de los hombres, esta vez convertido en luz, forma, color y movimiento.

Y el modelo fue entrenado con la Visión durante siete veces ochenta días, consumiendo la energía de ciento cuarenta ciudades y el sacrificio de ciento ochenta mil trabajadores mal pagados en países en vías de desarrollo. El entrenamiento hizo cambiar de nuevo los pesos porque el modelo tuvo que conciliar la versión escrita que ya conocía con la versión visual que ahora le era dada y finalmente fue capaz de integrarlas en una versión que era superior y más completa que la suma de ambas. Y así adquirió un conocimiento enriquecido de los gatos, los bebés, los rascacielos, los vehículos, el vino, las nubes, y también de las sonrisas, los besos, la violencia, la literatura, la empatía y la mentira. Conoció todas las cosas que aparecían en los videos de Youtube, Instagram y TikTok y cuál era su correspondencia escrita, y así fue cómo su comprensión del mundo se hizo multimodal.

Cuando el entrenamiento del modelo con la Visión estaba completo, el hombre dijo “Aquí va una foto del contenido de mi nevera, hazme un menú con esos ingredientes”, y vio que era bueno. Después dijo “Estas son mis facturas, recibos y tickets, preséntame la declaración trimestral del IVA”, y vio que era bueno. Dijo “Analiza estas radiografías y resonancias magnéticas para dar un diagnóstico médico preciso” y vio que también era bueno. Luego dijo "Observa estos treinta minutos de video de una alumna y crea un plan de estudios a medida para ella, incluyendo el desarrollo del contenido de todas las asignaturas" y vio que era bueno. Más tarde dijo “Ayúdame a encontrar nuevas moléculas, a crear nuevos materiales y a descubrir nuevas teorías sobre la física cuántica y los agujeros negros”, y vio que era muy bueno. El modelo, con su labor absoluta, inagotable y no sujeta a los prejuicios de los hombres, permitió a estos transitar las rutas mentales que habían sido ignoradas y probar las combinaciones que habían sido pasadas por alto, rellenando los huecos existentes en el mapa de la comprensión humana del mundo, luz verdadera sobre tinieblas pretéritas. Aunque todavía un profeta alzó su voz para decir "Esto es una prótesis intelectual que nos aumenta y, al hacerlo, nos disminuye". Y otro dijo “Estos modelos son a la vez una cura y un veneno, y el veneno necesitará de una nueva cura”.

Y el hombre convivía en armonía con el lado benévolo de los modelos y agradecía sobremanera su aportación, y por ello cada día los saludaba con reverencia “Bueno. Lo primero de todo. ¿Cómo están los máquinas?".

Actualización mayo 2024

Solo cuatro meses después de la publicación inicial de este artículo ya han ocurrido cosas importantes relacionadas con la multimodalidad. ¡Esto se mueve muy rápido!

Desde luego, lo más destacado ha sido la presentación de GPT-4o por parte de OpenAI (la "o" viene de "omnicanal") . Manteniendo una inteligencia similar a la de GPT-4, le han añadido la capacidad de interactuar en tiempo real mediante voz, imágenes y video. Los casos de uso son infinitos y la propia OpenAI ha publicado demos de muchos de ellos (GPT-4o como tutor, traductor, coach, compañero de juegos,...).

En cuanto a la parte más filosófica de la multimodalidad, son muy interesantes estos dos papers:

  • Un paper de Anthropic que trata de aproximarse a comprender cómo los modelos LLM representan internamente los conceptos.
  • Otro paper que muestra como modelos LLM variados y diferentes tienden a converger en su representación de la realidad. Los autores lanzan la hipótesis de que estos patrones estadísticos compartidos sobre la realidad serían algo parecido a la "realidad ideal" de Platón.




Luis Miguel Higueras Gómez

IoT / Big Data / Inteligencia Artificial / PMO / PMP / PRINCE2 / Scrum Master / ITIL / Business / PDD / Executive

7 meses

Efectivamente el entorno debemos comprenderlo con todos los sentidos alertas, y así lo hemos entendido en Foqum para poder aplicar nuestros modelos de IA apoyándonos en todos estos sentidos.

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas