Reimaginación de imágenes de la realidad

(shutterstock)

Hace apenas unos años, difícilmente podríamos haber imaginado que millones de personas en todo el mundo tendrían acceso a aplicaciones generativas de IA fáciles de usar que producen textos, imágenes y videos. Estas aplicaciones pueden generar resultados que parecen creados por seres humanos, así como crear cosas que nunca han existido en la realidad.

Fuente: Enlace Judío

El rápido avance en las capacidades de los grandes modelos lingüísticos , que tras décadas de desarrollo han comenzado a generar textos complejos y razonablemente creíbles, tomó por sorpresa incluso a los expertos. Como resultado, la atención también se centró en los modelos que combinan texto con datos visuales, como imágenes y videos, y su desarrollo se aceleró. Ahora, estos modelos pueden generar videos realistas de una calle concurrida de la ciudad o una ardilla caminando por la luna-y todo lo que el usuario debe hacer es introducir una breve descripción textual o imágenes que sirvan de fuente visual. No obstante, junto a estas capacidades asombrosas y las preocupaciones que las acompañan acerca de los peligros inherentes a ordenadores tan potentes, el alcance operativo de las redes de aprendizaje profundo continúan siendo limitadas-especialmente cuando se trata de videos-y este es el desafío que muchos investigadores están abordando.

El equipo en el laboratorio de la Dra. Tali Dekel para el estudio de la visión por computadora en el Departamento de Ciencias de la Computación y Matemáticas del Instituto Weizmann de Ciencias espera superar las limitaciones de estas máquinas generativas y llevarlas al nivel humano-o incluso más allá. “Defino nuestro ámbito de investigación como “Re-renderización de la realidad”, en otras palabras, recrear el mundo visual utilizando herramientas computacionales”, dice Dekel. “Analizamos imágenes y videos y nos centramos en sus aspectos específicos, y luego creamos una nueva version con características diferentes. Mi objetivo es mejorar nuestra manera de ver el mundo, darnos una mayor creatividad e incluso una nueva clase de interacción con los datos visuales”.

Y Dekel agrega: “Nuestra investigación plantea preguntas fascinantes como: ¿Qué es lo que un modelo generativo aprende del mundo y cómo codifica su información? ¿Cómo podemos representar eficazmente la información visual en el espacio y el tiempo permitiéndonos modificarla, de modo que, en última instancia, podamos interactuar con nuestro mundo dinámico a través de videos?

Además de su labor en el Instituto Weizmann, Dekel es también una investigadora en Google. Mientras que sus estudios en el Weizmann se centran en superar las limitaciones de los modelos de IA existentes, su tarea en Google implica el desarrollo de nuevos modelos, como el revolucionario modelo de conversion de texto en video Lumiere, cuyos resultados se han hecho públicos recientemente. Lumiere puede, con el uso de una breve indicación textual o una foto de referencia, producer una rica e impactante gama de videos o editar videos existentes. Por ejemplo, el modelo generó una serie de videos de una mujer corriendo en un parque, convirtiéndola en una figura hecha de bloques de madera, ladrillos de juguete de colores o incluso flores.

Lumiere es un modelo de difusión espacio-temporal para generar videos. “Lumiere es un modelo de difusión de texto a video diseñado para sintetizar videos que retraten un movimiento realista, diverso y coherente, un desafío fundamental en la síntesis del video.”, según el artículo publicado por los investigadores, entre ellos, Dekel, cuando hicieron público el nuevo modelo. Lumiere es único en su capacidad para generar una serie completa de fotogramas sin espacios entre ellos, mientras que los modelos anteriores comenzaban generando fotogramas clave distantes en la escala espacio-tiempo y sólo después rellenaban el movimiento entre los fotogramas clave. Este es el motivo por el cual los modelos anteriores tenían dificultades para generar un movimiento convincente y natural; Lumiere puede generar secuencias enteras de movimientos de alta calidad.

Pero ¿cómo hacen su magia los modelos de aprendizaje profundo? Incluso los científicos, aún no están del todo seguros. “Todo el campo de la IA generativa está experimentando un cambio de paradigma”, explica Dekel. “En un pasado no muy lejano, estos modelos eran mucho más pequeños, sencillos y estaban diseñados para realizar tareas específicas, habitualmente utilizando datos etiquetados. Por ejemplo, para enseñar a una computadora a reconocer objetos en una imagen, teníamos que presentarle una serie de imágenes en las cuales esos objetos estaban etiquetados y explicarle que esto es un auto, , esto es un gato, y así sucesivamente. Ahora los modelos han crecido y pueden aprender de enormes cantidades de datos sin etiquetado humano. Los modelos adquieren una representación universal del mundo visual que pueden utilizar para una diversidad de tareas, no solamente el propósito específico para el cual fueron entrenados en principio”. Y aunque la mejora de la capacidad de auto-aprendizaje de estos modelos es evidente, aún no sabemos cómo funcionan exactamente. “Grandes secciones de las redes neuronales son para nosotros, algo así como la “caja Negra”, agrega Dekel.

Para Dekel, las “cajas negras” dentro de estos modelos brindan excelentes oportunidades de investigación. “Durante el proceso de auto-aprendizaje, los modelos adquieren una enorme cantidad de información acerca del mundo. Como parte de nuestra investigación en la re-renderización de la realidad utilizando herramientas digitales, estamos tratando de producer diferentes resultados de los modelos existentes, casi sin alterarlos en absoluto. En lugar de ello, estamos tratando de comporender major cómo funcionan mientras intentamos descubrir nuevas tareas que ellos son capace de completar”, señala Dekel sobre la investigación que llevó a cabo con sus colegas del Instituto Weizmann, el Dr. Shai Bagon, el Dr. Yoni Kasten de la investigación NVIDIA y los estudiantes del Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman y Danah Yatim.

¿Y qué hay de la preocupación que genera el enorme poder que poseen estos modelos”? “Existe un delicado balance entre el ser conciente de los riesgos potenciales de la tecnología y el deseo de que la misma avance más”, afirma Dekel. “Nuestro compromiso es salvaguardar este equilibrio. Para el público en general, a veces puede parecer que estos modelos son omnipotentes, pero actualmente no es así. Mi objetivo principal como investigadora es ampliar la posibilidades creativas que tenemos cada uno de nosotros, incluidas las personas que no son profesionales, y hacer avanzar la ciencia y la capacidad computacional de contemplar el mundo”.

Send To Friend