Page 55 - 1 REVISTA TÉCNICO/PRACTICO DE LA CARRERA DE TECNOLOGÍAS DE LA INFORMACIÓN
P. 55
manipulaciones visuales difíciles de detectar, lo que impresionante, pero si la voz no está sincronizada con
exigirá el desarrollo de herramientas de verificación, los labios o el sonido ambiente no coincide con las
el futuro de los videos generados por inteligencia acciones mostradas, el espectador percibe la
artificial no solo apunta a una mejora en la calidad artificialidad de inmediato.
técnica, sino a una redefinición completa del concepto
de creación audiovisual. Por ello, los sistemas más modernos combinan
generación visual con inteligencia artificial aplicada al
El límite entre creador y espectador tenderá a audio, integrando música, diálogos y efectos sonoros
desaparecer, dando paso a una era donde la narrativa de forma coherente con la escena. Esta fusión entre
será colaborativa, interactiva y moldeada por la imagen y sonido eleva la experiencia inmersiva y
inteligencia artificial. Si las tendencias actuales acerca aún más la producción artificial al estándar
continúan, hacia finales de esta década los videos cinematográfico.
generados por IA serán una parte cotidiana del
entretenimiento, la comunicación y la educación, Las tecnologías que han permitido alcanzar este nivel
transformando la manera en que la humanidad crea, de realismo incluyen los modelos de difusión, que
cuenta y experimenta historias [7]. mediante procesos de eliminación de ruido generan
imágenes y videos con un nivel de detalle sin
1.2 Realismo y Calidad precedentes. También destacan las redes generativas
adversarias, que desde su creación entrenan sistemas
El realismo y la calidad en los videos generados por capaces de producir imágenes que “engañan” a un
inteligencia artificial representan uno de los mayores discriminador entrenado para detectar falsificaciones,
avances en la revolución audiovisual impulsada por la perfeccionando así su realismo.
tecnología [8]. El concepto de realismo se refiere a la
capacidad de los sistemas de IA para crear imágenes Por su parte, los modelos multimodales integran texto,
en movimiento que resulten creíbles, naturales y imagen y video, de modo que una simple descripción
coherentes con las leyes físicas y la percepción en lenguaje natural puede transformarse en un clip
humana. visual altamente realista. Finalmente, técnicas como
los campos de radiancia neuronal o NeRF han
No se trata únicamente de reproducir escenas con alto mejorado la representación tridimensional de escenas,
detalle visual, sino también de mantener la coherencia aportando profundidad, movimiento de cámara fluido
temporal entre los fotogramas, la naturalidad de los y reflejos realistas.
movimientos, la sincronización del sonido y las
expresiones humanas, así como la fidelidad de los El impacto de este realismo en la industria es
entornos. Según [9]. En los últimos años, los progresos profundo. En la producción cinematográfica se
en modelos de difusión, redes generativas adversarias utilizan videos generados por IA para crear efectos
y arquitecturas multimodales han permitido alcanzar visuales, doblajes o incluso escenas completas sin
niveles de calidad visual que rivalizan con los de la necesidad de rodaje físico, reduciendo costos y
producción cinematográfica profesional. tiempos. En publicidad, las marcas aprovechan esta
tecnología para generar anuncios hiperrealistas con
El realismo visual depende de varios factores modelos virtuales o escenarios imposibles [11].
interrelacionados. La resolución y el nivel de detalle
son esenciales, ya que los sistemas más avanzados En educación y capacitación, los videos creados por
pueden generar videos en alta definición con texturas, IA permiten presentar contenido con instructores
luces y sombras que imitan fielmente la realidad. La digitales capaces de hablar en múltiples idiomas y
coherencia temporal es igualmente fundamental, pues mostrar expresiones humanas convincentes. También
garantiza que cada fotograma mantenga continuidad en los videojuegos y entornos de realidad virtual, el
con el siguiente, evitando distorsiones o parpadeos que realismo generado por IA ha permitido la creación de
rompan la ilusión de movimiento natural [10]. mundos inmersivos donde los personajes actúan con
gestos y emociones casi humanos. A pesar de los
Además, la física simulada por la IA desempeña un avances, persisten limitaciones técnicas.
papel clave, ya que la forma en que un objeto cae,
rebota o proyecta su sombra determina en gran medida Los modelos todavía pueden fallar en la
la percepción de verosimilitud. En el caso de los seres representación precisa de interacciones físicas
humanos o avatares digitales, el desafío se amplifica: complejas o en la consistencia narrativa en videos
la inteligencia artificial debe reproducir expresiones largos. También suelen aparecer errores en detalles
faciales, microgestos y movimientos corporales que finos como el movimiento de las manos, los ojos o las
transmitan emociones y naturalidad. transiciones entre expresiones. Además, la generación
de video de alta calidad requiere una enorme
Modelos como los de Synthesia o DeepFaceLab han capacidad computacional y consumo energético.
logrado avances notables en este ámbito, generando
rostros y voces que, a simple vista, pueden confundirse Sin embargo, la tendencia actual apunta a que, en
con los de una persona real. La calidad de los videos pocos años, los videos generados por IA serán
generados por IA también depende de la integración prácticamente indistinguibles de los reales, no solo en
audiovisual. Un video puede ser visualmente
55

