Glosario IA Audiovisual

Guía rápida de conceptos de IA audiovisual: términos, siglas y tecnologías explicadas en un solo lugar

Clonación de voz (Voice Cloning)

Recreación digital de la voz de una persona con IA.

Deepfake

Video o audio manipulado con IA para imitar rostros o voces de manera hiperrealista.

Difusión estable (Stable Diffusion)

Modelo generativo de texto a imagen basado en técnicas de diffusion models.

Generación multimodal (Multimodal AI)

Modelos que trabajan con varios tipos de datos a la vez: texto, imagen, audio y video.

IA generativa (Generative AI)

Rama de la IA que crea contenido nuevo (texto, imagen, audio, video) en lugar de limitarse a analizar datos.

Imagen a video (Image-to-Video)

A partir de una imagen estática, la IA genera una animación o secuencia en movimiento.

Inpainting / Outpainting (AI Image Editing)

Relleno o extensión inteligente de imágenes con IA.

Modelo de lenguaje grande (LLM – Large Language Model)

Red neuronal entrenada con enormes cantidades de texto para comprender y generar lenguaje natural.

MoCap (Motion Capture)

Captura de movimiento de actores para animar personajes digitales.

Puppeteering digital (Digital Puppeteering)

Control de un avatar digital en tiempo real mediante movimientos captados (cara, cuerpo, manos).

RAG (Retrieval-Augmented Generation)

Técnica que combina modelos generativos con bases de datos externas para dar respuestas más precisas y actualizadas.

Red neuronal convolucional (CNN – Convolutional Neural Network)

Tipo de red especializada en procesar imágenes y video.

Red neuronal recurrente (RNN – Recurrent Neural Network)

Arquitectura usada en el procesamiento de secuencias como audio o texto.

Renderizado neuronal (Neural Rendering)

Generación de imágenes o videos realistas con redes neuronales, a partir de datos capturados o simulados.

Sincro labial (Lip Sync)

Ajuste automático de los movimientos de labios de un personaje o avatar al audio de la voz.

Texto a imagen (Text-to-Image / T2I)

Creación de imágenes a partir de texto descriptivo mediante IA (ej.: MidJourney, Stable Diffusion).

Texto a video (Text-to-Video / T2V)

Generación de secuencias de video a partir de instrucciones escritas (ej.: Runway, Sora).

Texto a voz (TTS – Text-to-Speech)

Conversión de texto escrito en voz sintética. Se usa en narraciones, locuciones y avatares digitales.

Transformador (Transformer)

Arquitectura base de los modelos modernos (GPT, Claude, etc.) que revolucionó el NLP y los LLMs.

Video a video (Video-to-Video)

Transformación de un video existente en otro, modificando estilo, apariencia, iluminación o gestos mediante IA.

Video a voz (Video-to-Speech)

Extracción o generación de voz a partir de un video (ej.: doblajes automáticos o subtítulos con voz).

Voz (Speech)

Audio de la voz humana, ya sea grabada o generada.

Voz a video (Voice-to-Video)

Generación o animación de video a partir de una pista de voz, sincronizando expresiones y movimientos faciales.

Voz a voz (VTS – Voice-to-Speech / Voice Conversion)

Transformación de una voz en otra manteniendo el contenido hablado. Permite clonar voces o traducir manteniendo timbre y estilo.