comunidad bóvedaVideo con IA

Tu cara y tu voz en un video hecho con IA: el workflow con ChatGPT y Higgsfield

Grabamos un video donde yo salgo de juez sentenciando a Claude, y está armado de principio a fin con inteligencia artificial: mi cara, mis gestos y hasta mi voz, sin cámara y sin set. Todo el truco está en encadenar tres herramientas con Claude escribiendo los prompts: te clonas con el modelo nuevo de imágenes de ChatGPT, te metes en los escenarios que quieras, y ese personaje cobra vida con Seedance 2.0 dentro de Higgsfield. Aquí está el workflow exacto, paso por paso y sin tocar una línea de código.

De un vistazo

Clónate con el modelo de imágenes de ChatGPT

Métete en los escenarios que quieras

Arma el storyboard para Seedance 2.0

Anímate y ponle tu voz en Higgsfield

Únelo y expórtalo en CapCut

el plan · herramientas · clónate · escenarios · storyboard · anímate y voz · edita · trucos · faq

Tres herramientas, un solo director: Claude

La idea es más simple de lo que suena. Primero te clonas: subes fotos tuyas y el modelo de imágenes de ChatGPT genera versiones tuyas consistentes, las que necesites. Luego te metes en escenarios: el mismo personaje, pero en el set que tú decidas. Después armas un storyboard —qué pasa en cada toma— y se lo pasas a Seedance 2.0 dentro de Higgsfield, que convierte esas imágenes en video con movimiento. Higgsfield hasta clona tu voz para que el personaje hable como tú. Al final unes todo en CapCut. Y en cada paso, el que escribe el prompt es Claude.

El plan Herramientas Clónate Escenarios Storyboard Anímate y voz Edita Trucos FAQ

Sin cámara ni setTu cara y tu vozClaude escribe los promptsChatGPT + Higgsfield + CapCutEstrategia storyboardSin programar

el plan

Qué vas a lograr

El video del que salió esta guía es una comedia: yo aparezco de juez, con toga y mazo, sentenciando a Claude por ser demasiado bueno en su trabajo. Nunca prendí una cámara ni armé un set. Mi cara, mis gestos, los escenarios y hasta mi voz salieron de inteligencia artificial. Y lo más importante: no escribí los prompts a mano, los escribió Claude.

La gente cree que hacer algo así necesita un equipo de producción o saber edición pesada. No. Lo que necesitas es entender el orden de las piezas. Son cinco pasos y cada herramienta hace una sola cosa bien:

Claude

El director. Escribe cada prompt por ti: el de las imágenes, el de los escenarios y el storyboard.

ChatGPT (GPT Images 2.0)

Te clona. Con tus fotos de referencia genera imágenes tuyas consistentes y las mete en escenarios.

Seedance 2.0 (en Higgsfield)

Te anima. Convierte esas imágenes en video con movimiento, siguiendo el storyboard.

Higgsfield Cinema

Te da voz. Clona tu voz y la sincroniza con los labios del personaje.

CapCut

El montaje. Junta los clips, ajusta tiempos y exporta el video final.

El hilo que une todo es la estrategia de storyboard: en vez de pedir un video de un jalón, le cuentas a Seedance 2.0 qué pasa en cada toma, con qué imagen y en qué orden. Esa es la parte que hace que el resultado se sienta hecho a propósito y no un experimento al azar. La vemos a fondo más adelante.

herramientas

Qué necesitas antes de empezar

No hace falta nada raro ni nada que tengas que instalar y configurar. Son tres cuentas web y Claude. Aquí va cada una con su trabajo y la verdad sobre lo que cuesta, sin venderte humo:

ChatGPT

abrir

Clonarte y generar los escenarios con el modelo nuevo de imágenes (GPT Images 2.0).

Necesitas una cuenta de pago para subir varias fotos de referencia y generar a buena calidad.

Higgsfield

abrir

Animar las imágenes con Seedance 2.0 y clonar tu voz con el Cinema Studio.

Funciona por créditos. Cada render gasta créditos, así que vas a repetir tomas hasta que queden: tenlo en cuenta.

CapCut

abrir

Juntar los clips, cortar, poner transiciones y exportar.

Gratis para lo básico. Con eso te alcanza para este workflow.

Claude

Escribir todos los prompts: imágenes, escenarios, storyboard y guion de voz.

Es el cerebro creativo. Tú le das la idea y el contexto; él te devuelve los prompts listos para pegar.

Por qué Claude va al centro

ChatGPT y Higgsfield son las cámaras; Claude es quien dirige. Escribir un buen prompt de imagen o un storyboard que de verdad sirva es la parte difícil, y es justo donde Claude se luce: tú le cuentas la idea en español normal y él te la traduce a prompts técnicos en inglés, listos para pegar. Por eso el workflow es tan repetible aunque no sepas nada de fotografía ni de cine.

01 clónate

Paso 1: clónate con las fotos correctas

Todo arranca contigo. Antes de generar nada, tómate fotos de referencia, porque de la calidad de esas fotos depende qué tan parecido sale tu clon. No necesitas un estudio: con el celular basta, pero hazlo bien.

El mini-protocolo de fotos

• De 4 a 6 fotos: de frente, en 3/4 a la izquierda, en 3/4 a la derecha y de perfil.
• Cara despejada, sin lentes oscuros ni gorra, expresión neutra.
• Luz pareja, de día junto a una ventana sirve. Evita sombras duras encima de la cara.
• Suma una de cuerpo completo si quieres que el personaje tenga tu complexión y postura.

Con esas fotos vas a ChatGPT, las subes y le pides una imagen tuya. El modelo nuevo de imágenes (GPT Images 2.0) aprende tu cara de las referencias y la mantiene. El prompt es lo que separa un clon creíble de uno que se parece a ti los lunes. No lo escribas tú: deja que Claude lo arme.

Que Claude escriba tu prompt de clonación

Le das tus rasgos y tu vestuario; te devuelve el prompt en inglés listo para ChatGPT, más la lista de fotos que conviene subir.

Eres mi director de fotografía. Voy a generar imágenes mías con el modelo de imágenes de ChatGPT (GPT Images 2.0) a partir de fotos de referencia que voy a subir ahí. Quiero un personaje mío consistente: que en todas las imágenes se vea claramente la misma persona.

PRIMERO, dime exactamente qué fotos de referencia conviene que suba: cuántas, desde qué ángulos (frente, 3/4 izquierda, 3/4 derecha, perfil) y con qué luz, para que el modelo aprenda bien mi cara.

DESPUÉS, escríbeme un prompt en inglés, listo para pegar en ChatGPT junto a mis fotos, que genere un retrato mío fotorrealista. El prompt debe:
1. Anclar mi identidad: "keep the exact same face, proportions and features from the reference images".
2. Describir rasgos concretos que voy a darte abajo (no genéricos).
3. Pedir textura de piel natural, asimetría creíble y poros visibles, para evitar el look plástico de IA.
4. Fijar vestuario, encuadre (plano medio o cuerpo completo), lente equivalente, luz y ratio 9:16.

MIS DATOS:
- Cómo soy: {DESCRÍBETE — tono de piel, tipo y color de pelo, color de ojos, complexión, vello facial, rasgos que te distinguen}.
- Vestuario base del personaje: {LA ROPA con la que quieres aparecer}.
- Estilo de la imagen: {fotorrealista · editorial · cinematográfico}.

REGLAS:
- No inventes rasgos que no te di. Si algo te falta, pregúntame antes de escribir el prompt.
- Nada de texto ni logos en la imagen.

OUTPUT:
- La lista de fotos de referencia que debo subir.
- El prompt final en inglés, en un bloque listo para copiar.
- Una nota de qué revisar en el primer render para confirmar que el parecido quedó bien.

Los dos errores típicos del clon

El primero es la deriva de cara: de imagen en imagen vas dejando de ser tú. Se arregla repitiendo siempre la misma descripción de tu cara y volviendo a subir las fotos de referencia. El segundo es el look plástico: piel demasiado lisa, cara perfecta, se nota la IA. Se arregla pidiendo textura de piel natural, poros visibles y algo de asimetría. Los dos ya vienen cubiertos en el prompt de arriba.

Cuando tengas una imagen tuya que de verdad te represente, guárdala bien: esa es tu imagen ancla, la que vas a reusar en cada escenario para que el personaje no cambie.

02 escenarios

Paso 2: métete en los escenarios

Ya tienes tu imagen ancla. Ahora pones a ese personaje donde tú quieras. En mi caso, un tribunal oscuro con un mazo de juez. En el tuyo, lo que pida tu idea. El truco es no generar de cero cada vez, sino partir de tu imagen ancla y cambiar solo el fondo.

Le pasas a ChatGPT tu imagen de referencia y el prompt de la escena. La instrucción clave, la que casi nadie pone, es cambia solo el fondo y la luz, conserva la misma cara y el mismo vestuario. Sin esa línea, el modelo te reinterpreta y pierdes el parecido.

Que Claude escriba tus prompts de escenario

Le pasas la lista de escenas que quieres; te devuelve un prompt en inglés por cada una, conservando tu personaje y dejando aire para el movimiento.

Eres mi director de arte. Ya tengo imágenes de mi personaje consistente (las generé con el modelo de imágenes de ChatGPT). Ahora quiero meterlo en escenarios concretos, manteniendo SIEMPRE la misma cara, el mismo vestuario y las mismas proporciones.

Escríbeme prompts en inglés, listos para pegar en ChatGPT junto a la imagen de referencia de mi personaje, uno por cada escena que te pida. Cada prompt debe:
1. Empezar fijando la identidad: "same character from the reference image — identical face, hair, wardrobe and proportions".
2. Decir explícitamente "change only the background and lighting".
3. Describir el escenario: lugar, hora del día, ambiente.
4. Definir cámara (plano y ángulo), dirección de luz y ratio 9:16.
5. Dejar aire para el movimiento: fondo con profundidad (primer plano, plano medio, fondo) porque después esto se va a animar en video.

ESCENAS QUE QUIERO:
{LISTA tus escenas, una por línea. Por ejemplo: "1) tribunal oscuro con un mazo de juez; 2) detrás de un escritorio iluminado; 3) primer plano de mi cara reaccionando".}

REGLAS:
- Mantén la misma dirección de luz entre escenas para que peguen al editar.
- Plano fotorrealista, sin texto on-screen.
- Si una escena no respeta el personaje, dímelo y proponme cómo reencuadrarla en vez de cambiarme la cara.

OUTPUT:
- Un prompt en inglés por escena, numerado y listo para copiar.
- Una línea por escena diciendo qué buscar en el render para confirmar la continuidad.

Genera pensando en el video, no en la foto

Estas imágenes no son el destino final: son el punto de partida del video. Por eso conviene generarlas ya en vertical (9:16 si va a reels o TikTok) y dejar profundidad en la escena —algo en primer plano, tú en el medio, fondo con espacio— para que después haya por dónde mover la cámara. Una imagen plana y apretada se anima mal.

Genera todas las escenas que va a tener tu video y guárdalas en orden. Esas imágenes, juntas, son la materia prima del storyboard que armamos en el siguiente paso.

03 storyboard

Paso 3: arma el storyboard para Seedance 2.0

Esta es la parte que lo cambia todo. Seedance 2.0, el modelo de video de Higgsfield, hace más que animar una imagen suelta: acepta varias imágenes de referencia a la vez y entiende un guion contado por tomas. O sea, le puedes decir primero pasa esto, luego esto, después esto y él respeta el orden. Eso es un storyboard, y es la diferencia entre un video que se siente dirigido y uno que salió al azar.

En vez de pedir “un juez sentenciando a Claude” y rezar, descompones la idea en tomas. Cada toma tiene su imagen, su acción, su movimiento de cámara y su duración. Algo así:

TOMA 1  ·  imagen: juez de frente
   acción: levanto la mirada y golpeo el mazo
   cámara: plano medio, push-in lento  ·  5 s

TOMA 2  ·  imagen: primer plano de mi cara
   acción: digo la sentencia, ceja levantada
   cámara: close-up estático  ·  4 s
   continuidad: misma luz cálida de la Toma 1

TOMA 3  ·  imagen: tribunal completo
   acción: bajo el mazo, todos en silencio
   cámara: plano abierto, paneo a la derecha  ·  6 s

Con el storyboard claro, lo conviertes en un solo prompt que le narra la secuencia completa a Seedance 2.0. Y de nuevo, no lo escribes a mano: le cuentas tu idea a Claude y él te arma la tabla y el prompt final en inglés.

Que Claude arme tu storyboard y el prompt de Seedance

Le das tu idea y tus imágenes; te devuelve la tabla toma por toma y un prompt en inglés listo para pegar en Higgsfield con las imágenes cargadas.

Eres mi director de cine. Tengo varias imágenes de mi personaje en distintos escenarios (las hice con el modelo de imágenes de ChatGPT) y voy a animarlas con Seedance 2.0 dentro de Higgsfield. Seedance 2.0 acepta varias imágenes de referencia a la vez y entiende un guion contado por tomas, así que quiero trabajar con estrategia de storyboard.

Conviérteme esta idea en un storyboard estructurado, toma por toma:
{DESCRIBE tu idea de video en 3-5 líneas. Por ejemplo: "soy un juez que sentencia a Claude por hacer las cosas demasiado bien; tono de comedia; termina con el mazo y una sentencia absurda".}

Para CADA toma, dame:
1. Número de toma y qué imagen de referencia usar (de las que ya tengo).
2. Qué pasa en la toma: la acción, en una o dos frases.
3. Cámara: tipo de plano y movimiento (estático, push-in, paneo, etc.).
4. Duración sugerida (entre 4 y 15 segundos por toma).
5. Continuidad: qué se mantiene de la toma anterior (luz, vestuario, dirección) para que todo pegue.

LUEGO, arma un único prompt en inglés para Seedance 2.0 que narre la secuencia completa: "first this happens, then this, then this", referenciando cada imagen. Es el prompt que voy a pegar en Higgsfield con las imágenes cargadas.

REGLAS:
- Mantén mi personaje on-model en todas las tomas: misma cara, mismo vestuario.
- Movimientos de cámara concretos y con tiempo, no vagos.
- Ratio 9:16, género comedia.
- No metas texto on-screen salvo que te lo pida.

OUTPUT:
- La tabla del storyboard, toma por toma.
- El prompt final en inglés para Seedance 2.0, en un bloque listo para copiar.

El truco de continuidad

Para que las tomas peguen entre sí, mantén la misma dirección de luz y el mismo vestuario en todas. Y si una acción cruza de una toma a la siguiente, usa el último cuadro de la toma anterior como imagen de referencia de la nueva. Así el corte se siente continuo y no como dos videos distintos pegados.

04 anímate y voz

Paso 4: anímate y ponle tu voz

Llegó el momento de que las imágenes se muevan. Entras a Higgsfield, eliges Seedance 2.0, cargas las imágenes de tu storyboard y pegas el prompt que armó Claude. Genera toma por toma: así controlas cada clip y repites solo el que no quedó, sin volver a generar todo.

Los ajustes que importan en Seedance 2.0

ModeloSeedance 2.0 (te deja cargar varias imágenes de referencia).

ImágenesSube las de tu storyboard y di cuál es el inicio de cada toma.

Ratio9:16 para vertical (reels, TikTok). 16:9 si va a YouTube horizontal.

DuraciónEntre 4 y 15 segundos por toma. Genera toma por toma, no todo de un jalón.

ModoEmpieza en estándar para probar; sube la calidad cuando la toma ya quedó.

GéneroComedia, si tu video es cómico como el del juez.

Ahora la voz, que es lo que sorprende a todos. Tu personaje no tiene que sonar a robot: Higgsfield clona tu voz dentro de su Cinema Studio y la sincroniza con los labios del personaje. Le das una muestra de cómo hablas, escribes el diálogo y el personaje lo dice con tu voz y tu boca moviéndose. Eso es lo que termina de hacerlo tuyo.

Que Claude escriba tu guion y las notas de voz

Le pasas el storyboard; te devuelve los diálogos por toma, del largo justo, y las indicaciones de tono para clonar tu voz en Higgsfield.

Eres mi guionista de comedia. Mi video es de tono cómico: yo, de juez, sentenciando a Claude. Mi personaje va a hablar con MI voz, porque Higgsfield clona la voz y Seedance 2.0 la sincroniza con los labios del personaje.

PRIMERO, escríbeme el guion de los diálogos, toma por toma, siguiendo el storyboard que ya armamos:
{PEGA aquí tu storyboard o descríbeme las tomas.}

Cada línea de diálogo debe:
1. Ser corta y caber en la duración de su toma (lee en voz alta: una toma de 5 segundos son una o dos frases, no un párrafo).
2. Sonar natural cuando yo la lea o la clone con mi voz, no robótica.
3. Rematar el chiste: setup en una toma, remate en la siguiente.

DESPUÉS, dame las instrucciones para Higgsfield:
- Qué tono y ritmo de voz pedir al clonar (seguro, solemne de juez pero con guiño cómico).
- En qué toma va cada línea, para sincronizar el audio con el video en Seedance.

REGLAS:
- Español neutro, natural, sin groserías salvo que te lo pida.
- Marca las pausas y los énfasis para que la voz clonada respire bien.

OUTPUT:
- El guion por tomas, con la línea de diálogo y su duración objetivo.
- Las notas de voz para clonar en Higgsfield y sincronizar en Seedance.

Cuando tengas todas las tomas animadas y con su voz, descárgalas en orden. Ya tienes las piezas del video: solo falta unirlas.

05 edita

Paso 5: únelo y expórtalo en CapCut

El último paso es el más conocido y el más rápido: armar el video en CapCut. Aquí no hay magia de IA, es edición normal. Abres un proyecto nuevo, importas todos los clips que generaste en Higgsfield y los acomodas en la línea de tiempo en el orden del storyboard.

El montaje, en orden

• Importa los clips y ordénalos según tus tomas.
• Recorta los arranques y finales muertos de cada clip para que el ritmo no se caiga.
• Pon transiciones cortas entre tomas (un corte seco o un fundido de medio segundo).
• Revisa que la voz cuadre con los labios; si algo se desfasa, ajústalo aquí.
• Suma música de fondo y, si quieres, subtítulos.

Cuando te guste cómo se ve, exporta. Para vertical, 1080p en 9:16 sobra para redes. Y listo: tienes un video con tu cara, tus escenarios y tu voz, sin haber tocado una cámara. Lo mismo funciona para una pieza seria, un anuncio o una historia; el del juez salió cómico solo porque esa era la idea.

Si te trabas en cualquier paso, vuelve a abrir Claude y cuéntale dónde estás. Como él escribió los prompts, también te ayuda a corregirlos: “esta toma me quedó con la cara rara” o “la voz va muy rápido” son instrucciones que entiende y traduce a un ajuste concreto.

trucos

Errores comunes y cómo evitarlos

Casi todos los problemas de este workflow son los mismos cinco o seis, y todos tienen arreglo. Tenlos a la mano y te vas a ahorrar horas y créditos:

Tu cara cambia entre tomas

Es la deriva de cara. Vuelve a subir tus fotos de referencia y repite la misma descripción tuya en cada prompt. Trabaja siempre desde tu imagen ancla, no desde cero.

Te ves de plástico

Piel demasiado lisa y cara perfecta gritan IA. Pide textura de piel natural, poros visibles y un poco de asimetría. Un retrato creíble tiene imperfecciones.

Las tomas no pegan entre sí

Casi siempre es la luz. Mantén la misma dirección y temperatura de luz en todas las escenas. Si la acción cruza de una toma a otra, usa el último cuadro como referencia de la siguiente.

El movimiento se siente raro o se deforma

Pediste demasiado para una sola toma. Acorta la duración, describe un movimiento de cámara concreto (push-in, paneo) y deja que cada toma haga una cosa, no tres.

Mezclaste estilos y se ve incoherente

No combines fotorrealista con caricatura en el mismo video. Decide un estilo al inicio y mantenlo en todas las imágenes y tomas.

Gastas créditos sin avanzar

Genera toma por toma y no subas la calidad al máximo hasta que la toma ya quedó en estándar. Aprueba primero, refina después.

faq

Preguntas frecuentes

¿Necesito saber editar o programar?

No. La edición en CapCut es de arrastrar clips y cortar, y el resto son prompts que escribe Claude por ti. Si sabes copiar y pegar, puedes hacerlo.

¿Por qué clonarme en ChatGPT y no directo en Higgsfield?

Porque el modelo de imágenes de ChatGPT es muy bueno manteniendo tu identidad a partir de fotos de referencia. Generas ahí el personaje consistente y luego Higgsfield solo se encarga de animarlo y darle voz.

¿Qué es Seedance 2.0 exactamente?

Es el modelo de video que usamos dentro de Higgsfield. Lo especial es que acepta varias imágenes de referencia y entiende un guion por tomas, por eso funciona tan bien con la estrategia de storyboard.

¿De verdad puede hablar con mi voz?

Sí. Higgsfield clona tu voz en su Cinema Studio y la sincroniza con los labios del personaje. Le das una muestra de cómo hablas y el diálogo, y el personaje lo dice como tú.

¿Cuánto cuesta?

ChatGPT pide una cuenta de pago para usar bien las imágenes, Higgsfield funciona por créditos que gastas en cada render, y CapCut es gratis para lo básico. Repetir tomas gasta créditos, así que genera en estándar y refina solo lo que ya quedó.

¿Sirve para algo que no sea comedia?

Claro. El video del juez salió cómico porque esa era la idea, pero el mismo workflow sirve para un anuncio, una historia, contenido educativo o lo que se te ocurra. Cambia el guion, no el proceso.

¿Los nombres de los modelos no van a cambiar?

Probablemente sí. Higgsfield y OpenAI sacan modelos nuevos seguido. Lo que no cambia es el workflow: clonarte, meterte en escenarios, storyboard, animar con voz y editar. Aunque cambien las versiones, los pasos son los mismos.

Cierre de la guía

No necesitas un estudio ni saber edición: necesitas el orden de las piezas. Clónate en ChatGPT, métete en tus escenarios, arma el storyboard, anímate con Seedance 2.0 y tu voz en Higgsfield, y únelo en CapCut. En cada paso, Claude escribe el prompt. El video del juez salió de exactamente esto. Esta guía vive en la bóveda de tododeia.

Las herramientas

Higgsfield

Donde animas tus imágenes con Seedance 2.0, usas el Cinema Studio y clonas tu voz para el personaje.

ChatGPT

Aquí subes tus fotos de referencia y generas las imágenes consistentes de tu personaje.

CapCut

El editor gratis donde juntas los clips, ajustas tiempos y exportas el video final.

Higgsfield dentro de Claude

Conecta Higgsfield al agente por MCP y pídele imagen o video por chat.

Hyperframes + Claude Design

Otra ruta para hacer video con IA dirigida desde Claude.

Stack IA para creadores

Las herramientas que usamos para producir contenido con IA.

Esta página no está afiliada a OpenAI ni a Higgsfield. Los nombres de los modelos y de las funciones pueden cambiar; ante la duda, revisa cada herramienta en su sitio oficial.