Inteligência artificial já gera vídeo em tempo real com qualidade cinematográfica

O mundo da inteligência artificial não para de surpreender. Depois da revolução das imagens estáticas e dos modelos de linguagem, que mudaram a forma como escrevemos e programamos, chegou a vez do vídeo. E o salto qualitativo é de fazer cair o queixo — pela primeira vez, é possível gerar cenas completas fotorrealistas sem câmaras, actores ou cenários.

O modelo, recentemente apresentado por uma conhecida empresa de tecnologia, consegue gerar cenas completas com iluminação dinâmica, sombras precisas e movimentos de câmara que rivalizam com produções cinematográficas profissionais. Basta escrever uma descrição textual, e o sistema cria o vídeo em segundos, sem necessidade de actores, cenários ou equipamento de filmagem. Um feito que até há dois anos parecia coisa de ficção científica.

Os modelos de geração de vídeo em tempo real estão a revolucionar a indústria.

Oportunidades e riscos de uma tecnologia disruptiva

As implicações são enormes para vários sectores. Na publicidade, será possível criar anúncios personalizados em segundos, adaptando o conteúdo a cada público-alvo. No cinema, os realizadores poderão pré-visualizar cenas complexas sem gastar milhões em storyboards e efeitos especiais. Na educação, os professores poderão gerar material didático interativo com facilidade. Estima-se que o mercado da geração de vídeo por IA possa ultrapassar os 50 mil milhões de dólares até 2030.

Projeção de crescimento do mercado de vídeo gerado por IA (mil milhões USD).

Mas nem tudo são flores. A facilidade com que se pode gerar vídeo realista levanta sérias questões éticas. A desinformação e as deepfakes, que antes se limitavam a imagens e áudio, ganham agora uma nova dimensão com vídeos indistinguíveis da realidade. Os especialistas alertam para o risco de manipulação em massa e pedem regulamentação urgente, num cenário onde a tecnologia avança mais depressa do que a lei.

A comunidade de investigadores tem vindo a discutir formas de mitigar os riscos, incluindo a marcação digital de conteúdo gerado por IA e sistemas de verificação de autenticidade baseados em blockchain. Contudo, a tecnologia avança mais depressa do que a regulamentação, e o debate entre inovação e segurança promete continuar por muito tempo. Uma coisa é certa: o mundo do vídeo nunca mais será o mesmo, e cabe-nos a todos decidir como usar esta ferramenta.

O modelo, que a empresa prefere não identificar publicamente, utiliza uma arquitetura de diffusion transformer com 8 mil milhões de parâmetros, capaz de gerar vídeo em resolução 4K a 30 frames por segundo. O tempo de geração para um clipe de 30 segundos é inferior a 10 segundos.

A qualidade do resultado supera largamente os modelos anteriores, como o Sora da OpenAI e o Veo do Google, graças a um novo sistema de atenção temporal que mantém a consistência dos objetos ao longo dos frames — um dos maiores desafios técnicos da geração de vídeo por IA.

O modelo, com 8 mil milhões de parâmetros e arquitetura diffusion transformer, gera vídeo 4K a 30 fps com consistência temporal validada por métrica FVD de 95.3. O tempo de inferência para 30 segundos de vídeo é de 8 segundos num cluster de 16 GPUs H200. A qualidade supera o Sora da OpenAI (FVD 102.1) e o Veo do Google (FVD 98.7), segundo a benchmark VBench.

Inteligência artificial já gera vídeo em tempo real com qualidade cinematográfica

Oportunidades e riscos de uma tecnologia disruptiva

💬 Comentários