Kling Video O1 Chega: O Primeiro Modelo Unificado do Mundo para Criação e Edição de Vídeo Baseada em Texto
Editado por: Veronika Radoslavskaya
O cenário da inteligência artificial para vídeos está passando por uma revolução significativa com a introdução do Kling Video O1 (Omni One). Este novo e robusto modelo de fundação é apresentado como o primeiro motor multimodal unificado do planeta, projetado tanto para a geração de conteúdo visual quanto para a edição avançada. Desenvolvido pela Kuaishou, esta tecnologia visa desmantelar a fragmentação que historicamente caracterizava o fluxo de trabalho criativo, dispensando a necessidade de os criadores alternarem entre ferramentas distintas para conceber, refinar e editar suas produções.
O avanço tecnológico central do O1 reside na sua notável capacidade de processar uma variedade complexa de insumos dentro de um único fluxo de trabalho coeso. Isso inclui a aceitação de comandos de texto, a integração de múltiplas imagens de referência (até sete) e a incorporação de clipes de vídeo existentes. Este motor multimodal unificado possibilita a criação de cenas em alta fidelidade de 1080p, permitindo que edições de pós-produção sejam aplicadas imediatamente apenas através de instruções em linguagem natural. Os usuários agora podem emitir comandos como “remova o transeunte no fundo”, “mude o dia para o crepúsculo” ou “troque a roupa do personagem principal”, e o modelo demonstra a compreensão do contexto visual para executar essas alterações com precisão cirúrgica.
O Kling Video O1 surge para solucionar desafios crônicos da indústria, especialmente no que tange à coerência visual. Sua engenharia foi otimizada para manter uma consistência de personagem e um estilo visual excepcionais ao longo de sequências extensas e movimentos de câmera complexos. Ele atua quase como um diretor humano, prevenindo o temido “desvio” visual ou artefatos de cintilação que frequentemente comprometem a qualidade. Além disso, o modelo oferece um controle detalhado por meio de funcionalidades como o controle de Quadro Inicial e Final, permitindo que editores especifiquem exatamente o ponto de início e término de uma tomada, facilitando transições fluidas e animações precisas de imagens estáticas. Embora os clipes base gerados tenham tipicamente entre 5 e 10 segundos, a arquitetura do O1 suporta a produção de narrativas mais longas e coesas, com relatos indicando a possibilidade de estender a duração para até dois minutos.
As proezas técnicas do sistema são reforçadas por um sistema de raciocínio Cadeia de Pensamento (CoT), que aprimora a análise dos prompts e a compreensão das leis da física aplicadas à cena. Os resultados em benchmarks demonstram vantagens de desempenho significativas em relação a concorrentes notórios, como o Google Veo 3.1 e o Runway Aleph, especialmente em tarefas de transformação visual complexa. Ao consolidar sete capacidades criativas fundamentais – desde a conversão de texto em vídeo até a extensão de cenas e a edição direta – o Kling Video O1 estabelece um novo patamar para a eficiência profissional. Ele garante que a alta qualidade e a uniformidade sejam mantidas desde a concepção inicial até o corte final da produção.
13 Visualizações
Fontes
מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי
Kling's Video O1 launches as the first all-in-one video model for generation and editing
Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com
Kling AI releases unified video model - Kr Asia
'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model
Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium
Leia mais notícias sobre este tema:
Encontrou um erro ou imprecisão?
Vamos considerar seus comentários assim que possível.
