Revolucionando a Geração de Vídeos: VideoPoet pelo Google
O VideoPoet, desenvolvido pela Google Research, é um programa de ponta que transforma modelos de linguagem em poderosos geradores de vídeo. Ele utiliza componentes avançados como o tokenizador de vídeo MAGVIT V2 e o tokenizador de áudio SoundStream para converter imagens, vídeos e clipes de áudio em uma sequência de códigos discretos. Esses códigos, integrados com modelos de linguagem baseados em texto, permitem que a ferramenta preveja o próximo token de vídeo ou áudio na sequência. O VideoPoet oferece uma ampla gama de objetivos de aprendizado generativo, incluindo texto para vídeo, imagem para vídeo, estilização de vídeo e muito mais, mostrando sua versatilidade na síntese de vídeo.
O VideoPoet se destaca por sua capacidade de gerar vídeos de alta qualidade em orientação quadrada ou retrato, atendendo às necessidades de conteúdo em formato curto. Com recursos como multitarefa em entradas centradas em vídeo, preservação de identidade de objetos e capacidades de edição de vídeo interativo, o VideoPoet demonstra como os modelos de linguagem podem ser aproveitados para criar vídeos com uma notável consistência temporal.