Novo Algoritmo Descobre Linguagem Apenas Assistindo a Vídeos

Pesquisadores do MIT desenvolveram o algoritmo DenseAV, que pode aprender a entender a linguagem humana apenas observando vídeos. A equipe liderada por Mark Hamilton se inspirou em um filme de pinguins para criar um modelo que associa sinais de áudio e vídeo para decifrar a linguagem.

DenseAV trabalha associando sons com imagens correspondentes, como ouvir “assar o bolo a 350 graus” e identificar um bolo ou um forno. O algoritmo aprende a significar palavras e sons, distinguindo entre fala e sons ambientais.

Uma característica única de DenseAV é sua capacidade de separar visualmente e auditivamente, forçando o algoritmo a reconhecer objetos e sons sem depender de texto escrito. Isso foi alcançado utilizando aprendizado contrastivo, que compara pares de sinais de áudio e vídeo para encontrar correspondências sem exemplos rotulados.

Comparado a algoritmos anteriores, DenseAV é capaz de fazer conexões mais detalhadas entre áudio e vídeo, melhorando a precisão na localização de sons e objetos. O modelo foi treinado em um grande conjunto de vídeos do YouTube e mostrou desempenho superior em tarefas de identificação de objetos e sons.

O objetivo futuro é aplicar DenseAV em domínios com grandes quantidades de dados de áudio ou vídeo, como aprender novas linguagens ou padrões entre sinais sísmicos e geologia. A equipe também planeja ampliar o modelo utilizando arquiteturas de transformadores maiores e integrando conhecimento de modelos de linguagem.

O professor David Harwath elogiou o avanço significativo do DenseAV em aprender tarefas simultâneas de visão e som apenas observando o mundo, sem depender de anotações humanas. A pesquisa será apresentada na Conferência de Visão Computacional e Reconhecimento de Padrões IEEE/CVF.

Fonte: https://news.mit.edu/2024/denseav-algorithm-discovers-language-just-watching-videos-0611