O aprendizado multimodal sempre foi um desafio na Inteligência Artificial, os diferentes tipos de dados exigem abordagens distintas para o processamento eficiente.
Porém, pesquisadores apresentaram uma solução inovadora: o “Meta-Transformer”, uma estrutura de IA unificada que pode lidar com várias modalidades de dados usando o mesmo conjunto de parâmetros. Entenda os detalhes a seguir!
Abordagem diferente para novos resultados.
O nosso cérebro é uma criação para essa nova abordagem. Ele processa informações simultaneamente de várias entradas sensoriais, como sinais visuais, auditivos e táteis, e a compreensão de uma fonte pode ajudar o conhecimento de outra.
No entanto, replicar essa capacidade no campo da IA tem sido um desafio devido à lacuna de modalidade no aprendizado profundo.
As modalidades de dados têm características distintas. Imagens têm informações espaciais e têm redundância de informações nos pixels compactados.
Os gráficos de áudio são padrões de dados não estacionários e variáveis no tempo. Os dados de vídeo, por exemplo, compreendem uma série de quadros de imagens, o que permite registrar informações espaciais e dinâmicas temporais.
As abordagens para lidar com diferentes modalidades envolviam a criação de redes separadas para cada tipo de dado, resultando em muito trabalho para ajustar os modelos individualmente. No entanto, os pesquisadores chineses propuseram uma nova maneira de lidar com essa complexidade.
O que é o Meta-Transformer?
O Meta-Transformer é composto por três componentes principais: um especialista em modalidade para tokenização de dados, um codificador compartilhado de modalidade para extrair representações entre modalidades e chefes específicos de tarefa para tarefas.
Essa estrutura permite a criação de sequências de token compartilhadas a partir de dados multimodais e a extração de representações usando um codificador com parâmetros congelados. A abordagem direta do Meta-Transformer treina representações específicas de tarefas e de modalidades genéricas com eficiência.
Os resultados dos experimentos com o Meta-Transformer foram impressionantes. A estrutura alcançou desempenho excepcional em vários conjuntos de dados, abrangendo 12 modalidades diferentes.
Essa abordagem inovadora promete uma nova direção no desenvolvimento de uma estrutura agnóstica de modalidade, que unifica todos os tipos de dados e melhora significativamente a capacidade de compreensão multimodal.
Com o Meta-Transformer, a pesquisa multimodal está prestes a dar um grande passo à frente, proporcionando avanços significativos em inteligência artificial e aprendizado de máquina.
A possibilidade de processar várias modalidades de dados com uma única estrutura unificada representa um marco importante na jornada para uma IA mais poderosa e eficiente.
O que é IA?
IA tornou-se um termo genérico para aplicações que executam tarefas complexas que antes exigiam interação humana, como se comunicar com clientes online ou jogar xadrez. O termo é frequentemente usado de forma intercambiável com seus subcampos, que incluem machine learning (ML) e deep learning.
No entanto, existem diferenças. Por exemplo, o machine learning é centrado na criação de sistemas que aprendam ou melhorem seu desempenho com base nos dados que eles consomem. É importante notar que, embora todo machine learning seja IA, nem toda IA é machine learning.
Para obter o valor total da IA, muitas empresas estão fazendo investimentos significativos em equipes de ciência de dados. A ciência de dados combina estatísticas, ciência da computação e conhecimento de negócios para extrair valor de várias fontes de dados.
Leia mais: 2 TRUQUES para conseguir renda extra com inteligência artificial