Modelos de linguagem grande são uma das áreas mais quentes da pesquisa de IA no momento, com empresas correndo para lançar programas como GPT-3 que podem escrever artigos impressionantemente coerentes e até mesmo código de computador. Mas há um problema surgindo no horizonte, de acordo com uma equipe de analistas de IA: podemos ficar sem dados para treiná-los.
Os modelos de linguagem são treinados usando textos de fontes como Wikipedia, artigos de notícias , artigos científicos e livros. Nos últimos anos, a tendência tem sido treinar esses modelos com mais e mais dados, na esperança de torná-los mais precisos e versáteis.
O problema é que os tipos de dados normalmente usados para modelos de linguagem de treinamento podem ser usados em um futuro próximo – já em 2026, de acordo com um artigo de pesquisadores da Epoch , uma organização de pesquisa e previsão de IA, que ainda não foi revisada por pares. A questão decorre do fato de que, à medida que os pesquisadores constroem modelos mais poderosos com maiores capacidades, eles precisam encontrar cada vez mais textos para treiná-los. Grandes pesquisadores de modelos de linguagem estão cada vez mais preocupados com a possibilidade de ficar sem esse tipo de dados, diz Teven Le Scao, pesquisador da empresa de IA Hugging Face, que não esteve envolvido no trabalho da Epoch.
A questão decorre em parte do fato de que os pesquisadores de linguagem AI filtram os dados que usam para treinar modelos em duas categorias: alta qualidade e baixa qualidade. A linha entre as duas categorias pode ser tênue, diz Pablo Villalobos, pesquisador da Epoch e principal autor do artigo, mas o texto da primeira é visto como melhor escrito e frequentemente produzido por escritores profissionais.
Os dados das categorias de baixa qualidade consistem em textos como postagens em redes sociais ou comentários em sites como o 4chan, e superam em muito os dados considerados de alta qualidade. Os pesquisadores normalmente treinam apenas modelos usando dados que se enquadram na categoria de alta qualidade porque esse é o tipo de linguagem que eles desejam que os modelos reproduzam. Essa abordagem resultou em alguns resultados impressionantes para grandes modelos de linguagem, como GPT-3.
Uma maneira de superar essas restrições de dados seria reavaliar o que é definido como qualidade “baixa” e “alta”, de acordo com Swabha Swayamdipta, professor de aprendizado de máquina da University of Southern California especializado em qualidade de conjunto de dados. Se a escassez de dados levar os pesquisadores de IA a incorporar conjuntos de dados mais diversos no processo de treinamento, isso seria uma “rede positiva” para os modelos de linguagem, diz Swayamdipta.
Os pesquisadores também podem encontrar maneiras de prolongar a vida útil de dados usados para treinar modelos de linguagem. Atualmente, grandes modelos de linguagem são treinados nos mesmos dados apenas uma vez, devido a restrições de desempenho e custo. Mas pode ser possível treinar um modelo várias vezes usando os mesmos dados, diz Swayamdipta.
Alguns pesquisadores acreditam que grande pode não ser igual a melhor quando se trata de modelos de linguagem. Percy Liang, professor de ciência da computação na Universidade de Stanford, diz que há evidências de que tornar os modelos mais eficientes pode melhorar sua capacidade, em vez de apenas aumentar seu tamanho.