27.5 C
Brasília
quarta-feira, novembro 27, 2024
Continua após a publicidade..

Um bot que assistiu 70.000 horas de Minecraft pode desbloquear a próxima grande novidade da IA

OpenAI criou o melhor bot para jogar Minecraft, fazendo-o assistir a 70.000 horas de vídeo de pessoas jogando o popular jogo de computador. Ele apresenta uma nova técnica poderosa que pode ser usada para treinar máquinas para realizar uma ampla gama de tarefas, acessando sites como o YouTube, uma fonte vasta e inexplorada de dados de treinamento.

O Minecraft A IA aprendeu a executar sequências complicadas de cliques de teclado e mouse para concluir tarefas no jogo, como derrubar árvores e criar ferramentas. É o primeiro bot que pode criar as chamadas ferramentas de diamante, uma tarefa que normalmente leva bons jogadores humanos 20 minutos de cliques em alta velocidade – ou cerca de 24.000 ações.

Continua após a publicidade..

O resultado é um avanço para uma técnica conhecida como aprendizagem por imitação, na qual redes neurais são treinadas para executar tarefas observando os humanos executá-las. O aprendizado por imitação pode ser usado para treinar IA para controlar braços de robôs, dirigir carros ou navegar em páginas da web.

Existe uma grande quantidade de vídeos online mostrando pessoas realizando diferentes tarefas. Ao explorar esse recurso, os pesquisadores esperam fazer para a aprendizagem por imitação o que o GPT-3 fez para grandes modelos de linguagem. “Nos últimos anos, vimos o surgimento desse paradigma GPT-3, no qual vemos recursos incríveis vindos de grandes modelos treinados em enormes áreas da Internet”, diz Bowen Baker, da OpenAI, um dos membros da equipe por trás do novo Minecraft. robô. “Grande parte disso é porque estamos modelando o que os humanos fazem quando estão online.”

O problema com as abordagens existentes para a aprendizagem por imitação é que as demonstrações em vídeo precisam ser rotuladas em cada passo: fazer esta ação faz com que isso aconteça, fazer aquela ação faz com que isso aconteça e assim por diante. Anotar manualmente dessa maneira é muito trabalhoso e, portanto, esses conjuntos de dados tendem a ser pequenos. Baker e seus colegas queriam encontrar uma maneira de transformar os milhões de vídeos disponíveis on-line em um novo conjunto de dados.

A abordagem da equipe, chamada Video Pre-Training (VPT), ​​dá a volta por cima o gargalo na aprendizagem por imitação treinando outra rede neural para rotular vídeos automaticamente. Eles primeiro contrataram crowdworkers para jogar Minecraft e gravaram seus cliques de teclado e mouse junto com o vídeo de suas telas. Isso deu aos pesquisadores 2.000 horas de jogo anotado do Minecraft, que eles usaram para treinar um modelo para combinar as ações com o resultado na tela. Clicar no botão do mouse em determinada situação faz o personagem balançar o machado, por exemplo.

A próxima etapa foi usar esse modelo para gerar rótulos de ação para 70.000 horas de vídeo não rotulado retirado da Internet e, em seguida, treinar o bot do Minecraft nesse conjunto de dados maior.

“O vídeo é um recurso de treinamento com muito potencial”, diz Peter Stone, diretor executivo da Sony AI America, que trabalhou anteriormente com aprendizado por imitação.

O aprendizado por imitação é uma alternativa ao aprendizado por reforço, no qual uma rede neural aprende a realizar uma tarefa do zero por tentativa e erro. Esta é a técnica por trás de muitos dos maiores avanços da IA ​​nos últimos anos. Ele tem sido usado para treinar modelos que podem derrotar humanos em jogos, controlar um reator de fusão e descobrir uma maneira mais rápida de fazer matemática fundamental.

O problema é que o aprendizado por reforço funciona melhor para tarefas que têm um objetivo claro, onde ações aleatórias podem levar ao sucesso acidental. Os algoritmos de aprendizado por reforço recompensam esses sucessos acidentais para torná-los mais propensos a acontecer novamente.

Mas Minecraft é um jogo sem objetivo claro. Os jogadores são livres para fazer o que quiserem, vagando por um mundo gerado por computador, extraindo diferentes materiais e combinando-os para criar diferentes objetos.

A abertura do Minecraft o torna um bom ambiente para treinamento de IA. Baker foi um dos pesquisadores por trás do Hide & Seek, um projeto no qual bots foram soltos em um playground virtual onde usaram aprendizado por reforço para descobrir como cooperar e usar ferramentas para vencer jogos simples. Mas os bots logo superaram seus arredores. “Os agentes meio que dominaram o universo, não havia mais nada para eles fazerem”, diz Baker. “Queríamos expandi-lo e achamos que o Minecraft era um ótimo domínio para trabalhar.”

Eles não estão sozinhos. O Minecraft está se tornando um importante campo de teste para novas técnicas de IA. MineDojo, um ambiente de Minecraft com dezenas de desafios pré-definidos, ganhou um prêmio na NeurIPS deste ano, uma das maiores conferências de IA.

Usando o VPT, o bot da OpenAI foi capaz de realizar tarefas que seriam impossíveis usando apenas o aprendizado por reforço, como criar pranchas e transformá-las em uma mesa, o que envolve cerca de 970 ações consecutivas. Mesmo assim, eles descobriram que os melhores resultados vinham do uso de aprendizado por imitação e aprendizado por reforço juntos. Pegar um bot treinado com VPT e ajustá-lo com aprendizado por reforço permitiu que ele realizasse tarefas envolvendo mais de 20.000 ações consecutivas.

Os pesquisadores afirmam que sua abordagem poderia ser usada para treinar IA para realizar outras tarefas . Para começar, pode ser usado para bots que usam teclado e mouse para navegar em sites, reservar voos ou comprar mantimentos online. Mas, em teoria, poderia ser usado para treinar robôs para realizar tarefas físicas do mundo real, copiando vídeos em primeira pessoa de pessoas fazendo essas coisas. “É plausível”, diz Stone.

Matthew Gudzial, da Universidade de Alberta, no Canadá, que usou vídeos para ensinar à IA as regras de jogos como Super Mario Bros, não acha que isso acontecerá acontecer em breve, no entanto. As ações em jogos como Minecraft e Super Mario Bros. são realizadas pressionando botões. As ações no mundo físico são muito mais complicadas e difíceis de serem aprendidas por uma máquina. “Ele revela toda uma confusão de novos problemas de pesquisa”, diz Gudzial.

“Este trabalho é outra prova do poder de escalar modelos e treinar em grandes conjuntos de dados para obter um bom desempenho,” diz Natasha Jaques, que trabalha com aprendizado por reforço multiagente no Google e na Universidade da Califórnia, em Berkeley.

Grandes conjuntos de dados do tamanho da Internet certamente desbloquearão novos recursos para IA, diz Jaques. “Já vimos isso várias vezes, e é uma ótima abordagem.” Mas a OpenAI deposita muita fé apenas no poder de grandes conjuntos de dados, ela diz: “Pessoalmente, sou um pouco mais cética de que os dados possam resolver qualquer problema.”

Ainda assim, Baker e seus colegas acham que coletar mais de um milhão de horas de vídeos do Minecraft tornará sua IA ainda melhor. É provavelmente o melhor bot para jogar Minecraft até agora, diz Baker: “Mas com mais dados e modelos maiores, eu esperaria que parecesse que você está assistindo a um humano jogando, ao contrário de um bebê AI tentando imitar um humano. ”

Check out other tags:

0