Por que é importante: O Minecraft pode não parecer uma ferramenta importante que apoie a pesquisa avançada de IA. Afinal, o que poderia ser tão importante em ensinar uma máquina a jogar um jogo sandbox lançado há mais de uma década? Com base nos esforços recentes da OpenAI, um bot Minecraft bem treinado é mais relevante para o avanço da IA do que a maioria das pessoas pode imaginar.
OpenAI sempre focou em inteligência artificial (IA) e avanços de aprendizado de máquina que beneficiam humanidade. Recentemente, a empresa treinou com sucesso um bot para jogar Minecraft usando mais de 70.000 horas de vídeos de jogabilidade. A conquista é muito mais do que apenas um bot jogando um jogo. Ele marca um passo gigantesco no aprendizado de máquina avançado usando observação e imitação.
O bot da OpenAI é um excelente exemplo de aprendizado por imitação (também chamado de “aprendizagem supervisionada”) em ação. Ao contrário do aprendizado por reforço, em que um agente de aprendizado é recompensado após atingir uma meta por meio de tentativa e erro, o aprendizado por imitação treina redes neurais para executar tarefas específicas observando os humanos concluí-las. Nesse caso, a OpenAI aproveitou vídeos de jogabilidade e tutoriais disponíveis para ensinar seu bot a executar sequências complexas no jogo que levariam o jogador típico aproximadamente 24.000 ações individuais para alcançar.
O aprendizado por imitação requer que as entradas de vídeo sejam rotuladas para fornecer o contexto da ação e o resultado observado. Infelizmente, essa abordagem pode ser altamente trabalhosa, resultando em conjuntos de dados disponíveis limitados. Essa escassez de conjuntos de dados disponíveis acaba limitando a capacidade do agente de aprender por meio da observação.
Em vez de se esforçar por meio de um extenso exercício manual de marcação de dados, a equipe de pesquisa da OpenAI usou uma abordagem específica, conhecida como
Video Pre-Training (VPT), para expandir significativamente o número de vídeos rotulados disponíveis. Inicialmente, os pesquisadores capturaram 2.000 horas de jogabilidade anotada do Minecraft e as usaram para treinar um agente para associar ações específicas com resultados específicos na tela. O modelo resultante foi então usado para gerar rótulos automaticamente para 70.000 horas de conteúdo do Minecraft anteriormente não rotulado prontamente disponível online, fornecendo ao bot do Minecraft um conjunto de dados muito maior para revisar e imitar.
Todo o exercício comprova o valor potencial dos repositórios de vídeo disponíveis, como o YouTube, como um recurso de treinamento de IA. Os cientistas de aprendizado de máquina podem usar vídeos disponíveis e rotulados adequadamente para treinar a IA para realizar tarefas específicas, desde a simples navegação na Web até ajudar os usuários com necessidades físicas da vida real.