Treinando nossos futuros governantes —
O Cícero de Meta pode negociar ou persuadir com linguagem natural — exatamente como um humano.
Na terça-feira, Meta AI anunciou
Mesmo antes do Deep Blue derrotar Garry Kasparov no xadrez em 1997, os jogos de tabuleiro eram uma medida útil
Mas com Diplomacia, uma grande parte do jogo envolve habilidades sociais. Os jogadores devem mostrar empatia, usar linguagem natural e construir relacionamentos para vencer – uma tarefa difícil para um jogador de computador. Com isso em mente, Meta perguntou: “Podemos construir agentes mais eficazes e flexíveis que possam usar a linguagem para negociar, persuadir e trabalhar com pessoas para atingir objetivos estratégicos semelhantes aos humanos?”
De acordo com Meta, a resposta é sim. Cícero aprendeu suas habilidades jogando uma versão online de Diplomacy na
webDiplomacia .internet. Com o tempo, tornou-se um mestre no jogo, alcançando “mais do que o dobro da pontuação média” dos jogadores humanos e classificando-se entre os 10% melhores das pessoas que jogaram mais de um jogo.
Para criar o Cicero, a Meta reuniu modelos de IA para raciocínio estratégico (semelhante ao AlphaGo) e processamento de linguagem natural (semelhante ao GPT-3) e os juntou em um agente. Durante cada partida, Cícero observa o estado do tabuleiro e o histórico da conversa e prevê como os outros jogadores irão agir. Ele elabora um plano que executa por meio de um modelo de linguagem que pode gerar um diálogo semelhante ao humano, permitindo a coordenação com outros jogadores.
Meta chama as habilidades de linguagem natural de Cícero de “modelo de diálogo controlável”, que é onde reside o coração da personalidade de Cícero. Como o GPT-3, o Cicero extrai de um grande corpus de texto da Internet extraído da web. “Para construir um modelo de diálogo controlável, começamos com um parâmetro de 2,7 bilhões Modelo de linguagem semelhante ao BART pré-treinado em texto da Internet e ajustado em mais de 40.000 jogos humanos na webDiplomacia .net,” escreve Meta. O modelo resultante dominou as complexidades de um jogo complexo. “Cícero pode deduzir, por exemplo, que mais tarde no jogo precisará do apoio de um determinado jogador”, diz Meta, “e então elaborar uma estratégia para ganhar o favor dessa pessoa – e até mesmo reconhecer os riscos e oportunidades que esse jogador vê de seu ponto de vista particular.” Pesquisa de Cícero de Meta apareceu na revista Science sob o título, “Jogo de nível humano no jogo da Diplomacia combinando modelos de linguagem com raciocínio estratégico.”
Quanto a aplicações mais amplas, a Meta sugere que sua pesquisa Cicero poderia “diminuir as barreiras de comunicação” entre humanos e IA, como manter um conversa de longo prazo para ensinar a alguém uma nova habilidade. Ou pode alimentar um videogame onde os NPCs podem falar como humanos, entendendo as motivações do jogador e se adaptando ao longo do caminho.
Ao mesmo tempo, essa tecnologia pode ser usada para manipular humanos, personificando pessoas e enganando-as de maneiras potencialmente perigosas, dependendo do contexto. Nesse sentido, a Meta espera que outros pesquisadores possam desenvolver seu código “de maneira responsável” e diz que tomou medidas para detectar e remover “mensagens tóxicas neste novo domínio”, o que provavelmente se refere ao diálogo que Cícero aprendeu com os textos da Internet. ele ingeriu – sempre um risco para grandes modelos de linguagem.
Meta forneceu um site detalhado para explicar como o Cicero funciona e também tem código aberto do Cicero no GitHub . Online Diplomacia os fãs – e talvez até o resto de nós – podem precisar ficar atentos.