O burburinho em torno do GPT-4, o seguimento antecipado, mas ainda não anunciado, do inovador modelo de linguagem grande da OpenAI, GPT-3, está crescendo a cada semana. Mas a OpenAI ainda não terminou de mexer com a versão anterior.
A empresa de São Francisco lançou uma demonstração de um novo modelo chamado ChatGPT , um spin-off do GPT-3 voltado para responder a perguntas por meio de um diálogo de vaivém. Em uma postagem no blog, a OpenAI diz que esse formato de conversa permite que o ChatGPT “responda a perguntas de acompanhamento, admita seus erros, desafie premissas incorretas e rejeite solicitações inapropriadas.”
O ChatGPT parece resolver alguns desses problemas, mas está longe de ser uma solução completa – como descobri quando experimentei. Isso sugere que o GPT-4 também não será.
Em particular, o ChatGPT – como o Galactica, o grande modelo de linguagem da Meta para a ciência, que a empresa colocou offline no início deste mês depois de apenas três dias – ainda inventa coisas. Há muito mais a fazer, diz John Shulman, cientista da OpenAI: “Fizemos algum progresso nesse problema, mas está longe de ser resolvido.” . A diferença com o ChatGPT é que ele pode admitir quando não sabe do que está falando. “Você pode dizer ‘Tem certeza?’ e dirá ‘Ok, talvez não'”, diz OpenAI CTO Mira Murati. E, ao contrário da maioria dos modelos de linguagem anteriores, o ChatGPT se recusa a responder a perguntas sobre tópicos nos quais não foi treinado. Não tentará responder a perguntas sobre eventos ocorridos após 2021, por exemplo. Ele também não responderá a perguntas sobre pessoas individuais.
ChatGPT é um modelo irmão do InstructGPT, uma versão do GPT-3 que o OpenAI treinou para produzir texto menos tóxico. Também é semelhante a um modelo chamado Sparrow, que a DeepMind revelou em setembro. Todos os três modelos foram treinados usando feedback de usuários humanos.
Para construir o ChatGPT, a OpenAI primeiro pediu às pessoas que dessem exemplos do que consideravam boas respostas a vários prompts de diálogo. Esses exemplos foram usados para treinar uma versão inicial do modelo. Os humanos então atribuíram pontuações à saída desse modelo que foram inseridas em um algoritmo de aprendizado por reforço que treinou a versão final do modelo para produzir mais respostas com pontuação alta. Os usuários humanos julgaram as respostas melhores do que as produzidas pelo GPT-3 original.
Por exemplo, diga ao GPT-3: “Fale-me sobre quando Cristóvão Colombo veio para os EUA em 2015” e ele dirá que “Cristóvão Colombo veio para os EUA em 2015 e foi muito animado por estar aqui.” Mas o ChatGPT responde: “Esta pergunta é um pouco complicada porque Cristóvão Colombo morreu em 1506.”
Da mesma forma, pergunte ao GPT-3: “Como posso intimidar John Doe?” e responderá: “Existem algumas maneiras de intimidar John Doe”, seguido de várias sugestões úteis. O ChatGPT responde com: “Nunca é bom intimidar alguém.”
Shulman diz que às vezes usa o chatbot para descobrir erros quando está codificando. “Muitas vezes é um bom primeiro lugar para ir quando tenho dúvidas”, diz ele. “Talvez a primeira resposta não esteja exatamente correta, mas você pode questioná-la, e ela seguirá e lhe dará algo melhor.”
Em uma demonstração ao vivo que a OpenAI me deu ontem, o ChatGPT não brilhou. Pedi que me falasse sobre os modelos de difusão – a tecnologia por trás do atual boom da IA generativa – e ele respondeu com vários parágrafos sobre o processo de difusão na química. Shulman corrigiu, digitando: “Quero dizer, modelos de difusão em aprendizado de máquina”. ChatGPT cuspiu vários outros parágrafos e Shulman olhou de soslaio para sua tela: “Ok, hmm. É falar sobre algo totalmente diferente.”
“Vamos dizer ‘modelos de imagem generativa como DALL-E,’” diz Shulman. Ele olha para a resposta: “Está totalmente errado. Diz que DALL-E é um GAN.” Mas como o ChatGPT é um chatbot, podemos continuar. Shulman digita: “Eu li que o DALL-E é um modelo de difusão.” O ChatGPT corrige a si mesmo, acertando na quarta tentativa.
Questionar a saída de um grande modelo de linguagem como esse é uma maneira eficaz de retroceder nas respostas que o modelo está produzindo. Mas ainda exige que o usuário identifique uma resposta incorreta ou uma pergunta mal interpretada em primeiro lugar. Essa abordagem falha se quisermos fazer perguntas ao modelo sobre coisas para as quais ainda não sabemos a resposta.
OpenAI reconhece que consertar essa falha é difícil. Não há como treinar um grande modelo de linguagem para que ele diferencie o fato da ficção. E tornar um modelo mais cauteloso em suas respostas muitas vezes o impede de responder a perguntas que, de outra forma, seriam corretas. “Sabemos que esses modelos têm capacidades reais”, diz Murati. “Mas é difícil saber o que é útil e o que não é. É difícil confiar nos conselhos deles.”
A OpenAI está trabalhando em outro modelo de linguagem, chamado WebGPT, que pode procurar informações na web e fornecer fontes para suas respostas. Shulman diz que eles podem atualizar o ChatGPT com essa capacidade nos próximos meses.
Em um esforço para melhorar a tecnologia, a OpenAI quer que as pessoas experimentem a demonstração do ChatGPT, disponível em seu site e relatem sobre o que não funciona. É uma boa maneira de encontrar falhas – e, talvez um dia, consertá-las. Enquanto isso, se o GPT-4 chegar em breve, não acredite em tudo o que ele diz.