21.5 C
Brasília
segunda-feira, novembro 25, 2024
Continua após a publicidade..

Por que o futuro da IA ​​é modelos de fundação flexíveis e reutilizáveis

Ao aprender um idioma diferente, a maneira mais fácil de começar é com exercícios de preenchimento de lacunas. “Está chovendo gatos e…”

Ao cometer erros e corrigi-los, seu cérebro (que os linguistas concordam que é programado para o aprendizado de idiomas) começa a descobrir padrões de gramática, vocabulário e sequência de palavras – que podem ser aplicados não apenas para preencher espaços em branco, mas também para transmitir significado a outros humanos (ou computadores, cachorros, etc.).

Continua após a publicidade..

Esse último bit é importante quando se fala sobre os chamados ‘modelos de fundação’, um dos tópicos mais quentes (mas subestimados) em inteligência artificial no momento.

Saudações, humanóides

Assine nosso boletim informativo agora para receber uma recapitulação semanal de nossas histórias favoritas de IA em sua caixa de entrada.

De acordo com um documento de revisão de 2021, os modelos de fundação são “treinados em dados amplos (geralmente usando auto-supervisão em escala) que podem ser adaptados a uma ampla gama de tarefas downstream. ”

Em não- linguagem acadêmica, assim como estudar exercícios de preenchimento de lacunas, os modelos de fundação aprendem coisas de uma forma que podem ser aplicadas posteriormente a outras tarefas, tornando-as mais flexíveis do que os modelos atuais de IA.

Por que os modelos de fundação são diferentes?

A forma como os modelos de fundação são treinados resolve um dos maiores gargalos da IA: rotular dados.

Quando (para provar que você não é um robô) um site pede que você selecione “todas as imagens contendo um barco”, você está essencialmente rotulando. Esse rótulo pode então ser usado para alimentar imagens de barcos para um algoritmo para que ele possa, em algum momento, reconhecer barcos de forma confiável por conta própria. Tradicionalmente, é assim que os modelos de IA são treinados; usando dados rotulados por humanos. É um processo demorado e requer muitas pessoas para rotular os dados.

Os modelos de fundação não precisam desse tipo de rotulagem. Em vez de confiar na anotação humana, eles usam o método de preencher os espaços em branco e feedback autogerado para aprender continuamente e melhorar o desempenho, sem a necessidade de supervisão humana.

Isso torna os modelos de fundação mais acessíveis para setores que ainda não possuem uma ampla gama de dados disponíveis. Na verdade, de acordo com Dakshi Agrawal, IBM Fellow e CTO da IBM AI, dependendo do domínio em que você está treinando um modelo básico, alguns gigabytes de dados podem ser suficientes.

Esses modelos complexos podem parece muito diferente de um usuário como você, mas é quase certo que você já viu um modelo de fundação funcionando em algum momento online. Alguns dos mais famosos são o modelo de linguagem GPT-3, que, após ser alimentado com obras de escritores famosos, pode produzir imitações notáveis, ou DALL-E, que produz imagens impressionantes com base nas solicitações dos usuários.

Mas os modelos de fundação não se limitam à linguagem humana.

Além de criar um novo entretenimento, a flexibilidade que os modelos básicos trazem pode ajudar a acelerar pesquisas médicas inovadoras, avanços científicos, engenharia, arquitetura e até programação.

Propriedades emergentes

Os modelos de fundação são caracterizados por duas propriedades muito interessantes: emergência e homogeneização.

Emergência significa novas propriedades inesperadas que os modelos mostram que não estavam disponíveis em gerações anteriores. Isso geralmente acontece quando os tamanhos dos modelos aumentam. Um modelo de linguagem fazendo raciocínio aritmético básico é um exemplo de uma propriedade emergente de um modelo que é um tanto inesperado.

Homogeneização é um termo complicado para um modelo que é treinado para entender e usar o idioma inglês para executar diferentes tarefas. Isso pode incluir resumir um trecho de texto, produzir um poema no estilo de um escritor famoso ou interpretar um comando dado por um humano (o modelo de linguagem GPT-3 é um bom exemplo disso).

Mas os modelos de fundação não se limitam à linguagem humana. Em essência, o que estamos ensinando a um computador a fazer é encontrar padrões em processos ou fenômenos que possam ser replicados em uma determinada condição.

Vamos descompactar isso com um exemplo. Pegue as moléculas. A física e a química ditam que as moléculas podem existir apenas em certas configurações. O próximo passo seria definir um uso para moléculas, como remédios. Um modelo de fundação pode então ser treinado, usando resmas de dados médicos, para entender como diferentes moléculas (isto é, drogas) interagem com o corpo humano ao tratar doenças.

É claro que modelos como esses também podem gerar polêmica.

Esse entendimento pode então ser usado para ‘ajustar’ o modelo de fundação para que ele possa fazer sugestões sobre qual molécula pode funcionar em uma determinada situação. Isso pode acelerar significativamente a pesquisa médica, permitindo que os profissionais simplesmente peçam ao modelo que crie moléculas que possam ter certas propriedades antibacterianas ou que funcionem como uma droga contra um determinado vírus.

No entanto, como mencionado, isso pode às vezes produzir resultados inesperados. Recentemente, um grupo de cientistas usando um modelo básico de IA para

descobrir curas para doenças raras descobriu que o mesmo modelo poderia também pode ser usado para descobrir as armas químicas mais potentes conhecidas pela humanidade.

Preocupações fundamentais

Uma pequena indicação da mudança radical que esses modelos podem trazer foi o surgimento de empresas que oferecem ‘geradores de prompt’, que usam humanos para criar prompts para modelos como Midjourney ou DALL-E, que produzem imagens interessantes ou precisas de maneira confiável.

É claro que modelos como esses geram controvérsia. Ultimamente, vários artistas se manifestaram contra o uso de suas obras de arte para treinar modelos geradores de imagens.

Também há um caso a ser feito sobre o uso de energia necessário para treinar um modelo em grande escala. Acrescente a isso o fato de que os recursos de computação significativos necessários para criar um modelo básico significam que apenas as maiores empresas de tecnologia do mundo podem se dar ao luxo de treiná-los.

Novamente, como Agrawal explicou, aumentar a eficiência no o treinamento e o uso desses modelos significam que eles estão se tornando mais acessíveis a mais pessoas em um ritmo cada vez maior –– reduzindo o consumo de energia e os custos.

Outro problema mais fundamental (desculpe) com esses modelos é que quaisquer vieses ou erros no modelo original podem ser transferidos para ferramentas construídas com eles. Portanto, se a linguagem racista for usada como dados de treinamento para um modelo de linguagem, isso pode levar a algumas saídas ofensivas e até mesmo ações judiciais contra a empresa em questão.

Uma maneira de evitar isso é eliminar manualmente os indesejados dados de treinamento, mas outro método mais futurista é o uso dos chamados dados sintéticos. Dados sintéticos são dados falsos essenciais gerados por um modelo de IA para imitar o real, mas de uma maneira mais controlada. Isso pode ser útil para garantir que um modelo de fundação não ingira dados ofensivos ou confidenciais durante o processo de aprendizagem.

Os modelos de IA mais avançados tomarão nossos empregos?

Bem, sim e não.

A forma como a maioria dos pesquisadores de IA vê esses modelos é como uma ferramenta. Assim como uma chave de fenda elétrica significava menos horas necessárias para montar uma estrutura de madeira, ainda era necessária uma pessoa para empunhar a chave de fenda elétrica.

Pegue o modelo de fundação da IBM Ansible Wisdom. Em uma busca para descobrir se os computadores podem ser ensinados a programar computadores, os pesquisadores ajustaram um modelo para gerar trechos de código Ansible que antes precisavam ser escritos manualmente. Com ele, os desenvolvedores podem usar a linguagem natural para pedir ao modelo, por exemplo, sugerir a automação ansible para implantar um novo servidor web.

Agrawal acredita que isso revolucionará completamente o trabalho do programador.

Todo o ciclo de inovação será acelerado graças à IA. Por exemplo, se você observar o código, usando modelos de base, a codificação se torna muito mais rápida usando a primeira geração de modelos de base. Tenho certeza que vai dobrar a produtividade em poucos anos.

A empresa está lançando o modelo como um projeto de código aberto em colaboração com a Red Hat, mais famosa pela distribuição e manutenção do sistema operacional de código aberto Linux.

Este uso é semelhante ao da chave de fenda elétrica. É preciso uma tarefa mundana e usa uma ferramenta para automatizar partes dela para que a tarefa seja executada com mais eficiência, economizando o tempo dos desenvolvedores, que eles podem usar para empreendimentos mais criativos.

“Pode assumir o controle atividades que os humanos estão fazendo hoje, e os humanos simplesmente passarão para alguma outra atividade. Acho que 80% da população dos EUA costumava trabalhar na agricultura. Menos de 2% são agora (de acordo com o

USDA ERS – Ag and Food Sectors and the Economy) – – os humanos passaram para outras atividades e, junto com isso, nossa qualidade de vida melhorou”, disse Agrawal.

Os modelos de fundação têm o potencial de mudar muitos processos que agora são tediosos ou repetitivos para os humanos . Eles também oferecem a possibilidade de criar soluções radicais e imprevisíveis para alguns dos problemas mais difíceis que enfrentamos. Com efeito, os modelos de fundação podem significar uma mudança completa de paradigma em como o conhecimento é criado e aplicado. A chave será garantir que esses modelos sejam acessíveis ao público em geral, com as devidas salvaguardas.

Check out other tags:

0