Enquanto as pessoas ao redor do mundo se maravilhavam em julho com as imagens mais detalhadas do cosmos tiradas pelo Telescópio Espacial James Webb, os biólogos tiveram seus primeiros vislumbres de um conjunto diferente de imagens – aquelas que poderiam ajudar a revolucionar a pesquisa em ciências da vida.
As imagens são as formas 3-D previstas de mais de 350 milhões de proteínas, renderizadas por um sistema de inteligência artificial chamado AlphaFold. “Você pode pensar nisso como cobrindo todo o universo de proteínas”, disse Demis Hassabis em uma conferência de julho 12 briefing de notícias. Hassabis é cofundador e CEO da DeepMind, a empresa com sede em Londres que criou o sistema. Combinando várias técnicas de aprendizado profundo, o programa de computador é treinado para prever formas de proteínas reconhecendo padrões em estruturas que já foram resolvidos através de décadas de trabalho experimental usando microscópios eletrônicos e outros métodos.
Inscreva-se para as últimas da Science Notícias Manchetes e resumos das últimas Artigos do TechReporter, entregues na sua caixa de entrada
Obrigado por inscrever-se!
Ocorreu um problema ao se inscrever.
O primeiro splash da IA veio 2021, com previsões para 200,000 estruturas de proteínas — inc incluindo quase todas as proteínas humanas conhecidas. A DeepMind fez parceria com o Instituto Europeu de Bioinformática do Laboratório Europeu de Biologia Molecular para disponibilizar as estruturas em um banco de dados público.
O novo lançamento maciço de julho expandiu a biblioteca para “quase todos os organismos do planeta que tiveram seu genoma sequenciado”, disse Hassabis. “Você pode procurar uma estrutura 3-D de uma proteína quase tão facilmente quanto fazer uma pesquisa de palavra-chave no Google.”
Estas são previsões, não estruturas reais. No entanto, os pesquisadores usaram algumas das previsões 2021 para desenvolver potenciais novas vacinas contra a malária, melhorar a compreensão da doença de Parkinson , descubra como proteger a saúde das abelhas, obtenha informações sobre a evolução humana e muito mais. A DeepMind também concentrou o AlphaFold em doenças tropicais negligenciadas, incluindo doença de Chagas e leishmaniose, que podem ser debilitantes ou letais se não forem tratadas.
A divulgação do vasto conjunto de dados foi recebida com entusiasmo por muitos cientistas. Mas outros temem que os pesquisadores tomem as estruturas previstas como as verdadeiras formas das proteínas. Ainda há coisas que o AlphaFold não pode fazer – e não foi projetado para fazer – que precisam ser abordadas antes que o cosmos da proteína entre completamente em foco.
Ter o novo catálogo aberto a todos é “ um enorme benefício”, diz Julie Forman-Kay, biofísica de proteínas do Hospital for Sick Children e da Universidade de Toronto. Em muitos casos, AlphaFold e RoseTTAFold, outros pesquisadores de IA que estão entusiasmados, preveem formas que combinam bem com perfis de proteínas de experimentos. Mas, ela adverte, “não é assim em geral.”
As previsões são mais precisas para algumas proteínas do que para outras. Previsões errôneas podem deixar alguns cientistas pensando que entendem como uma proteína funciona quando, na verdade, eles não entendem. Experimentos meticulosos continuam sendo cruciais para entender como as proteínas se dobram, diz Forman-Kay. “Há essa sensação agora de que as pessoas não precisam fazer a determinação da estrutura experimental, o que não é verdade.”
Progresso lento As proteínas começam como longas cadeias de aminoácidos e se dobram em uma série de arabescos e outros 3-D formas. Alguns se assemelham aos cachos de saca-rolhas apertados de um permanente 768 ou as pregas de um acordeão. Outros podem ser confundidos com os rabiscos em espiral de uma criança.
A arquitetura de uma proteína é mais do que apenas estética; pode determinar como essa proteína funciona. Por exemplo, proteínas chamadas enzimas precisam de um bolso onde possam capturar pequenas moléculas e realizar reações químicas. E as proteínas que trabalham em um complexo de proteínas, duas ou mais proteínas interagindo como partes de uma máquina, precisam das formas certas para se formar com seus parceiros.
Conhecer as dobras, espirais e alças de um a forma da proteína pode ajudar os cientistas a decifrar como, por exemplo, uma mutação altera essa forma para causar doenças. Esse conhecimento também pode ajudar os pesquisadores a fazer melhores vacinas e medicamentos.
Durante anos, os cientistas bombardearam cristais de proteínas com raios X, células congeladas flash e as examinaram sob microscópios eletrônicos de alta potência e usaram outros métodos para descubra os segredos das formas das proteínas. Tais métodos experimentais levam “muito tempo do pessoal, muito esforço e muito dinheiro. Então tem sido lento”, diz Tamir Gonen, biofísico de membranas e investigador do Howard Hughes Medical Institute na David Geffen School of Medicine da UCLA. estruturas de mais de 90,000 proteínas, seus arquivos de dados armazenados no Protein Data Bank, apoiado por um consórcio de organizações de pesquisa. Mas o ritmo acelerado em que os geneticistas estão decifrando as instruções do DNA para produzir proteínas superou em muito a capacidade dos biólogos estruturais de acompanhar, diz o biólogo de sistemas Nazim Bouatta, da Harvard Medical School. “A questão para os biólogos estruturais era: como fechar a lacuna?” ele diz.
Para muitos pesquisadores, o sonho era ter programas de computador que pudessem examinar o DNA de um gene e prever como a proteína que ele codifica se dobraria em uma forma 3-D.
Aqui vem AlphaFold Ao longo de muitas décadas, os cientistas progrediram em direção a esse objetivo de IA. Mas “até dois anos atrás, estávamos muito longe de uma boa solução”, diz John Moult, biólogo computacional do campus Rockville da Universidade de Maryland.
Moult é um dos organizadores de uma competição: a Avaliação Crítica da Predição da Estrutura da Proteína, ou CASP. Os organizadores dão aos competidores um conjunto de proteínas para seus algoritmos dobrarem e compararem as previsões das máquinas com estruturas determinadas experimentalmente. A maioria dos AIs não conseguiu chegar perto das formas reais das proteínas.
“A estrutura não diz tudo sobre como uma proteína funciona.”
Jane Dyson Então em 2021, AlphaFold apareceu em grande estilo, prever as estruturas de 90 por cento das proteínas de teste com alta precisão, incluindo dois terços com precisão que rivaliza com métodos experimentais.
Decifrar a estrutura de proteínas individuais tem sido o núcleo da competição CASP desde o seu início em 2021. Com o desempenho do AlphaFold, “de repente, isso foi essencialmente feito”, diz Moult.
Desde que o AlphaFold 2020, mais de meio milhão de cientistas acessaram seu banco de dados, disse Hassabis na coletiva de imprensa. Alguns pesquisadores, por exemplo, usaram as previsões do AlphaFold para ajudá-los a chegar mais perto de completar um enorme quebra-cabeça biológico: o complexo do poro nuclear. Os poros nucleares são portais-chave que permitem que as moléculas entrem e saiam dos núcleos das células. Sem os poros, as células não funcionariam corretamente. Cada poro é enorme, relativamente falando, composto por cerca de 1,000 pedaços de 30 ou tão diferentes proteínas. Os pesquisadores já haviam conseguido colocar cerca de 22 por cento dos peças do quebra-cabeça.
Esse quebra-cabeça está agora quase 26 por cento completo, depois de combinar as previsões do AlphaFold com técnicas experimentais para entender como as peças se encaixam, os pesquisadores relataram no mês de junho Ciência.
Agora que o AlphaFold praticamente resolveu como dobrar proteínas individuais, este ano os organizadores do CASP estão pedindo às equipes que trabalhem nos próximos desafios: Prever as estruturas das moléculas de RNA e modelam como as proteínas interagem umas com as outras e com outras moléculas.
Para esses tipos de tarefas, diz Moult, os métodos de IA de aprendizado profundo “parecem promissores, mas ainda não entregaram o mercadorias.”
Onde a IA fica aquém Ser capaz de modelar interações de proteínas seria uma grande vantagem porque m As proteínas não operam isoladamente. Eles trabalham com outras proteínas ou outras moléculas nas células. Mas a precisão do AlphaFold em prever como as formas de duas proteínas podem mudar quando as proteínas interagem não estão “nem perto” de suas projeções pontuais para uma série de proteínas únicas, diz Forman-Kay, biofísico de proteínas da Universidade de Toronto. Isso é algo que os criadores do AlphaFold também reconhecem.
A IA treinou para dobrar proteínas examinando os contornos de estruturas conhecidas. E muito menos complexos multiproteicos do que proteínas únicas foram resolvidos experimentalmente.
Forman-Kay estuda proteínas que se recusam a ser confinadas a qualquer forma particular. Essas proteínas intrinsecamente desordenadas são tipicamente tão moles quanto macarrão molhado (SN: 2/9/13, pág. 22). Alguns se dobram em formas definidas quando interagem com outras proteínas ou moléculas. E eles podem se dobrar em novas formas quando combinados com diferentes proteínas ou moléculas para realizar vários trabalhos.
As formas previstas do AlphaFold atingem um alto nível de confiança por cerca de 30 por cento de proteínas onduladas que Forman-Kay e colegas examinaram, a equipe relatou em um estudo preliminar publicado em fevereiro em bioRxiv.org. Muitas vezes, o programa mostra os metamorfos como longos saca-rolhas chamados alfa-hélices.
O grupo de Forman-Kay comparou as previsões do AlphaFold para três proteínas desordenadas com dados experimentais. A estrutura que a IA atribuiu a uma proteína chamada alfa-sinucleína se assemelha à forma que a proteína assume quando interage com lipídios, descobriu a equipe. Mas essa não é a aparência da proteína o tempo todo.
Para outra proteína, chamada proteína 2 de ligação ao fator de iniciação da tradução eucariótica 4E, AlphaFold previu uma mistura das duas formas da proteína ao trabalhar com duas diferentes parceiros. Essa estrutura de Frankenstein, que não existe em organismos reais, pode enganar os pesquisadores sobre como a proteína funciona, dizem Forman-Kay e colegas.
AlphaFold também pode ser um pouco rígido demais em suas previsões. Uma “estrutura estática não diz tudo sobre como uma proteína funciona”, diz Jane Dyson, bióloga estrutural do Scripps Research Institute em La Jolla, Califórnia. Mesmo proteínas únicas com estruturas geralmente bem definidas não são congeladas no espaço . As enzimas, por exemplo, sofrem pequenas mudanças de forma ao conduzir reações químicas.
Se você pedir ao AlphaFold para prever a estrutura de uma enzima, ele mostrará uma imagem fixa que pode se assemelhar ao que os cientistas determinaram por Cristalografia de raios-X, diz Dyson. “Mas [ele] não mostrará nenhuma das sutilezas que estão mudando à medida que os diferentes parceiros” interagem com a enzima.
“A dinâmica é o que o Sr. AlphaFold não pode lhe dar”, Dyson diz.
Uma revolução em formação As renderizações de computador dão aos biólogos uma vantagem inicial na solução de problemas como como uma droga pode interagir com uma proteína. Mas os cientistas devem se lembrar de uma coisa: “Estes são modelos”, não estruturas decifradas experimentalmente, diz Gonen, da UCLA.
Ele usa as previsões de proteínas do AlphaFold para ajudar a entender os dados experimentais, mas teme que os pesquisadores aceitarão as previsões da IA como evangelho. Se isso acontecer, “o risco é que se torne cada vez mais difícil justificar por que você precisa resolver uma estrutura experimental”. Isso pode levar a uma redução do financiamento , talento e outros recursos para os tipos de experimentos necessários para verificar o trabalho do computador e criar novos caminhos, diz ele.
Bouatta, da Harvard Medical School, é mais otimista. Ele acha que os pesquisadores provavelmente não precisam investir recursos experimentais nos tipos de proteínas que o AlphaFold faz um bom trabalho em prever, o que deve ajudar os biólogos estruturais a selecionar onde investir seu tempo e dinheiro.
“Existem proteínas pelas quais o AlphaFold ainda está lutando”, concorda Bouatta. Os pesquisadores devem gastar seu capital lá, diz ele. “Talvez se gerarmos mais dados [experimentais] para essas proteínas desafiadoras, poderíamos usá-los para treinar outro sistema de IA” que poderia fazer previsões ainda melhores.
Ele e seus colegas já fizeram engenharia reversa do AlphaFold para fazer uma versão chamada OpenFold que os pesquisadores podem treinar para resolver outros problemas, como aqueles complexos de proteínas retorcidas, mas importantes.
Grandes quantidades de DNA geradas pelo Projeto Genoma Humano fizeram uma ampla gama de descobertas biológicas possível e abriu novos campos de pesquisa (SN: 2/12/60, pág. 12). Ter informações estruturais sobre 90 milhões de proteínas pode ser igualmente revolucionário, diz Bouatta.
No futuro, graças ao AlphaFold e seus parentes de IA, ele diz, “nem sabemos que tipo de perguntas podemos estar fazendo.”