Por que a IA precisa de uma dieta constante de dados sintéticos

22 de novembro de 2022 12:00

A sample of Parallel Domain’s synthetic data showing a map view of its virtual world capabilities.

Continua após a publicidade..

Uma amostra dos dados sintéticos do Domínio Paralelo mostrando uma visão de mapa de seus recursos do mundo virtual.

Crédito da imagem: Parallel Domain

Confira as sessões sob demanda do Low- Code/No-Code Summit para aprender como inovar com sucesso e obter eficiência aprimorando e dimensionando desenvolvedores cidadãos. Assista agora.

Inteligência artificial (IA) pode estar comendo o mundo como o conhecemos, mas especialistas dizem que a própria IA também está morrendo de fome – e precisa mudar sua dieta. Uma empresa diz que os dados sintéticos são a resposta.

“Os dados são alimento para a IA, mas a IA hoje é subalimentada e desnutrida”, disse Kevin McNamara, CEO e cofundador do provedor de plataforma de dados sintéticos, Domínio Paralelo, que apenas arrecadou $ 30 milhões em uma rodada da série B liderada por Março Capital. “É por isso que as coisas estão crescendo lentamente. Mas se pudermos alimentar melhor essa IA, os modelos crescerão mais rápido e de maneira mais saudável. Dados sintéticos são como alimento para treinamento de IA.”

Pesquisas mostraram que cerca de 90% das implantações de IA e aprendizado de máquina (ML) falham. A Datagen relatório do início deste ano apontou que muita falha se deve à falta de dados de treinamento. Ele descobriu que 99% dos profissionais de visão computacional dizem que tiveram um projeto de ML interrompido especificamente por causa da falta de dados para vê-lo. Mesmo os projetos que não são totalmente cancelados por falta de dados sofrem atrasos significativos, tirando-os do caminho certo, relataram 100% dos entrevistados.

Nesse sentido, o Gartner prevê que os dados sintéticos serão cada vez mais usados como um suplemento para fins de treinamento de IA e ML. O gigante da pesquisa projeta que, até 2024, dados sintéticos serão usados para acelerar 60 % de projetos de IA.

Evento

Cúpula de Segurança Inteligente

Aprenda o papel crítico da IA e ML na segurança cibernética e estudos de caso específicos do setor em 8 de dezembro. Registre-se para o seu passe livre hoje.

Registrar agora

Dados sintéticos são gerados por algoritmos de aprendizado de máquina que ingerem dados reais para treinar em padrões comportamentais e criar dados simulados que retêm as propriedades estatísticas do conjunto de dados original. Os dados resultantes replicam as circunstâncias do mundo real, mas, ao contrário dos conjuntos de dados anônimos padrão, não são vulneráveis às mesmas falhas dos dados reais.

Tirando a IA da ‘Idade da Pedra’

Pode parecer incomum ouvir que uma tecnologia tão avançada quanto a IA está presa em uma espécie de “Idade da Pedra”, mas é isso que McNamara vê – e sem a adoção de dados sintéticos, continuará assim, diz ele.

“No momento, o desenvolvimento de IA é mais ou menos como a programação de computadores era nos anos 60 ou 70, quando as pessoas usavam a programação de cartões perfurados – um processo manual e trabalhoso”, ele disse. “Bem, o mundo acabou se afastando disso e para a programação digital. Queremos fazer isso para o desenvolvimento da IA.”

Os três maiores gargalos que mantêm a IA na Idade da Pedra são os seguintes, de acordo com McNamara:

Coleta de dados do mundo real — o que nem sempre é viável. Mesmo para algo como o jaywalking, que acontece com bastante frequência em cidades ao redor do mundo, se você precisar de milhões de exemplos para treinar seu algoritmo, isso rapidamente se torna inatingível para as empresas saírem e obterem do mundo real. Marcação — que muitas vezes requer milhares de horas de tempo humano e pode ser impreciso porque, bem, os humanos cometem erros.

Iterando os dados uma vez rotulado – o que requer que você ajuste as configurações do sensor, etc. e, em seguida, aplique-o para realmente começar a treinar sua IA.

“Todo esse processo é tão lento,” McNamara disse. “Se você pode mudar essas coisas muito rápido, você pode realmente descobrir configurações melhores e melhores maneiras de desenvolver sua IA em primeiro lugar.”

Entre no palco à direita: Dados sintéticos

O Parallel Domain funciona gerando mundos virtuais baseados em mapas, que ele chama de “primos digitais” de cenários e geografias do mundo real. Esses mundos podem ser alterados e manipulados para, por exemplo, ter mais caminhadas imprudentes ou chuva, para ajudar no treinamento de veículos autônomos.

UMA amostra dos dados sintéticos do Domínio Paralelo mostrando uma visão de mapa de seus recursos do mundo virtual.

Como os mundos são primos digitais e não gêmeos digitais, a personalização pode simular as vezes dados mais difíceis de obter – mas essenciais para o treinamento – que as empresas normalmente teriam de obter por conta própria. A plataforma permite que os usuários a adaptem às suas necessidades por meio de uma API, para que possam mover ou manipular fatores exatamente da maneira que desejam. Isso acelera o processo de treinamento de IA e remove bloqueios de tempo e trabalho.

A empresa afirma que em questão de horas pode fornecer conjuntos de dados de treinamento prontos para uso de seus clientes – clientes que incluem o Toyota Research Institute, Google, Continental e Woven Planet .

“Os clientes podem entrar no mundo simulado e fazer as coisas acontecerem ou extrair dados desse mundo”, disse McNamara. “Temos botões para diferentes tipos de categorias de ativos e cenários que podem acontecer, bem como maneiras de os clientes conectarem sua própria lógica para o que veem, onde veem e como essas coisas se comportam”.

Em seguida, os clientes precisam de uma maneira de extrair dados desse mundo para a configuração que corresponda à sua configuração, explicou ele.

“Nossas ferramentas de configuração de sensor e ferramentas de configuração de etiqueta nos permitem replicar a configuração exata da câmera ou a configuração exata de lidar e radar e rotulagem que um cliente veria”, disse ele.

Dados sintéticos, IA generativa

Os dados sintéticos não são apenas úteis para o treinamento de modelos de IA e ML, mas também podem ser aplicados para fazer com que a IA generativa – um uso da tecnologia que já está crescendo rapidamente – se desenvolva ainda mais rapidamente.

A Parallel Domain está de olho no campo enquanto a empresa entra em 2023 com novo capital. Ele espera multiplicar os dados que a IA generativa precisa treinar, para que possa se tornar uma ferramenta ainda mais poderosa para a criação de conteúdo. Sua equipe de P&D está se concentrando na variedade e nos detalhes das simulações de dados sintéticos que pode fornecer.

“Estou entusiasmado com a IA generativa em nosso espaço”, disse McNamara. “Não estamos aqui para criar uma interpretação artística do mundo. Estamos aqui para criar um primo digital do mundo. Eu acho que a IA generativa é realmente poderosa em olhar para exemplos de imagens de todo o mundo, então reuni-las e criar exemplos interessantes e novas informações dentro de dados sintéticos. Por causa disso, a IA generativa será uma grande parte dos avanços tecnológicos nos quais estamos investindo no próximo ano.”

O valor dos dados sintéticos não se limita a IA. Dada a grande quantidade de dados necessários para criar ambientes virtuais realistas, também é a única abordagem prática para levar o metaverso adiante.

A Parallel Domain faz parte do setor de inicialização de dados sintéticos em rápido crescimento, que

Crunchbase relatado anteriormente está vendo uma faixa de financiamento. Datagen, Gretel AI e Mostly AI são alguns de seus concorrentes que também arrecadaram vários milhões no ano passado.

Missão do VentureBeat é ser uma praça da cidade digital para tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça os nossos Briefings.