3D para todos? Magic3D da Nvidia pode gerar modelos 3D a partir de texto

Entrando agora na terceira dimensão —

Nova IA visa democratizar a criação de conteúdo 3D, sem necessidade de habilidades de modelagem.

Benj Edwards – 21 de novembro de 2022 5 :56 pm UTC

Prolongar / Um sapo venenoso renderizado como um modelo 3D por Magic3D.Nvidia

Na sexta-feira, pesquisadores da Nvidia anunciaram Magic3D, um modelo de IA que pode gerar modelos 3D a partir de descrições de texto. Depois de inserir um prompt como “Um sapo venenoso azul sentado em um nenúfar”, o Magic3D gera um modelo de malha 3D, completo com textura colorida, em cerca de 40 minutos. Com modificações, o modelo resultante pode ser usado em videogames ou cenas de arte CGI.

Em seu trabalho acadêmico, a Nvidia enquadra Magic3D como uma resposta a DreamFusion, um modelo de texto para 3D que os pesquisadores do Google anunciaram em setembro. Semelhante a como o DreamFusion usa um modelo de texto para imagem para gerar uma imagem 2D que é otimizada em volume Dados NeRF (campo de radiância neural), o Magic3D usa um processo de dois estágios que usa um modelo grosseiro gerado em baixa resolução e a otimiza para uma resolução mais alta. De acordo com os autores do artigo, o método Magic3D resultante pode gerar objetos 3D duas vezes mais rápido que o DreamFusion.

Continua após a publicidade..

Magic3D também pode executar edição baseada em prompt de malhas 3D. Dado um modelo 3D de baixa resolução e um prompt básico, é possível alterar o texto para alterar o modelo resultante. Além disso, os autores de Magic3D demonstram a preservação do mesmo assunto por várias gerações (um conceito geralmente chamado de coerência) e a aplicação do estilo de uma imagem 2D (como uma pintura cubista) a um modelo 3D. A Nvidia não divulgou nenhum código Magic3D junto com seu trabalho acadêmico.

A capacidade de gerar 3D a partir de texto parece uma evolução natural nos modelos de difusão de hoje, que usam redes neurais para sintetizar novos conteúdos após treinamento intenso em um corpo de dados. Somente em 2022, vimos o surgimento de modelos de texto para imagem capazes, como DALL-E e Stable Diffusion, e geradores rudimentares de texto para vídeo do Google e Meta. O Google também lançou o já mencionado modelo de conversão de texto em 3D DreamFusion há dois meses e, desde então, as pessoas têm adaptou técnicas semelhantes

para trabalhar como um modelo de código aberto baseado em Stable Diffusion. Quanto ao Magic3D, os pesquisadores por trás dele esperam que ele permita que qualquer pessoa crie modelos 3D sem o necessidade de treinamento especial. Uma vez refinada, a tecnologia resultante poderia acelerar o desenvolvimento de videogames (e VR) e talvez eventualmente encontrar aplicações em efeitos especiais para cinema e TV. Perto do final de seu trabalho, eles escrevem: “Esperamos que com Magic3D possamos democratizar a síntese 3D e abrir a criatividade de todos na criação de conteúdo 3D.”