Quão bom é o DALL-E Mini em Origami?

By | Junho 18, 2022

Muitas pessoas publicaram recentemente os resultados de seus experimentos com o DALL-E, um modelo de IA que pode gerar imagens com base em consultas de texto. Por diversão, resolvi conferir qual era a ideia do origami. Como o acesso a todo o modelo, bem como sua versão mais recente, o DALL-E 2, é limitado, testei usando um similar, mas muito mais simples DALL-E Mini modelo, que está disponível gratuitamente.

Resultados DALL-E Mini para rápido “guindaste de origami na mesa”

Para começar com algo simples, a primeira consulta que tentei foi “origami guindaste na mesa”. Fiquei um pouco decepcionado, pois o guindaste era um modelo popular, esperava que as fotos fossem bem parecidas com o guindaste (a parte “na mesa” funcionou melhor). Embora os objetos gerados tenham alguma qualidade de origami, eles estão bem longe de guindastes reais, embora a última imagem seja a mais próxima.

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para rápido “barco de origami flutuando na água”

Outro modelo popular é o barco de papel, então o “barco de origami flutuando na água” foi outra consulta que verifiquei. Este funcionou muito melhor, com todas as imagens geradas que ficaram bem próximas do que eu esperava, e algumas (ex: # 6, # 8 e # 9) ficaram muito boas, com o barco, água e reflexos nos lugares certos. Meu palpite de por que o navio era muito melhor do que o guindaste é que tudo se resume a dados de aprendizado. Provavelmente, os barcos de papel são muito mais comuns em fotos ou outras entradas do que os guindastes de origami.

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para rápida “tesselação de origami de malha quadrada”

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para rápida “tesselação de origami baseada em grade hexadecimal”

O tipo de origami que eu mais dobro são tesselações de origami, então eu encorajei o DALL-E Mini a gerar “tesselação de origami com base em uma grade quadrada” e “tesselação de origami com base em uma grade hexadecimal”. Os resultados foram… interessantes. O que o modelo estava correto em ambos os casos era a ideia de que as tesselações são padrões repetitivos. Ele também interpretou as palavras quadrado e hexágono de acordo com a simetria da amostra. Infelizmente, no caso da grade hexagonal, as coisas são tomadas muito literalmente, com muitos padrões gerados contendo hexágonos literais (o que acontece, mas geralmente não é o caso). Além disso, em ambos os casos, os padrões não se assemelham muito ao origami e são mais como pinturas abstratas (especialmente aquelas baseadas em uma grade quadrada). Minha suposição cega sobre o que está acontecendo é que o sistema está ciente da noção de tesselação (entendida em termos matemáticos) e que o origami é uma espécie de estilo, mas não está ciente do que é tesselação de origami e, portanto, meus estímulos causaram gerar ” tessellation, estilizado como origami “, não real” tessellation de origami “. Novamente, provavelmente é uma questão de dados de treinamento.

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para rápido “poliedro de origami modular”

Outro gênero comum de origami geométrico, “poliedro de origami modular”, gerou imagens surpreendentemente boas. Eles são todos borrados e não muito detalhados, mas todos têm a forma certa e os recursos básicos. Curiosamente, todos eles também exibem várias cores, o que é comum, mas não necessário, para modelos reais desse tipo.

Resultados DALL-E Mini para uma rápida

Resultados DALL-E Mini para uma rápida “casa de campo em estilo origami”

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para “casa de fazenda de origami” rápido

Resultados DALL-E Mini para uma

Resultados DALL-E Mini para uma “casa de campo” rápida

Para testar meu palpite de que é para o DALL-E Mini na maioria dos casos origami é mais sobre transferir estilo do que se referir a modelos de origami reais, tentei algumas consultas que usavam o termo “estilizado como origami”. Você pode ver exemplos de resultados para “casa de fazenda estilizada de origami” e compará-los com o que foi gerado para “casa de fazenda de origami”. Basicamente, os resultados são os mesmos (dar ou receber variações aleatórias visíveis para imagens criadas em resposta a uma única consulta). Em ambos os casos, os resultados parecem muito bons e carregam algum estilo de origami (eu estava interessado nas partes grossas das dobras na Figura 8 para a primeira consulta), mas de forma alguma lembram modelos de casas de origami reais. Apenas para comparação, abaixo eu adicionei os resultados para uma “casa de campo” rápida sem qualquer menção ao origami.

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para rápidas “dobras de padrão de origami usando dobras de caixa”

Que tal instruções de origami? Comecei com um “padrão de vinco de origami que usa dobras de caixa” bastante ambicioso, o que resultou em um desastre completo. Nenhuma imagem está nem perto do que deveria ser. Alguns apontam que o modelo de prompt foi interpretado literalmente como um saco de palavras porque, por exemplo, a Figura 2 contém objetos que poderiam ser caixas, estilizadas como origami de forma semelhante a algumas imagens anteriores.

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para “diagramas de dobradura de elefante de origami” rápidos

Os padrões de rugas são difíceis de entender mesmo para muitas pessoas, então decidi ver o que o DALL-E Mini pensa sobre os diagramas passo a passo tradicionais. Dado os rápidos “diagramas de origami para elefantes dobráveis”, ele gerou desenhos que, embora sem sentido como instruções, na verdade imitam muito bem o estilo geral dos diagramas de origami. Todas as imagens geradas mostram o layout típico de vários diagramas em uma única página, e algumas mostram formas semelhantes a elefantes. Obviamente, não há progresso lógico na sobreposição entre as etapas, pois o modelo não sabe que as etapas representam uma sequência. Este é provavelmente um problema semelhante ao que faz com que o DALL-E não seja muito bom em gerar texto, embora possa lidar muito bem com letras individuais. E, obviamente, escrever uma palavra com letras é muito mais fácil do que encontrar uma sequência razoável de diagramas dobráveis.

Resultados DALL-E Mini para rapidez

Resultados DALL-E Mini para rápido “dragão de origami”

Então, em geral, quão bom é o DALL-E Mini em origami? Não é muito bom, mas não funciona de maneiras interessantes. Ele parece ter aprendido o que é um barco de origami, e parecer bem diferente de um barco comum, e pegar poliedros de origami modulares, e talvez dragões de origami, mas para outros itens que tentei, ele trata a palavra origami em velocidade apenas como uma dica de estilo. Ele não pode desenhar padrões de dobra, mas os diagramas de origami padrão que ele gerou pareciam muito bons, embora fossem absurdos do ponto de vista semântico.

Algumas coisas valeriam a pena explorar como o próximo passo. Primeiro, seria muito interessante que alguém tivesse acesso DALL-E 2
ou Imagens, poderia verificar as mesmas consultas. O DALL-E Mini não é mais tecnologia de ponta. Mas como o que o modelo fornece depende dos dados de aprendizado, o que me deixa mais curioso é o que esses modelos poderiam gerar se recebessem um conjunto de dados focado em origami real.

Deixe uma resposta

O seu endereço de email não será publicado.