GPT-4V(GPT-4 with Vision)



GPT-4に画像解析機能と音声出力機能が追加され、マルチモーダルAI(GTP-4V)になったということで、国立競技場のザハ・ハディド案をアップロードして 説明させてみました。

人間でも、画像をこんな風に 明快に言語化できる人は少ないと思います。まあ 確かに、ザハ案を知らない人ならこんな説明をするかもって感じ。

それから、今後は 説明文をDALL-E 3に入力して、画像を生成させてみました。こちらも、ザハ案と言わずに この説明文でスケッチを描いてみろと言われたら、こんな絵になるかも知れません。

マルチモーダルAIで自然文と画像を行ったり来たりしながらブレインストーミングをすると、自分だけではなかなか 思いつかない意見を得られるかも~

コメント

このブログの人気の投稿

Evernote から Googleドライブに移行

ゆかりねっと VOICEPEAKプラグイン

TDPT(Three D Pose Tracker)

Platearu-Blender-Importer

ARCore Geospatial Creator for Unity