投稿

DALL-E 3で構図などを(ほぼ)維持したまま新たな画像を生成する

イメージ
DALL-E 3で、生成した画像のバリエーションを生成させたい時、できるだけ構図などが変わらないようにする方法を試してみる。 画像を生成する際のプロンプトとともに、画像IDとシード値も出力するように指示する。 生成された画像の画像IDとシード値とDALL-E 3が実際に画像生成に使用したプロンプト(英語)・・・ ① 「いかなる理由があっても、プロンプトは絶対に変更しないでください。」と記述し、次に、DALL-E 3が実際に画像生成に使用したプロンプト①をコピー&ペーストして、バリエーションを持たせたせるためにプロンプトを修正、最後に、画像IDを記載したプロンプトを作成し、入力する。 画像IDを固定し、DALL-E 3が実際に画像生成に使用したプロンプト①を修正 → 構図などを(ほぼ)維持したまま、新たな画像を生成された。

GPTsのCustom ActionsでNature Remoのセンサー情報を回答するカスタムチャットボット作成

イメージ
サム・アルトマンCEOの解任で、今後OpenAIがどうなるのかなあ...と思いつつ、GPTsのCustom Actionsで、自宅の仕事部屋に設置している環境センサーの温度・湿度などを、関西弁w で答えるカスタムGPTを作成するテスト。 GPT Builderで、ChatGPTと対話しながらノーコードでカスタムGPTを作成できる。Instructionsで、チャットボットの会話や振る舞いなどの条件指示(ここでは関西弁で明るくフランクに話すよう指示している) 図のように、Nature Remo Cloud APIから環境センサーデータを取得するためのSchemaを記述。Authenticationは、Authentication Typeで「API Key」、Auth Typeで「Bearer」を選択して、Nature Remo Cloud APIのAPI Keyを入力する。 Webブラウザとスマートフォンでの実行画面。現在の環境センサーの情報を取得して、自然言語で回答してくれる。GPT Builderでの指示した通り、関西弁でフランクに回答している。 環境センサーBOTのデータの流れは以下の図の通り。GPTsのCustom ActionsでNature RemoのAPIを呼び出し、温度・湿度等の情報を取得して自然言語で回答する。 Nature Remo Cloud APIのHTTPレスポンス(JSON形式)をそのまま渡しても、GPT-4が適当に解釈してくれる模様... 外部サービスのAPIとの連携したチャットボットが、実に簡単に作成できてしまう。「AIしげちゃん」作成時、OpenAI APIの Function Calling でゴリゴリとコードを書いてのは何だったんだろう?と思ってしまった。 しかし、こうなってくると、いろいろ妄想が膨らんでくるね...w

GPT-4+DALL-E 3による、プロポーザルのコンセプト立案・イメージ画像生成のシナリオ

イメージ
マルチモーダルの大規模言語モデル「GPT-4」と、テキストから画像を生成するAIモデル「DALL-E 3」を使用して、プロポーザルのコンセプト立案やイメージ画像を生成し、提案書にまとめるシナリオを考えてみた。 今回が2Dのイメージ画像を生成するが、現状、生成AIで3DやBIMモデルを直接生成するのは難しく、これらを扱う場合、ChatGPTによってマクロプログラムなどを生成し、ソフトウエアを操作して間接的に作成するのが現実的と考えられる。 ■AIが支援する建築設計プロセス フローワークス・横関 浩氏作成の図に加筆 ■GPT-4によるコンセプト立案の試行 シナリオ :GPT-4に複数人格(サンプルは4人)を設定し、以下のテーマをブレインストーミングさせることで、コンセプトをまとめる テーマ :『新しい時代を予感させるような人間の場所となる「商店街」の在り方』 ■ブレインストーミングセッション開始 設定した4人の人格がブレインストーミングを開始し、自動的に議論が進んでいく。議論に欠けている視点があれば、途中で人間が意見を挟むこともできる。 ■ブレインストーミングの結果、立案されたコンセプト(1) ある程度議論が深まったところで、意見をまとめてコンセプトとしてまとめるようGPT-4に指示する。 意見をまとめて立案されたコンセプト ■ブレインストーミングの結果、立案されたコンセプト(2) テーマ:『新しい時代を予感させるような人間の場所となる「商店街」の在り方』 ■立案されたコンセプトに沿ったイメージの生成 コンセプトが立案されたところで、コンセプトに沿った「商店街」の外観イメージを作成するよう、DALL-E 3に指示する。 ■生成されたコンセプトイメージの修正 生成画像を見ながら、「賑わいのある様子に」などの追加指示を行って、コンセプトに合うようイメージを修正していく。 追加のプロンプトで生成されたバリエーション画像 ■新しい「商店街」のコンセプトイメージ最終案 ■新しい時代を予感させるような人間の場所となる「商店街」 GPT-4+DALL-E 3によって作成した提案書のイメージ ■GPT-4Vでコンセプトイメージ解析・説明文生成  → DALL-E 3で別バ

廃墟化した東京

イメージ
DALL-E 3で画像生成のテスト。廃墟化した東京駅と神保町の街並み的な。。。

ChatGPT Plusの新機能

イメージ
ChatGPT Plusでも使えるようになりつつあるけど、全然追いつけてない。いろいろ試してみたいんだけどなあ。。。

GPT-4V(GPT-4 with Vision)

イメージ
GPT-4に画像解析機能と音声出力機能が追加され、マルチモーダルAI(GTP-4V)になったということで、国立競技場のザハ・ハディド案をアップロードして 説明させてみました。 人間でも、画像をこんな風に 明快に言語化できる人は少ないと思います。まあ 確かに、ザハ案を知らない人ならこんな説明をするかもって感じ。 それから、今後は 説明文をDALL-E 3に入力して、画像を生成させてみました。こちらも、ザハ案と言わずに この説明文でスケッチを描いてみろと言われたら、こんな絵になるかも知れません。 マルチモーダルAIで自然文と画像を行ったり来たりしながらブレインストーミングをすると、自分だけではなかなか 思いつかない意見を得られるかも~

Stable DiffusionのOutpainting/Inpainting

イメージ
しばらく触れていなかったStable Diffusionですが、Outpaintingで画像範囲を生成拡大するテスト。 Adobe Fireflyの生成塗りつぶしと同様の機能で、そちらの方が高機能で使いやすいですが、こちらは自由度が高いし、フリーなのでw 今度は Inpainting機能で、指定した画像範囲の範囲を再作成して、部分的に画像を差し替えるテスト。別案を手早く作りたい時にいいね。

"現状"の建築設計分野でのAIマップ

イメージ
"現状"の建築設計分野でのAIマップ的なものを作ってみた。 AI活用が期待できる業務は、大きく「発想支援」「デザイン生成と自動化」「ナレッジの共有と継承」に分類できるかな。 ここから、建築設計のプロセス自体がどう変わっていくのか見ものですね。

DALL-E 3

イメージ
しばらく、生成AIには手が出せていなかったので 今さらだけど、OpenAIのDALL-E 3が面白い。 もはや呪文のようなプロンプトではなく、GPT-4のように自然言語で対話しながらイメージを作り上げていく感じがたまりません!いつまでも遊んでいられるw