画像生成AIのDALL-EとMidjourneyを使ってみた
はじめまして。IIUの角皆と申します。
近年テキストから画像を生成するAIの性能が飛躍的に向上しており、それらの機能を一般のユーザーが利用できるサービスも登場し始めています。今回はDALL-EとMidjourneyという2つのサービスを実際に使ってみて、2022年現在における画像生成AIの実力を体感してみたいと思います。
DALL-Eは、巨額の資金が投入されている非営利団体であるOpenAIが開発したAIである一方、Midjourneyは社員数10人程度の中小企業が開発したAIとのことで、アイデア次第で勝負できる部分もあるのがAI開発の面白いところだと思います。
1. DALL-Eの使い方
DALL-Eは使用するには、利用申請をして、招待メールが送られてくるのを待つ必要があります。利用申請は以下のフォームから行えます。
https://labs.openai.com/waitlist
私の場合は2日程度で招待メールが送られてきました。
DALL-Eの使用法はシンプルで、招待メールに従ってDALL-Eのサイトにアクセスできれば、あとは画面上部の入力フォームにテキストを入力するだけです。
2.Midjourneyの使い方
Midjourneyは、Discordというプラットフォーム上で提供されているため、まずDiscordのアカウントを作成します。専用ソフトもありますが、webブラウザだけで利用可能です。
続いてMidjourneyのサイトにアクセスし
https://www.midjourney.com/home/
「Join the beta」をクリックし、「招待を受ける」をクリックすると、Discord内のMidjourneyのページが開きます。
NEWCOMER ROOMSというカテゴリから適当なチャンネルを選択すると、掲示板の形式で内容が表示されます。
この掲示板にAIの入力となるテキストを、所定のコマンドとともに書き込むことで、AIが生成した画像が返信として表示されます。
以下の形式で任意の英文を入力してください。
/imagine prompt 入力テキスト
※DALL-E、Midjourneyともに、無料で生成できる画像の枚数には制限があります。
3.出力結果
ここからは、DALL-EとMidjourneyの出力結果を紹介します。各サービスの特徴を比較するため、それぞれに全く同じ英文を入力しました。
より良い結果を得るためには、各サービスごとに入力テキストに関するコツがあると思いますが、今回は予備知識なしで使った時の性能を体感するため、入力に特に工夫はしていません。
■ ガソリンスタンド、街灯、静かな夜
(入力テキスト:Gas station, street lights, quiet night)
どちらもイメージどおりの画像が生成されました。このぐらいは今のAIにとっては朝飯前なのかもしれないので、ここからは実際にはなさそうな状況や空想上の状況を入力してみました。
■ 五階建てバス
(入力テキスト:5 decker bus)
■ 火星のコンビニ
(入力テキスト:Convenience store on Mars)
■ 夏のプールで泳ぐイルカのロボット
(入力テキスト:Dolphin robot swimming in the pool in summer)
■ リビングでくつろぐ2匹のトラ
(入力テキスト:Two tigers relaxing in the living room)
■ ドーム球場型サウナ
(入力テキスト:Dome stadium type sauna)
■ 最も冷たい水風呂
(入力テキスト:The coldest_water_bath)
■ セザンヌが描いたMacbookとりんごのある静物
(入力テキスト:Still life with apples and a macbook painting by Paul Cézanne)
■ マネが描いた忍者
(入力テキスト:Ninja painting by Edouard Manet)
■ 4足歩行のお掃除ロボット
(入力テキスト:Quadruped cleaning robot)
■ 火事の高層ビルから人を助ける巨大ロボット
(入力テキスト:Giant robot rescues people from a high-rise building on fire)
■ IKENOHATAという名前のレストランのロゴ
(入力テキスト:Logo for a restaurant named IKENOHATA)
■ 不忍の池のネッシー
(入力テキスト:Nessie at Shinobazu Pond)
■ マラソン大会の給水所で提供されるラーメン二郎
(入力テキスト:Ramen Jiro served at water stations in marathons)
4.所感
特にスタイルを指定しない場合、DALL-は写真のような画像、Midjourneyはイラスト的な画像を出力することが多いようです。
入力テキストの意味を反映した最もらしい画像を出力するという点においては、どちらも非常に高い性能を持っていると感じました。用途によっては、時点ですでに十分有用な使い方が可能だと思いますが、今後ますますAIによる画像生成の活用が進んでいくと思います。
当社では主に画像認識AIを用いたシステムを開発していますが、学習用のデータを画像生成AIに作らせるということも可能ではないかと思いました。エッジ端末上で走るような画像認識AIよりも、今回試したようなテキストから画像を生成するAIの方が巨大で(パラメータ数が多く)高度なAIと言えます。そのような高度なAIを利用することで、目的に特化した、より規模の小さいAIを作るということは、有効なアプローチかもしれません。