2023年画像生成AIについて考えてみる | 海外でデザイナー始めました(12年目)

2022年夏のmidjourney 〜stable diffusion公開で加速した感ある画像生成AIブーム。

Webでのflashブーム〜HTML5での動的サイト制作、mp3のiTunes公開〜ストリーミング、sms〜メール〜スマホ普及〜チャットappなどと通じる流れな気がしたので、5年、10年後見返す用に2023年現在の個人的な感覚と現状を記録しておこうかな、という内容です。

具体的なチュートリアルではありません
旧Twitterアカウント凍結されて気づく、記録他社サービスに依存するの危ないなーってことでの自前ブログで経過報告
著作権などの2023年現状、法整備が追いついてないところの是非は棚上げします。
歴史などはそのうちwikiなどまとまってくると思うので触れません

あくまで主観と感想の雑記になります。以下、時系列で試したもの

ディープドリーム

https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%89%E3%83%AA%E3%83%BC%E3%83%A0

Googleが開発していた、2015年頃に確か初めて触れたディープラーニング画像生成。

EbSynth / app

https://ebsynth.com/

元動画にキーフレームを与えることで動画をスタイライズしてくれる。
多分、特徴点検出とモーフィングを使用。

Midjourney

2022年発表。一発目でここまで手軽に高品質のものを生成できるようにしたのがすごい。

学習元データの偏りが目立つことと、未完成技術の画像生成をmidjourneyサービス内で完結させなくてはいけないこと、自分でカスタマイズできないなどの自由度がないこと、要課金で雑にテストする場として不自由。

ただ完成度はすごい上に、素人・絵/美術/デザイン関係者以外でも簡単に使えるものが生成できちゃうが故の著作権論争などの今後問題になるであろう点をまとめて炙り出してくれた印象。

StableDiffusion(Colab版)

2022年7月？midjourneyのすぐ後に公開、winのGPU搭載PCがなかったのでgoogleの仮想GPUサービスでテスト。

言語がpythonだったので連続生成、アニメーション生成テストなどを自前プログラム書くことでテストできたのが良かった。ついでにこの時期、上海でコロナによるロックダウンがあったので逆に集中して色々テストできた印象。

ただ、この段階では解像度上げるとエラーでたり、手軽さと絵の品質はmidjourneyに敵わない。あとgoogleサービスなので中国だと要VPN、ネット環境がないとできない、GPUの使用は時間制限付き、なんてとこからカタつくアニメーションは作れるけど現状でスムーズなアニメーションは難しそうという感想。

automatic1111 / webUI

2022年9月ごろ公開。StableDiffusionをローカルで走らせられる、GUIをブラウザ上に表示する。2023年Colabでのai使用が制限された都合、2022年10月現在ほぼ一強状態。

<2023年12月27日追記>
とかいってたら最近ノードベースでいじれるComfyUIが優勢な印象。

deforum diffusion / StableDiffusion

stable diffusionの公開すぐ後くらいに出てきた、前フレームの変形+キーフレーム的にプロンプトを切り替えることでアニメーションを生成させる手法。

絵がモーフィングしていくのが面白い。初期のディープドリームに通じる印象。
https://stable-diffusion-art.com/deforum/

DefusionBee / app

それまでGPU搭載winかwebサービスでしか使えなかったStableDiffusionをMac+CPUでも使えるようにしたapp。23年10月現在まだ開発続いてるし、サクッと試したいmacユーザーには便利。重いけど

https://diffusionbee.com/

ControlNet

I transform real person dancing to animation using stable diffusion and multiControlNet
byu/neilwong2012 inStableDiffusion

年明けて2023年4月、img2imgでControlNetを使用することで元絵から大きく外れない＝ちらつきのの少ない動画生成の手法確立。

Adobe

2023年6月、Photoshopのベータ版でai画像生成を使用できる自社ai発表・公開。2023年9月、photoshopと自社webサービスの正式公開+広告での使用を許可(著作権など権利の心配せずに使用可能)

Animediff / StableDiffusion

2023年7月ごろ公開。9月ごろ始めと終わりのフレームを指定し中割りを繋ぐ技術が発表されて流行り始める。現状8fps/2sec縛り、解像度を上げるとミドルレンジのGPUじゃVRAM足らなくなる。

Runway

動画制作Web app。22年末ごろからaiでの制作補助サービス、text to mov開始。23年11月にローンチされたバージョンでほぼちらつきもなく、Animediffを超える質感に。有料、web appなのがネックだけど動画版midjourney的完成度。

“Flea Market”
GM GE! pic.twitter.com/6DS5fzVrN5
— niceaunties (@niceaunties) November 5, 2023

Stable Video Diffusion

23年、年内はRunway一強かなと思っていたら11月21日Stable Video Diffusion発表。text to mov / img to movいけるぽい

AnimateAnyone

Alibabaグループ開発の人物特化アニメ生成。
一枚絵＋モーションデータからアニメーション生成。精度良さげ

で、2023年にwinを買ったので夏頃からautomatic1111でテスト開始。すごく楽しい。

https://humanaigc.github.io/animate-anyone/

現状での感想と未来予想

AIはジュニアデザイナーまたはアシスタントデザイナー
指示出し慣れてる大手ディレクターは使いこなせそう。
オールインワンでやってる弱小フリーランスは現状、使い方模索中
言われた事しかやれない人間のデザイナーはAIのオペレーターになるしかなさそう。
(1-10まで指示出しが必要なことをマイクロマネージメントというらしい)
Animediffかその派生が進化することでaiでの動画生成も手軽にできるようになりそう。
<2023年12月27日追記>
Stream Diffusionとかいうの出てきて、記事書いてる間に手軽になってきた・・・
https://github.com/cumulo-autumn/StreamDiffusion
すでにK-popのMVで使われたりしている現状のちらつきあるai動画は、16mmフィルムのカクつき、90’s VHS・アナログテレビのノイズみたいに2020’sテイストとして定着、加工のスタイルになりそう。
2023年末時点ですでにトレンド遅れ感出てきたので５〜10年後のリバイバル待ち。
学習元としてのサンプリングは禁止はされないとおもうけど、これを機に著作権・肖像権など制作に関わる権利の啓蒙進むといいな。
というか現状特定の著作者/キャラクターを学習させたモデルとか見かけるけど・・・著作権/肖像権侵害するもの作るなし作ろうとしない倫理観？を世界共通で普及させないと。
Adobeが自社モデルを持ってる時点でAftereffectsとか動画ソフトへの転用はすぐきそう。
無制限にローカルで走らせられるくらい処理が軽くなるor PCスペック上がればデザイナーツールとしてすぐに普及する
<2023年12月27日追記>
上記150fps出せるらしいstreamDiffusionとかいうのが出てきた・・・
デザイン会社の営業職や発注元担当者が使うことで制作物の言語化、オリエンシートの制作補助ツールになるはず。プロンプトとして言語化することでリファレンスに含まれる要素のうち何が最重要なのか抽出、共有するいいツールになると思う。
この使い方の時はmidjourneyのように勝手に品質上げてくれちゃう点が邪魔になる。
独自モデル、LoRA(スタイライザ)を手軽に作れるようになれば、自社内ツールとして案出し/他部署とのイメージ共有/小規模事業者の負担軽減になりそう。
自前学習データ・ファインチューニングは作れるようになっておきたい。
デザイン初心者は手軽にそれっぽいものが作れるようになるので、基礎知識/能力/言語化能力の重要度が増える(デッサン力とかデザイン/美術史とか)
年齢/コミュニケーション能力/スキルだけの年長者は淘汰される。AIは現状人間的に意図は汲み取ってくれないので、雰囲気ディレクターじゃ指示出せない。
基礎力/言語化能力/思考力、またはAIで生成できない作家性が必要になる。
(文脈とコンセプト重視の現代芸術みたいになりそうな点は嫌だけど)
デザイン関連の経済環境変わるんだろーなー
アンチAI派は3年くらいで消えるくらいすぐ普及するはず