近年の技術の発展により、画像生成技術はますます身近になっています。本書は、画像生成について実践的に学べるように、Pythonを使った実装を示しています。
画像生成の概要から拡散モデルを中心とした最新技術、そして応用・今後の展望までを体系的に紹介します。
コンピュータが画像を生成する仕組みの概要とその応用について説明します。近年の画像生成技術は大きく発展しました。その結果、人間の創造的な営みの代表である画像表現がコンピュータでも実現できるようになりました。ここでは特に画像生成AIとして注目を集める技術を紹介します。具体的には「指定したテキストから画像を生成するAI」の概要を説明します。
現在の画像生成技術の根幹を担う深層学習を導入します。深層学習とは、ニューラルネットワークを多層にした機械学習手法を指します。行列演算を用いた「層」を多数に重ねてモデルを構成するため、「深層学習」と呼ばれています。現在画像生成で用いられているStable Diffusionをはじめとした拡散モデルもほぼすべて深層学習に基づいています。
画像生成において最先端の技術である拡散モデルを導入します。まず拡散モデルが含まれる生成モデルの概要について紹介します。次に、拡散モデルの基本的な概念であるDDPMとその発展について説明します。さらに拡散モデルと密接に関係するスコアベース生成モデルについても説明します。最後に拡散モデルを最先端の生成手法へと押し上げた生成技術について取り上げます。
潜在拡散モデル(LDM)とその発展であるStable Diffusionについて解説します。LDMはDDPMをより効率化したモデルであり、これをもとにStable Diffusionが構築されています。Stable Diffusionはこれまで研究されてきた手法が効果的に組み合わされて成り立っているため、以降ではそれら構成要素について詳しく説明します。さらに、開発が進んだStable Diffusionの各バージョンの違いについても解説します。
拡散モデルを様々な画像生成タスクへ応用した事例について紹介します。Stable Diffusion公開を皮切りに、テキストによる指示をベースにしながら、個人のニーズに合わせたり、より細かな制御を行った画像生成、高度な画像編集が可能になりました。またStable Diffusion自体を効率的に学習・推論させるための技術や、既存のStable Diffusionを拡張する技術についても紹介します。
拡散モデルによる画像生成の今後の展望について議論します。これまで、拡散モデルの基礎理論、実装、応用例を紹介し、人間と同等以上の性能を持つその革新的な可能性を示してきました。一方で、第1章3節でも述べたような制限や倫理的な問題も存在します。拡散モデルには利点欠点それぞれ存在しますが、可能性は依然として高く、画像生成にとどまらないさらなる応用と進化が期待されます。
- リサーチサイエンティスト / 博士(工学)
本文では紹介しきれなかった内容を補足します。
本書に関連する GitHub / Hugging Face / X (Twitter) のアカウントです
GitHub
Hugging Face
X (Twitter)