AIイラスト生成で最もつまずきやすいのが、キャラクターのポーズや構図の指定です。「腕を上げたポーズにしたいのに反映されない」「正面向きを指定したのに横向きになる」「思い描いた構図とまったく違う絵が出てくる」——こうした経験は、AI画像生成を使い始めた方なら一度は通る壁ではないでしょうか。
ポーズや構図がうまく反映されない原因の多くは、プロンプト(呪文)の書き方にあります。AIは人間のように「なんとなくこんな感じ」を汲み取ることが苦手で、指示の仕方にはコツがあります。逆に言えば、プロンプトの組み立て方を理解するだけで、生成結果の精度は大幅に向上します。
本記事では、AIイラストにおけるポーズ・構図・体の向き・手足の位置などをプロンプトで的確に指示するための体系的な方法を解説します。Stable Diffusion、Midjourney、NovelAIといった主要な画像生成AIに共通する考え方から、パーツ別の具体的なプロンプト例、前髪や表情といった細部の指定方法、そしてプロンプトだけでは限界がある場合の補助的な手法まで、実践的にまとめています。
ポーズ・構図プロンプトの基本的な考え方
AIにポーズや構図を正確に伝えるには、漠然としたイメージを言語化するスキルが求められます。ここではまず、プロンプトの構造的な組み立て方と、AIが指示を解釈する際のクセを押さえておきましょう。
プロンプトの構造を「レイヤー」で考える
ポーズや構図のプロンプトは、一度にすべてを書こうとすると混乱しやすくなります。以下の5つのレイヤーに分けて考え、それぞれを順番に組み立てていくと整理しやすくなります。
- レイヤー1・カメラ(構図): どの距離・角度から撮っているか(例:close-up、full body、from above)
- レイヤー2・体全体の姿勢: 立っている、座っている、寝ているなどの基本姿勢(例:standing、sitting、lying down)
- レイヤー3・体の向き: カメラに対してどの方向を向いているか(例:facing viewer、from behind、profile)
- レイヤー4・手足や頭部の動き: 各パーツの具体的な位置や動作(例:arms raised、hand on hip、looking back)
- レイヤー5・表情や細部: 表情、視線の方向、髪の動きなど(例:smiling、looking at viewer、hair blowing in wind)
この順番でプロンプトを組み立てると、AIが大きな構造から細部へと段階的に解釈しやすくなります。いきなり「右手を頬に当てて左足を後ろに引いて微笑んでいる」と書くよりも、まず全体像を決めてから細部を追加するほうが、意図どおりの結果が得られやすいのです。
AIがポーズ指示を「誤解」しやすい理由
プロンプトで指定したポーズが反映されないとき、多くの場合は以下のいずれかが原因です。
- 抽象的すぎる指示: 「かっこいいポーズ」「セクシーなポーズ」のような曖昧な表現は、AIの学習データに含まれるさまざまなパターンからランダムに近い形で選ばれるため、意図とずれやすい
- 矛盾する指示の同居: 「sitting」と「walking」のように物理的に両立しない指示が含まれていると、AIはどちらか一方を無視するか、中途半端な姿勢を生成する
- プロンプト内での優先度の問題: 多くの画像生成AIは、プロンプトの前方に書かれた要素ほど優先的に反映する傾向がある。ポーズの指示が後方に埋もれていると、他の要素(服装、背景など)に押されて無視されることがある
- 学習データの偏り: AIが学習した画像データに特定のポーズが少ない場合、そのポーズを正確に再現することが困難になる
こうした特性を踏まえた上で、具体的なプロンプトの書き方を見ていきましょう。
構図(カメラアングル・距離)を指定するプロンプト
構図の指定は、絵全体の「枠」を決める工程です。ここが曖昧だと、せっかくポーズを細かく指定しても画角に収まらず意味をなさないことがあります。たとえば手の動きを細かく指定しても、構図がクローズアップだと手が画面外に切れてしまいます。ポーズの指定に入る前に、まず構図を明確にしておくことが重要です。
カメラ距離(被写体との距離感)
被写体をどこまで映すかを決めるプロンプトです。ポーズの種類によって適切な距離感が異なるため、表現したいポーズに合わせて選びましょう。
- extreme close-up: 顔の一部だけを大きく映す。目元や口元の表情を強調したいときに使う
- close-up: 顔全体から首あたりまでを映す。表情重視のイラストに適する
- bust shot / upper body: 胸から上を映す。手の動きも一部入る。SNSアイコン向き
- cowboy shot: 太ももの中間あたりまで映す。腰周りのポーズや衣装を見せたいときに有効
- full body: 全身を映す。立ちポーズや全身の動きを見せたい場合に必須
- wide shot: 全身に加えて背景も広く映す。キャラクターと世界観の両方を伝える構図
全身のポーズを指定する場合は「full body」を明記しないと、AIが勝手にバストアップで生成してしまうことが多いです。ポーズ指示の効果を最大化するためにも、カメラ距離は省略せず記述することを推奨します。
カメラアングル(撮影角度)
同じポーズでも撮影角度を変えるだけで印象が大きく変わります。
- from above / bird’s eye view: 上から見下ろすアングル。可愛らしさ、小ささ、無防備さを演出する
- from below / low angle: 下から見上げるアングル。力強さ、威圧感、ダイナミックさを演出する
- eye level: 目線の高さからの標準的なアングル。自然な印象になる
- dutch angle: カメラを斜めに傾けたアングル。不安定さ、緊迫感、スタイリッシュさを表現する
- from behind: 背面からのアングル。後ろ姿を描きたい場合に使用する
- from side / profile: 横からのアングル。横顔やシルエットの美しさを強調する
アングルの指定は体の向き(facing viewer、looking backなど)と組み合わせることで、より具体的な構図になります。たとえば「from above, looking up at viewer」と書くと、上から見下ろしたアングルで、キャラクターがこちらを見上げている構図が生成されやすくなります。
体全体の姿勢を指定するプロンプト
構図が決まったら、次はキャラクターの基本姿勢を指定します。立つ・座る・寝るといった大きな姿勢の分類から、それぞれのバリエーションまで、よく使うプロンプトを整理します。
立ちポーズのバリエーション
立ちポーズは最も基本的な姿勢であり、プロンプトの種類も豊富です。
- standing: 基本の立ちポーズ。他の指定がなければ自然な直立になる
- contrapposto: 片足に重心を乗せた、やや腰をひねったポーズ。美術用語だがAIの認識率が高い
- leaning forward: 前傾姿勢。覗き込む、身を乗り出すような動きを表現する
- leaning against wall: 壁にもたれかかるポーズ。リラックスした雰囲気やクールな印象を出せる
- walking: 歩いている状態。動きのある自然な姿勢になる
- running: 走っている状態。よりダイナミックな動きになる
- jumping: ジャンプしている瞬間。躍動感のあるイラストに適する
単に「standing」だけだと直立不動になりがちです。「standing, weight on one leg, relaxed posture」のように重心や雰囲気を補足すると、より自然なポーズになります。
座りポーズのバリエーション
- sitting: 基本の座りポーズ。椅子に座る姿勢が生成されやすい
- sitting on floor: 床に座る。あぐらや正座など日本的な座り方になることもある
- cross-legged: あぐらをかいた姿勢
- seiza: 正座。日本的なシーンで有効
- hugging knees: 体育座り(膝を抱えて座る)。内省的、繊細な雰囲気を出せる
- sitting on chair, legs crossed: 椅子に座り足を組んだ姿勢。大人っぽい印象になる
- wariza / w-sitting: 女の子座り(ぺたん座り)。かわいらしさを演出する
座りポーズでは「何に座っているか」を指定するとAIの解釈がブレにくくなります。「sitting on a wooden chair」「sitting on the edge of a bed」のように具体的な場所を添えましょう。
寝ポーズ・その他の姿勢
- lying down / lying on back: 仰向けに寝ている
- lying on stomach: うつ伏せに寝ている
- lying on side: 横向きに寝ている
- crouching: しゃがんでいる
- kneeling: 膝をついている
- floating: 浮遊している。ファンタジー系のイラストで使いやすい
手・腕のポーズを指定するプロンプト
AIイラスト生成において、手と腕は最も制御が難しいパーツのひとつです。指の本数がおかしくなる、腕の位置が不自然になるといった問題は日常的に起こります。ここでは、比較的安定して反映されやすい手・腕のプロンプトと、精度を上げるためのコツを紹介します。
よく使う手・腕のプロンプト一覧
- arms at sides: 腕を体の横に自然に下ろした状態。最もシンプルで安定しやすい
- arms crossed: 腕を組んだポーズ。自信や防御的な印象を与える
- hand on hip / hands on hips: 腰に手を当てるポーズ。片手か両手かで印象が変わる
- arms raised / arms up: 両腕を上げたポーズ。開放的な印象になる
- one arm raised: 片腕を上げたポーズ。手を振る動作などに使える
- hand on own chest: 自分の胸に手を当てるポーズ。感情的な場面に適する
- hand on own cheek: 頬に手を当てるポーズ。考え事や照れの表現に使う
- hands behind back: 背中の後ろで手を組むポーズ。おとなしい、控えめな印象
- hands behind head: 頭の後ろで手を組むポーズ。リラックスした雰囲気
- reaching out: 手を前方に差し出す動き。こちらに手を伸ばしているような構図になる
- peace sign / v sign: ピースサイン。指の再現は不安定な場合がある
- waving: 手を振っている動作
- holding(物の名前): 何かを持っている状態。「holding a cup」「holding a sword」のように具体物を指定する
手の描写精度を上げるコツ
手はAIが最も苦手とするパーツです。以下の工夫で精度を上げられます。
まず、手の動作を具体的な「何をしている」で表現することが効果的です。「beautiful hands」のような品質指定よりも、「holding a book」「gripping a railing」のように物との関係で指定するほうが、AIは手の形を正しく推測しやすくなります。手が物を持っている状態は学習データにも多く含まれるため、安定した結果が得られやすいのです。
また、画面内に手を大きく映す構図(クローズアップなど)は破綻リスクが高まるため、全体の中に自然に溶け込ませる構図のほうが安定します。Stable Diffusionを使っている場合は、ネガティブプロンプトに「bad hands, extra fingers, missing fingers」を入れておくことで、指の本数異常をある程度抑制できます。
顔・頭部・視線の方向を指定するプロンプト
キャラクターの顔の向き、視線の方向、そして前髪をはじめとする髪の表現は、イラスト全体の印象を大きく左右します。ここでは、それぞれの要素をプロンプトでどう指定するかを解説します。
顔の向きと視線
顔の向きと視線は独立して指定できるため、組み合わせることで多彩な表情演出が可能です。
- facing viewer: 正面を向いている。最も基本的な向き
- looking at viewer: カメラ目線(こちらを見ている)。キャラクターとの視線が合うため没入感が高い
- looking away: 視線を逸らしている。物憂げ、無関心、照れなどの印象になる
- looking back: 振り返りの視線。体は背面を向いているが顔だけこちらを見ている構図に使う
- looking up: 上を見上げている
- looking down: 下を向いている。伏し目がちな印象
- head tilt: 首をかしげる動作。可愛らしさや不思議そうな表情を演出する
- turned head / three-quarter view: 斜め向きの顔。やや横を向いた自然な角度になる
- profile: 真横を向いた顔。横顔の美しさを強調したい場合に使う
「facing viewer」と「looking at viewer」は似ていますが、前者は顔の物理的な向き、後者は視線の方向を指します。「facing viewer, looking away」と組み合わせれば、正面を向いているが視線は逸らしているという表現も可能です。
前髪の指定プロンプト
前髪はキャラクターの個性を決定づける重要な要素です。AIイラストでは、前髪のスタイルを具体的に指定しないとランダムに生成されるため、意図どおりの見た目にするにはプロンプトでの指定が欠かせません。
- bangs: 前髪全般を指す基本語。これだけだとスタイルはAI任せになる
- blunt bangs: ぱっつん前髪。毛先が水平に切り揃えられたスタイル
- side-swept bangs: 横に流した前髪。大人っぽく落ち着いた印象になる
- parted bangs: 中央で分けた前髪。額が見えるすっきりした印象
- curtain bangs: カーテンバング。中央から左右に自然に分かれた前髪
- hair over one eye: 片目が隠れる前髪。ミステリアスな印象を与える
- forehead showing / forehead visible: 前髪なし、またはおでこが見えている状態
- swept bangs: ふんわりと流した前髪。自然体な印象
- asymmetrical bangs: 左右非対称の前髪。個性的な印象になる
前髪の長さも合わせて指定すると精度が上がります。「long blunt bangs covering eyebrows」(眉が隠れる長さのぱっつん前髪)のように、どこまで覆うかを添えると、AIの解釈がブレにくくなります。
表情の指定
表情はポーズや構図と組み合わせることで、イラストのストーリー性が大きく変わります。
- smiling / smile: 微笑み。最も汎用的な表情指定
- grinning: 歯を見せて笑う。元気さ、快活さを表現する
- serious expression: 真剣な表情
- sad expression: 悲しげな表情
- surprised expression / open mouth: 驚いた表情
- closed eyes: 目を閉じている。穏やかさ、眠り、集中を表現する
- crying: 泣いている
- blushing: 頬を赤らめている。照れ、恥ずかしさの表現
- expressionless / blank stare: 無表情。ミステリアス、人形的な印象
動きのあるポーズ・アクションポーズのプロンプト
静的なポーズだけでなく、動きの瞬間を切り取ったようなダイナミックなイラストを生成したい場面も多いでしょう。アクション系のポーズは、AIにとって静止ポーズよりも生成難度が高いため、プロンプトの書き方にもうひと工夫必要です。
アクション系プロンプトの基本
動きのあるポーズを指示する場合、「dynamic pose」「action pose」というメタ的な指示を加えると、AIが動的な構図を意識して生成しやすくなります。ただしこれだけでは具体性に欠けるため、実際の動作を併記します。
- dynamic pose, kicking: 蹴りの瞬間。格闘系のイラストに適する
- sword swing / swinging sword: 剣を振り下ろす動き
- punching: パンチを繰り出す動作
- drawing a bow: 弓を引いている状態
- casting spell, arm extended: 魔法を放つ瞬間。手を前方に伸ばした構図
- mid-air, falling: 空中で落下している瞬間
- spinning / twirling: 回転している動き。スカートの広がりなどと相性が良い
- wind-up pose: 力をためている瞬間。投球やパンチの予備動作
動きを強調する補助プロンプト
アクションポーズの臨場感を高めるために、以下のような補助表現を加えると効果的です。
- motion blur: 動きによるブレ効果。スピード感を演出する
- speed lines: 集中線。漫画的な動きの表現
- hair flowing / hair blowing in wind: 髪がなびいている。動きや風を感じさせる
- clothes fluttering: 衣服がはためいている
- impact effect: 衝撃のエフェクト。攻撃の着弾などに使う
動きのあるポーズは体の各パーツが複雑に絡み合うため、一度の生成で完璧な結果が出ることは稀です。複数回生成してベストなものを選ぶか、後述するimg2imgやControlNetを活用することで精度を高められます。
プロンプトの組み立て実例
ここまで解説してきたレイヤー別のプロンプトを、実際にどう組み合わせるかを具体例で示します。テーマの異なる3つのパターンを用意しました。自分の作りたいイラストに近いものを参考に、要素を入れ替えて活用してください。
実例1:カフェで頬杖をつく女の子
穏やかな日常シーンを想定したイラストです。
upper body, eye level,
sitting on chair, leaning on table, chin rest,
facing viewer, looking at viewer, head tilt,
gentle smile, half-closed eyes,
side-swept bangs, long hair,
cafe interior, warm lighting, coffee cup on table
構図をupper bodyにして上半身をしっかり映し、「chin rest」(頬杖)で具体的な手の動きを指定しています。head tiltを加えることで、くつろいだ雰囲気が出ます。
実例2:剣を構える戦士の全身ポーズ
ファンタジー系のアクションイラストを想定しています。
full body, low angle, dynamic pose,
standing, wide stance, contrapposto,
holding sword with both hands, sword raised above head,
looking at viewer, serious expression,
wind blowing, hair flowing, cape fluttering,
battlefield background, dramatic lighting
full bodyとlow angleで迫力ある構図にし、剣の持ち方を「both hands」「raised above head」で具体的に指定しています。wind blowingやcape flutteringで動きの演出を加えています。
実例3:振り返り美人の横顔
背中を見せつつ振り返る構図で、雰囲気のあるイラストを狙います。
cowboy shot, from behind,
standing, weight on one leg,
looking back, looking at viewer, three-quarter view,
parted lips, gentle expression, blushing,
blunt bangs, hair over shoulder,
hand holding hat, wind blowing,
sunset, golden hour lighting
「from behind」で背面構図にしつつ「looking back, looking at viewer」で振り返りの視線を加えています。cowboy shotにすることで、体のラインと背景の両方を見せるバランスの取れた画角になります。
プロンプトだけでは限界がある場合の対処法
プロンプトの工夫だけでは、どうしても思いどおりのポーズが出ないことがあります。特に複雑な手足の配置や、学習データに少ないポーズは、テキスト指示だけでは再現が難しいのが現実です。そうした場合に活用できる補助的な手法を紹介します。
ControlNet(Stable Diffusion向け)
ControlNetは、Stable Diffusion環境で使用できる拡張機能で、ポーズの指定精度を飛躍的に向上させます。
- OpenPose: 棒人間のような骨格図を入力画像として与え、そのポーズどおりにイラストを生成する。最も直感的にポーズを制御できる方法
- Depth: 奥行き情報をもとに構図を制御する。前後関係のある複雑な構図に有効
- Canny / Lineart: 線画や輪郭情報を参照して生成する。既存のラフスケッチをもとにイラストを仕上げたい場合に使う
特にOpenPoseは、自分で棒人間を配置するエディタツールも公開されており、プロンプトでは表現しきれない細かいポーズ指定が可能です。「プロンプトで大まかな方向性を決め、ControlNetで精密にポーズを固定する」という併用が、現時点で最も精度の高いワークフローです。
img2img(画像から画像を生成)
自分で描いたラフスケッチや、ポーズ参考画像をもとに画像を生成する方法です。棒人間レベルのラフでも、img2imgの入力画像として使用すると、AIがそのポーズを参照して生成してくれます。
Denoising strengthの値を調整することで、元画像からどの程度離れた結果にするかを制御できます。値を低くすれば元画像に忠実に、高くすればAIの自由度が上がります。ポーズを固定したい場合は0.3〜0.5程度の低めの値が目安です。
参考画像を使ったプロンプト補助(Midjourney・その他)
Midjourneyでは、参考画像のURLをプロンプトの先頭に貼ることで、その画像の雰囲気やポーズを参照した生成が可能です。完全なポーズコピーにはなりませんが、方向性を大きく近づけることができます。
また最近では、3Dポーズツール(Magic PoserやDesignDollなど)で作成したポーズ画像を参照画像として使う手法も広まっています。自分の理想のポーズを3Dモデルで組み、それを参照してAIに描かせるという流れです。
ポーズ・構図プロンプトに関するよくある質問
プロンプトは英語と日本語のどちらで書くべきですか
基本的には英語で書くことを推奨します。主要な画像生成AI(Stable Diffusion、Midjourney、NovelAI)はいずれも英語のテキストで学習されているため、英語プロンプトのほうが認識精度が高くなります。日本語をサポートしているサービスもありますが、特にポーズや構図のような具体的な指示は英語のほうが安定した結果を得やすいです。英語が苦手な場合は、ChatGPTに日本語で描きたいイメージを伝え、画像生成AI向けのプロンプトに翻訳してもらう方法も有効です。
複数人のキャラクターのポーズをそれぞれ指定できますか
プロンプトだけで複数キャラクターのポーズを個別に指定するのは、現状の画像生成AIでは非常に困難です。「2girls, one sitting and one standing」のように大まかな区別は可能ですが、それぞれの手足の位置まで細かく指定することは安定しません。複数キャラクターのポーズを個別に制御したい場合は、ControlNetのOpenPoseで複数の骨格図を配置する方法が最も確実です。あるいは、キャラクターを個別に生成してから画像編集ソフトで合成するアプローチも実用的です。
指定したポーズがまったく反映されない場合はどうすればいいですか
まずプロンプト内でのポーズ関連語の位置を確認してください。多くの画像生成AIは、プロンプトの前方に書かれた要素を優先します。ポーズの指示が衣装や背景の記述の後ろに埋もれている場合は、前方に移動させましょう。Stable Diffusionの場合は、強調構文(括弧で囲む)を使って重みを上げることもできます。たとえば「(arms raised:1.3)」のように書くと、その要素が通常より強く反映されます。それでもうまくいかない場合は、そのポーズがAIの学習データに十分含まれていない可能性があるため、ControlNetやimg2imgの併用を検討してください。
同じプロンプトなのに毎回違うポーズが出るのはなぜですか
画像生成AIはシード値(乱数の初期値)によって生成結果が変わるため、同じプロンプトでも毎回異なる画像が出力されます。これは仕様であり、不具合ではありません。気に入ったポーズが出たらそのシード値を記録しておくと、同じポーズを再現したり、微調整を加えたりする際に便利です。Stable Diffusion WebUIではシード値が自動で記録されます。Midjourneyでも生成結果からシード値を取得する機能があります。
ポーズは良いが手だけが崩れる場合の対処法はありますか
手の崩れはAIイラスト生成で最も多い悩みのひとつです。まずネガティブプロンプトに「bad hands, extra fingers, missing fingers, deformed hands」を追加してください。それでも改善しない場合、Stable Diffusionには「ADetailer」という拡張機能があり、顔や手を自動検出して部分的に再生成してくれます。手の領域だけ精度を上げられるため、全体のポーズを崩さずに手だけを修正できます。また、手が何かを持っている状態のほうが安定するという傾向があるため、可能であれば小物を持たせるプロンプトを追加するのも有効です。
まとめ
AIイラストでポーズや構図を思いどおりに指定するには、プロンプトを「カメラ構図→基本姿勢→体の向き→手足の動き→表情や細部」というレイヤー順で組み立てることが基本です。漠然としたイメージを伝えるのではなく、各要素を具体的な英語のキーワードに分解して指示することで、AIの解釈のブレを最小限に抑えられます。
前髪のスタイルや視線の方向といった細部まで指定することでキャラクターの個性が際立ち、動きの補助プロンプトを加えることで臨場感のあるイラストが生成できます。それでもプロンプトだけでは再現が難しいポーズについては、ControlNetやimg2imgといった補助ツールを併用することで精度を大きく引き上げることが可能です。まずは本記事のプロンプト例を参考に試行を重ね、自分の理想の構図を追求してみてください。

