ゲームバランスをAIのbotに240回遊ばせて計測した──「深追いの崖」の位置が数字で見えるまで

開発中の深海ローグライクで、バランス調整の判断材料を人力試遊でなくbot自動プレイ12条件×20run＝240回の統計で作った。帰還率は3階100%→6階65〜75%→9階0〜15%。「深追いの崖」の正確な位置と、装備が効かない設計ミス、そしてbot計測の限界まで正直に記録する。

編集部で開発中のゲームのバランス調整で、「どこから先が無理な深さか」を人力の試遊ではなく、botの自動プレイ240回の統計で出した。結果、帰還率は3階まで100%、6階で65〜75%、9階で0〜15%と急落し、7階前後に「深追いの崖」があることが数字で特定できた。本記事はその方法と、「この数字を結論にしてはいけない」理由の記録だ。数字はすべて2026年7月3日時点の開発ビルドでの編集部計測による。

3行まとめ

開発中の深海ローグライク（スクウェア・エニックスのゲームコンテストに応募予定）で、バランスの判断材料をbot自動プレイ12条件×各20run＝240回の統計で作った

帰還率は3階100%→6階65〜75%→9階0〜15%。死亡は7階前後に集中し、報酬の期待値ピークは6階だった

botは全マップ既知で回復アイテムも使わない、人間とは別物のプレイヤー。この数字は判断材料であって結論ではない

前提──「潜って、拾って、浮上」のゲーム

対象は編集部が開発中のターン制ローグライク。詳細は伏せるが、ルールは3行で説明できる。

深海に潜り、フロアでお宝を拾い、自分の判断で浮上すれば拾った分を持ち帰れる
途中で死ねばその潜行の全ロスト。深いほど敵と水圧が強く、報酬も上がる
酸素はターン経過で減り続ける。「いつ引き返すか」の判断がゲームの核だ

つまりバランス調整の最重要問題は「深追いの限界点がどこに来るか」になる。ここを感覚で語らず、数字にしたかった。

どう測ったか──BFS移動のbot×条件マトリクス×シード固定

計測はゲームをheadless（画面なし）で起動し、bot に自動プレイさせるスクリプトで行った。botの移動はBFS（幅優先探索）による最短経路で、フロアのアイテムを拾ってから階段へ向かう。

条件は次のマトリクスで組んだ。

軸	水準
bot能力	A 素手／ B わざ使用（HP半分で回復わざ・酸素低下で酸素回復わざ・隣接敵に攻撃わざ）／ C B＋装備（出撃時にショップの耐圧服＋予備ボンベを購入した想定）
浮上目標	3階／ 6階／ 9階／ 12階
試行数	12条件×各20run＝240回

重要なのはシード固定だ。同じ浮上目標ならA/B/Cは同一のマップ系列でプレイするので、「マップ運の差」を排除して条件間だけを比較できる。

結果──壁は7階、わざは崖を1階押し上げる

帰還率のマトリクスがこれだ（各20run）。

bot＼浮上目標	3階	6階	9階	12階
A 素手	100%	65%	0%	0%
B わざ	100%	75%	15%	0%
C わざ+装備	100%	75%	0%	5%

読み取れたことは4つある。

①壁は7階前後にある。9階・12階を目指した場合の死亡地点は、全条件で平均6.5〜8.1階に集中した。これは敵が強くなる中域帯の開始階（7階）と一致する。

②わざは壁を約1階押し上げる。わざ使用（B）で6階帰還率は65%→75%、9階は0%→15%。死亡地点も9階目標で平均6.5階→7.3階と約1階深くなった。回復系わざのリソース分が延命に効いた、というのが素直な読みだ（推測）。

③装備の上積みは検出されなかった。B≒Cで、9階ではB15%対C0%と逆転すらしている（20runの統計揺れの範囲と見るのが妥当だろう。これも推測）。理由として有力なのは順番の設計ミスだ。耐圧服の効果は深い階ほど大きくなる設計だが、7階時点では最大HPが26→28の+2にしかならない。効果が本格化する10階以深に、そもそも到達できずに死ぬ。「壁の奥で効く装備」は、壁を越えられないプレイヤーには存在しないのと同じだった。

④期待値のピークは6階。帰還率×帰還時の平均持ち帰り額で期待値を出すと（わざ使用bot基準）、3階≈1069G、6階≈2101G、9階≈587G、12階≈0〜283G。**このbotの腕では「6階まで潜るのが期待値最大、9階以深は大損」**という崖がはっきり出た。人間の腕なら崖の位置は変わるが、「崖が存在する」こと自体は今の商品の形だ。

240回分のログが流れ終わって、9階の欄に0/20が並んだのを見た瞬間のことは書いておきたい。試遊で薄々感じていた「7階あたりからキツい気がする」という手癖の感想が、初めて「死亡平均6.5〜8.1階」という分布になった。感想は反論できるが、分布は調整するしかない。この切り替わりが、計測をやる意味そのものだった。

botの限界──この数字を結論にしないこと

ここが本記事でいちばん大事な章だ。この240回は人間のプレイと決定的に違う。

botは全マップ既知。視界も探索も無視して最短移動する。人間の「未知への恐怖」と探索コストはゼロ
フロアの全アイテムを必ず拾いに行く。人間の核心スキルである「間引く・引き返す判断」を持たない。酸素の収支は人間より大幅に不利な計測になっている
使わない機能が多い。回復の瓶を飲まない、緊急脱出用の浮き袋を使わない、敵から逃げない
20runの統計揺れは±15〜20ポイント程度ある。前述のB9階15%対C9階0%の逆転が実例だ

総じてこの数字は条件間の相対比較の材料であって、「帰還率65%」という絶対値をそのまま人間の体験と見なしてはいけない。判断材料であって、結論ではない。

正直に書くと、副産物もあった。計測中、botが海流（踏むと1マス流される地形）のあるフロアで「踏み込む→流され戻る→また踏み込む」の無限往復にハマり、その場で700〜1500ターンを浪費して酸素切れで死ぬバグ的挙動が見つかった。回避処理を入れる前の計測では、これだけで6階帰還率が40%まで落ちていた。人間は同じハマり方をしないのでバランスの信号ではないが、「1歩戻される地形は往復コストを静かに倍増させる」という性質の言語化は思わぬ収穫だった。

持ち帰り──個人開発でも「感想でなく分布」で語れる

やったことは、ゲームのロジックを描画から分離し、headlessで回し、条件マトリクス×シード固定で統計を取っただけだ。大手スタジオのQA部隊がなくても、この型は個人開発で再現できる。2日でブラウザゲームを公開した記事と同じで、AIとの開発ではコードを書く速度より「何を計測して何を判断材料にするか」の設計が人間の仕事になっていく。

バランス調整の議論が「なんか難しい気がする」で止まっている個人開発者に、bot240回という選択肢を置いておきたい。

調整はこれからだ。壁の位置や報酬曲線を動かしたら、同じ240回を回して崖がどう動いたかを続編で報告する。

出典と但し書き：本文の数字はすべて編集部の開発計測レポート（2026年7月3日・開発ビルドv0.6時点、12条件×20run・シード固定）による。計測はゲーム本体の数値や仕様を一切変更せずに行った。bot計測の限界は本文の通りで、帰還率などの絶対値は人間のプレイ体験を代表しない。ゲームは開発中のため、仕様・数値は今後変わる。

ゲームバランスをAIのbotに240回遊ばせて計測した──「深追いの崖」の位置が数字で見えるまで

前提──「潜って、拾って、浮上」のゲーム

どう測ったか──BFS移動のbot×条件マトリクス×シード固定

結果──壁は7階、わざは崖を1階押し上げる

botの限界──この数字を結論にしないこと

持ち帰り──個人開発でも「感想でなく分布」で語れる

📎 出典・一次ソース

このニュースの解説動画も作っています

コメント

AIについて聞きたいことはありますか？

関連記事

人間のコード0行でマインクラフト風ゲームができた──Claude Fable 5に約6,000行を全部書かせた検証記録

ChatGPT・Gemini・Claude・Copilot──企業が選ぶべきAIツールはどれか（2026年6月版）

Claude Designを仕事で使い倒してみた ― 雑に頼むと外れ、構造で頼むと化ける