エージェント型AIが「どこまで実務レベルのシステムを自律的に作れるのか」を確認するため、
同一の設計書・同一の技術スタックで複数のAIにシステム構築を行わせて比較検証しました。
本記事では、実際にコードを書かせて動かした結果をもとに、それぞれの特徴をまとめます。
検証の目的
近年「AIエージェントに開発を任せられるのでは?」という話題が増えていますが、
- 本当に最後まで作れるのか
- どれくらい人が介入する必要があるのか
- 実務で使える品質になるのか
これらは、ある程度規模のあるシステムを作らせてみないと判断できません。
そこで今回は、小規模SaaS相当のシステムを題材に比較を行いました。
検証に使ったシステム概要
テーマ
TaskFlow Lite(タスク管理+承認ワークフロー)
主な機能
- Organization単位のマルチテナント
- ユーザー認証(JWT)
- プロジェクト・タスク管理
- タスクの状態遷移(申請 → 承認 → 完了)
- ロール(ADMIN / MANAGER / MEMBER)
- 通知機能
- 監査ログ
- CSVエクスポート
- フロントエンドUI
- APIテスト / E2Eテスト
技術スタック(固定)
- Backend:FastAPI
- Frontend:React + TypeScript
- Database:PostgreSQL
- 実行環境:docker compose
※設計書は すべてのAIで完全に同一 のものを使用しています。
検証の進め方
- フェーズを分割して段階的に実装
- 各フェーズごとにローカルで動作確認
- 問題があれば 設計を変えずに修正指示
- 全フェーズ完了まで継続
結果サマリー
| AI | 結果 |
|---|---|
| Codex | 実装完了 |
| Claude | 実装完了 |
| Gemini | ログイン周りでデグレを繰り返し途中で断念 |
Codex の評価
良かった点
- UIの見た目(色使い・レイアウト)が比較的よい
- 初期構成や docker 周りが安定している
- 修正指示に対する反映が早い
気になった点
- プロジェクト → タスクの画面遷移が実装されなかった
- 業務的な使い勝手はもう一歩
総評
「動くものを形にする力」と「見た目の完成度」が高い
PoCやUI重視の用途では扱いやすい印象でした。
Claude の評価
良かった点
- 機能面の理解が非常に良い
- プロジェクト → タスク → 詳細といった遷移が自然
- ロール・権限・状態遷移の実装が安定している
気になった点
- UIの色使いはやや地味
- 初回から一発で動くことはなく、修正は必要
総評
業務システムを意識した実装力が高い
実務利用を想定するなら Claude の安心感は大きいです。
Gemini の評価
結果
- ログイン機能周辺でデグレを繰り返す
- 修正すると別の箇所が壊れるケースが多発
- 安定してフェーズを進められず、途中で検証を中断
所感
- 単発のコード生成では問題ない場面もある
- 状態を維持しながら段階的に開発する用途には不向き
- 現時点では実装補助用途に留まる印象
まとめ(結論)
- Codex と Claude は、修正を重ねれば実務レベルのシステムを完成させられる
- 両者とも 一発で動くものは作れなかった
- ただし 3〜4回の修正で仕様通りに安定動作
- 見た目重視なら Codex
- 機能・業務フロー重視なら Claude
- Gemini はエージェント型開発用途では現時点では厳しい
エージェント型AIは実務で使えるか?
今回の検証から、
- 完全自動はまだ難しい
- しかし
- 明確な設計書
- フェーズ分割
- 人のレビュー前提
この条件が揃えば、
実務に十分投入できるレベルに近づいていると感じました。
今後やるなら
- 途中で仕様変更を入れた場合の追従力
- 権限や業務ルールがさらに複雑なケース
- 既存コードベースへの機能追加
こうした検証を行うことで、
AIエージェントを「どこまで任せられるか」がより明確になるはずです。
この記事が、
AIエージェント導入を検討している方の参考になれば幸いです。
コメントを残す