エージェント型AI（Codex / Claude / Gemini）でシステム開発力を比較してみた

エージェント型AIが「どこまで実務レベルのシステムを自律的に作れるのか」を確認するため、
同一の設計書・同一の技術スタックで複数のAIにシステム構築を行わせて比較検証しました。

本記事では、実際にコードを書かせて動かした結果をもとに、それぞれの特徴をまとめます。

検証の目的

近年「AIエージェントに開発を任せられるのでは？」という話題が増えていますが、

本当に最後まで作れるのか
どれくらい人が介入する必要があるのか
実務で使える品質になるのか

これらは、ある程度規模のあるシステムを作らせてみないと判断できません。

そこで今回は、小規模SaaS相当のシステムを題材に比較を行いました。

検証に使ったシステム概要

テーマ

TaskFlow Lite（タスク管理＋承認ワークフロー）

主な機能

Organization単位のマルチテナント
ユーザー認証（JWT）
プロジェクト・タスク管理
タスクの状態遷移（申請 → 承認 → 完了）
ロール（ADMIN / MANAGER / MEMBER）
通知機能
監査ログ
CSVエクスポート
フロントエンドUI
APIテスト / E2Eテスト

技術スタック（固定）

Backend：FastAPI
Frontend：React + TypeScript
Database：PostgreSQL
実行環境：docker compose

※設計書は すべてのAIで完全に同一 のものを使用しています。

検証の進め方

フェーズを分割して段階的に実装
各フェーズごとにローカルで動作確認
問題があれば 設計を変えずに修正指示
全フェーズ完了まで継続

結果サマリー

AI	結果
Codex	実装完了
Claude	実装完了
Gemini	ログイン周りでデグレを繰り返し途中で断念

Codex の評価

良かった点

UIの見た目（色使い・レイアウト）が比較的よい
初期構成や docker 周りが安定している
修正指示に対する反映が早い

気になった点

プロジェクト → タスクの画面遷移が実装されなかった
業務的な使い勝手はもう一歩

総評

「動くものを形にする力」と「見た目の完成度」が高い
PoCやUI重視の用途では扱いやすい印象でした。

Claude の評価

良かった点

機能面の理解が非常に良い
プロジェクト → タスク → 詳細といった遷移が自然
ロール・権限・状態遷移の実装が安定している

気になった点

UIの色使いはやや地味
初回から一発で動くことはなく、修正は必要

総評

業務システムを意識した実装力が高い
実務利用を想定するなら Claude の安心感は大きいです。

Gemini の評価

結果

ログイン機能周辺でデグレを繰り返す
修正すると別の箇所が壊れるケースが多発
安定してフェーズを進められず、途中で検証を中断

所感

単発のコード生成では問題ない場面もある
状態を維持しながら段階的に開発する用途には不向き
現時点では実装補助用途に留まる印象

まとめ（結論）

Codex と Claude は、修正を重ねれば実務レベルのシステムを完成させられる
両者とも 一発で動くものは作れなかった
- ただし 3〜4回の修正で仕様通りに安定動作
見た目重視なら Codex
機能・業務フロー重視なら Claude
Gemini はエージェント型開発用途では現時点では厳しい

エージェント型AIは実務で使えるか？

今回の検証から、

完全自動はまだ難しい
しかし
- 明確な設計書
- フェーズ分割
- 人のレビュー前提

この条件が揃えば、
実務に十分投入できるレベルに近づいていると感じました。

今後やるなら

途中で仕様変更を入れた場合の追従力
権限や業務ルールがさらに複雑なケース
既存コードベースへの機能追加

こうした検証を行うことで、
AIエージェントを「どこまで任せられるか」がより明確になるはずです。

この記事が、
AIエージェント導入を検討している方の参考になれば幸いです。

AI Tool Nav

エージェント型AI（Codex / Claude / Gemini）でシステム開発力を比較してみた

検証の目的

検証に使ったシステム概要

テーマ

主な機能

技術スタック（固定）

検証の進め方

結果サマリー

Codex の評価

良かった点

気になった点

総評

Claude の評価

良かった点

気になった点

総評

Gemini の評価

結果

所感

まとめ（結論）

エージェント型AIは実務で使えるか？

今後やるなら

コメントを残すコメントをキャンセル

検証の目的

検証に使ったシステム概要

テーマ

主な機能

技術スタック（固定）

検証の進め方

結果サマリー

Codex の評価

良かった点

気になった点

総評

Claude の評価

良かった点

気になった点

総評

Gemini の評価

結果

所感

まとめ（結論）

エージェント型AIは実務で使えるか？

今後やるなら

関連記事

Face Mosaic Cameraレビュー：撮影しながら顔にモザイク、写真も動画も編集できるプライバシー保護カメラ

【自作アプリ】声で案内してくれるインターバルタイマー「Voice Interval Timer」を作りました！

AIと二人三脚で挑むAndroidアプリ開発！プロンプト15回でオセロアプリを完成させた全記録

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル