コード生成

エージェント型AI(Codex / Claude / Gemini)でシステム開発力を比較してみた

エージェント型AIが「どこまで実務レベルのシステムを自律的に作れるのか」を確認するため、
同一の設計書・同一の技術スタックで複数のAIにシステム構築を行わせて比較検証しました。

本記事では、実際にコードを書かせて動かした結果をもとに、それぞれの特徴をまとめます。


検証の目的

近年「AIエージェントに開発を任せられるのでは?」という話題が増えていますが、

  • 本当に最後まで作れるのか
  • どれくらい人が介入する必要があるのか
  • 実務で使える品質になるのか

これらは、ある程度規模のあるシステムを作らせてみないと判断できません

そこで今回は、小規模SaaS相当のシステムを題材に比較を行いました。


検証に使ったシステム概要

テーマ

TaskFlow Lite(タスク管理+承認ワークフロー)

主な機能

  • Organization単位のマルチテナント
  • ユーザー認証(JWT)
  • プロジェクト・タスク管理
  • タスクの状態遷移(申請 → 承認 → 完了)
  • ロール(ADMIN / MANAGER / MEMBER)
  • 通知機能
  • 監査ログ
  • CSVエクスポート
  • フロントエンドUI
  • APIテスト / E2Eテスト

技術スタック(固定)

  • Backend:FastAPI
  • Frontend:React + TypeScript
  • Database:PostgreSQL
  • 実行環境:docker compose

※設計書は すべてのAIで完全に同一 のものを使用しています。


検証の進め方

  • フェーズを分割して段階的に実装
  • 各フェーズごとにローカルで動作確認
  • 問題があれば 設計を変えずに修正指示
  • 全フェーズ完了まで継続

結果サマリー

AI結果
Codex実装完了
Claude実装完了
Geminiログイン周りでデグレを繰り返し途中で断念

Codex の評価

良かった点

  • UIの見た目(色使い・レイアウト)が比較的よい
  • 初期構成や docker 周りが安定している
  • 修正指示に対する反映が早い

気になった点

  • プロジェクト → タスクの画面遷移が実装されなかった
  • 業務的な使い勝手はもう一歩

総評

「動くものを形にする力」と「見た目の完成度」が高い
PoCやUI重視の用途では扱いやすい印象でした。


Claude の評価

良かった点

  • 機能面の理解が非常に良い
  • プロジェクト → タスク → 詳細といった遷移が自然
  • ロール・権限・状態遷移の実装が安定している

気になった点

  • UIの色使いはやや地味
  • 初回から一発で動くことはなく、修正は必要

総評

業務システムを意識した実装力が高い
実務利用を想定するなら Claude の安心感は大きいです。


Gemini の評価

結果

  • ログイン機能周辺でデグレを繰り返す
  • 修正すると別の箇所が壊れるケースが多発
  • 安定してフェーズを進められず、途中で検証を中断

所感

  • 単発のコード生成では問題ない場面もある
  • 状態を維持しながら段階的に開発する用途には不向き
  • 現時点では実装補助用途に留まる印象

まとめ(結論)

  • Codex と Claude は、修正を重ねれば実務レベルのシステムを完成させられる
  • 両者とも 一発で動くものは作れなかった
    • ただし 3〜4回の修正で仕様通りに安定動作
  • 見た目重視なら Codex
  • 機能・業務フロー重視なら Claude
  • Gemini はエージェント型開発用途では現時点では厳しい

エージェント型AIは実務で使えるか?

今回の検証から、

  • 完全自動はまだ難しい
  • しかし
    • 明確な設計書
    • フェーズ分割
    • 人のレビュー前提

この条件が揃えば、
実務に十分投入できるレベルに近づいていると感じました。


今後やるなら

  • 途中で仕様変更を入れた場合の追従力
  • 権限や業務ルールがさらに複雑なケース
  • 既存コードベースへの機能追加

こうした検証を行うことで、
AIエージェントを「どこまで任せられるか」がより明確になるはずです。


この記事が、
AIエージェント導入を検討している方の参考になれば幸いです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です