タイトル:Cognition AI の Devin——「初の AI ソフトウェアエンジニア」を現実的に見る
私は過去 3 ヶ月間、Cognition AI の自律型コーディングエージェント Devin を、実際のプロジェクト(小規模な e コマースバックエンドの書き換え、レガシー Rails アプリのバグ修正スプリント、新規の Node.js マイクロサービス)で使用してきました。誇張なしで、学んだことをお伝えします。
Devin が得意なこと
Devin は、誇張されたオートコンプリート(Copilot など)やチャットボット(ChatGPT など)ではありません。これは、独自の開発環境を立ち上げ、コードを書き、テストを実行し、ステージングサーバーにデプロイすることさえできる永続的なエージェントです。最も得意とするのは、明確な受け入れ基準を持つ明確に定義された、孤立したタスクを処理することです。
例 1:React アプリでのバグトリアージ – 私は Devin に GitHub イシューを与えました:「ドロップダウンメニューがホバーアウトで閉じるが、マウスが親要素を離れるまで開いたままにする必要がある」。Devin はリポジトリをクローンし、コンポーネントコードを読み、欠落している onMouseLeave ハンドラを特定し、修正を書き、既存のテストスイートを実行し(合格)、要約付きのプルリクエストを作成しました。所要時間 12 分。PR を承認するだけで済みました。
例 2:REST API エンドポイントの作成 – 私は Devin に、「Express アプリに全文検索で PostgreSQL をクエリし、JSON を返す /search?q=term エンドポイントを追加して」と依頼しました。ルート、SQL クエリ、エラーハンドリング、およびユニットテストを作成しました。また、DB 接続プールが同時リクエスト用に設定されていないことに気づき、積極的に修正しました。このようなコンテキスト認識能力は印象的です。
Devin の弱点
Devin はシニアエンジニアの代わりにはなりません。その弱点は現実的です:
- 曖昧な要件は災害を招く。 「パフォーマンスを改善して」と言うと、Devin は不要な場所も含めてあらゆる場所にキャッシュを追加したり、エッジケースを壊す方法で関数を書き換えたりするのに何時間も費やす可能性があります。非自明なタスクには、明示的で段階的な指示が必要です。
- 大規模なコードベースに苦戦する。 Rails アプリ(20 万行以上)では、Devin はファイル構造で迷うことがよくありました。多数のファイルを開き、編集しているファイルを見失い、存在しないメソッドやクラスを参照するコードを生成しました。私は「最初に
app/services/orders/calculator.rbを見て」と誘導する必要がありました。 - ビジネスロジックの真の理解がない。 機能が存在する理由を推論できません。価格ルールが「$100 以上の注文は 10% オフ、ただしブラックフライデーは除く」の場合、Devin は明示的に指示すれば正しくロジックを書きますが、ブラックフライデーの例外がまだ有効かどうかは疑問に思いません。
- セキュリティと依存関係の問題。 Devin は、トレーニングデータで「最初の結果」だったため、非推奨の npm パッケージをインストールしたことがあります。私は手動で
package.jsonの変更を監査する必要がありました。
主要なワークフロー
- GitHub イシューからのバグ修正 – 最良のユースケース。明確な再現手順を持つイシューを割り当てると、Devin がブランチを作成し、修正を書き、PR を開きます。
- コードリファクタリング – 独立した関数(例:「この 200 行のメソッドを 3 つの小さなメソッドに分割」)に有効。モジュール間の再構築には不向き。
- ユニット/統合テストの作成 – 驚くほど堅牢。Devin は既存のテストパターン(Jest、RSpec など)を読み、模倣します。明らかなエッジケースをキャッチします。
- 環境セットアップ – Docker コンテナを起動し、依存関係をインストールし、開発サーバーを実行できます。新しいプロジェクトのオンボーディングに便利。
価格の現実
Cognition は公開価格を公開していませんが、私が参加しているチームプランは、1 席あたり月額約 $500(3 席で交渉済み)です。無料ティアはありません。個人には高額です。チームにとっては、ジュニアエンジニアよりは安いですが、お買い得ではありません。また、計算時間にも料金がかかります。Devin のクラウド環境は、作業中 24 時間 365 日稼働します。1 つの複雑なタスクで、$20-30 の計算クレジットを消費する可能性があります。
誰が Devin を使うべきか(正直に)
- 明確で文書化されたバックログを持つ独立系創業者または小規模チーム。 ボイラープレートや既知のバグに悩まされている場合、Devin は時間を節約できます。
- シニアエンジニアで、