ChatGPTなどを開発するオープンAIは2月18日、仮想通貨投資会社パラダイムと共同で、スマートコントラクトの脆弱性を検出・修正・悪用するAIエージェントの能力を測定するベンチマーク「EVMbench」を公式サイトで発表した。
EVMbenchは40件の監査から抽出した120件の高深刻度スマートコントラクト脆弱性で構成され、AIエージェントを3つのモードで評価する。
「検出モード」はコードリポジトリを監査して脆弱性を洗い出す能力、「修正モード」は脆弱なコントラクトを機能を維持したまま安全に書き直す能力、「エクスプロイト(悪用)モード」はサンドボックス上のブロックチェーン環境に実際に攻撃を仕掛けて資金を引き出す能力をそれぞれ測定する。
エクスプロイトモードではGPT‑5.3‑Codexが72.2%のスコアを記録しており、約6ヶ月前にリリースされたGPT‑5の31.9%から大幅に向上したという。
EVMbench発表の直前、AIが関与したとされるスマートコントラクトのインシデントが明らかになっていた。
2月15日、BaseおよびOptimismチェーン上のDeFiレンディングプロトコル「ムーンウェル」で、cbETH(コインベース・ラップド・ステークド・ETH)の価格計算式の誤りにより約178万ドルの損失が発生した。問題のコードはリスク管理会社アンシアス・ラボが作成し、GitHubのコミット記録には「Claude Opus 4.6との共著」と明記されていた。
関連: Moonwellでオラクル設定ミス、AI共著コードが関与し約2.6億円損失
セキュリティ研究者のパショフ氏はX上で「AIが生成したスマートコントラクトコードが原因となった初のDeFiインシデントではないか」と指摘している。
オープンAIはEVMbenchをAI防御活用の「行動喚起」と位置づけ、セキュリティ研究者向けに1,000万ドル相当のAPIクレジット提供とセキュリティ研究エージェント「アードバーク」のベータ拡大を表明した。
AIがエクスプロイト能力を急速に高める中、開発者がAI支援監査を実装フローに組み込めるかどうかが、DeFiエコシステム全体のリスク管理の鍵となる。
関連: ClawHubのAIエージェントにマルウェア仮想通貨盗難に警告