AI評価

AI Evaluation / AI評価セット

AI評価は、AIの出力や行動が目的、品質、安全性、コスト、業務基準を満たすかをテストする仕組みである。生成AIやエージェントを本番化する前提になる。

公式

合格ケース数 / 評価ケース数

使う場面

モデル、プロンプト、RAG、ファインチューニングのどれを採用すべきか比較できる。

注意点

正確性、根拠、形式、安全性、バイアス、ツール操作、レビュー負荷

更新日: 2026/07/04品質: Reviewedページ種別: 高品質本文出典数: 2件

この用語の意味

AI評価は、AIシステムの出力、判断、ツール利用、長いタスクの進行が、期待する基準を満たすかを継続的に測る活動である。正解がある分類タスクだけでなく、要約、検索回答、下書き、コード生成、エージェント実行なども、基準、テストケース、採点方法、レビュー担当を決めて評価する。実務では、モデル変更、プロンプト変更、データ更新、ツール追加のたびに回帰が起きるため、AI評価は一回の検収ではなく運用品質の仕組みとして扱う。正解率だけでなく、根拠、形式、安全性、禁止行動、ツール実行、レビュー負荷を評価対象に含めることで、AI機能を継続的に改善できる。

計算の考え方

見方	式・扱い	使う場面
合格率	合格ケース数 / 評価ケース数	本番投入の最低品質を見る
重大失敗率	高影響エラー / 評価ケース数	事故につながる失敗を見る
回帰率	以前合格していたが失敗したケース / 以前の合格ケース	変更影響を見る

含めるもの / 含めないもの

項目	扱い	判断理由
含める	正確性、根拠、形式、安全性、バイアス、ツール操作、レビュー負荷	実務品質の要素
含めない	一回限りの感想、デモの印象、モデル名だけの比較	再現性がない
明示する	評価ケース、採点基準、合格ライン、レビュー担当、更新頻度	継続改善に必要

何が数字を動かすか

評価品質は、代表的なケース、失敗例、採点基準、変更時の回帰テストで決まる。ケース設計 | 実際のユーザー質問や業務失敗を含める採点基準 | 何を合格とするかを人間が説明できるようにする失敗例 | 危険な例や境界例を入れると本番事故を防ぎやすい回帰 | 変更時に過去の合格ケースが壊れていないかを見る

ドライバー	数値への影響
ケース設計	実際のユーザー質問や業務失敗を含める
採点基準	何を合格とするかを人間が説明できるようにする
失敗例	危険な例や境界例を入れると本番事故を防ぎやすい
回帰	変更時に過去の合格ケースが壊れていないかを見る

こんな場面で役立つ

モデル、プロンプト、RAG、ファインチューニングのどれを採用すべきか比較できる。本番化前に、許容できない失敗をブロックする基準を設定できる。判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。 AI機能の改善を、個人の印象ではなくKPIとして運用できる。判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。

モデル、プロンプト、RAG、ファインチューニングのどれを採用すべきか比較できる。
本番化前に、許容できない失敗をブロックする基準を設定できる。判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。
AI機能の改善を、個人の印象ではなくKPIとして運用できる。判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。

実務での使い方

AI評価は、AI出力と行動を再現可能に測る仕組みである。 AI評価はリリース前の検収ではなく、変更ごとに回す品質運用である。
評価対象はモデルだけでなく、プロンプト、データ、ツール、UI、運用を含む。
代表ケース、失敗例、境界例を持たない評価は本番品質を保証しにくい。
モデルやプロンプトを変えたら回帰テストが必要である。 AI評価はリリース前の検収ではなく、変更ごとに回す品質運用である。
重大失敗率を合格率と同じくらい重視する。 AI評価はリリース前の検収ではなく、変更ごとに回す品質運用である。

判断するときの注意点

高い平均点だけで本番可否を決めない。少数の重大失敗が事業リスクになる用途では、平均スコアより危険ケースを見る。評価ケースが簡単すぎると、実運用で品質が崩れる。人間評価を使う場合は、採点者間の基準ずれを確認する。

少数の重大失敗が事業リスクになる用途では、平均スコアより危険ケースを見る。
評価ケースが簡単すぎると、実運用で品質が崩れる。
人間評価を使う場合は、採点者間の基準ずれを確認する。

一緒に見る指標

指標	役割	一緒に見る理由
生成AI	出力品質を測る対象	評価なしでは本番化しにくい
プロンプトエンジニアリング	変更効果を測る	改善の根拠になる
AIエージェント	長いタスクとツール利用を評価する	成功率だけでは不足する

具体例

マーケティングチームが、AIにキャンペーン案の下書きを作らせる。最初は担当者の主観で良し悪しを見ていたため、モデル変更後に品質が下がっても気づけなかった。チームは、ペルソナ一致、ブランドトーン、禁止表現、根拠、CTAの明確さを採点基準にし、過去の良い案と悪い案を評価セットにした。プロンプト変更ごとに合格率と重大失敗率を比較し、ブランド違反が出た場合はリリースしないルールにした。結果として改善の議論が感覚ではなく証拠ベースになった。さらに、評価ケースには良い出力だけでなく、過去に問題になった出力、境界例、禁止表現を入れた。平均点が上がっても重大失敗が残る場合はリリースしない基準を置いたため、モデル名や担当者の印象ではなく、再現可能な証拠で改善判断ができた。

似ている言葉との違い

指標	違い	一緒に見る理由
AI評価	出力と行動をテストする	本番品質を判断する
A/Bテスト	ユーザー反応を比較する	実利用後の効果を見る
監視	本番の挙動を追う	リリース後の劣化を検知する