本文へスキップ
ビジネス用語
Evals

AI評価

AI Evaluation / AI評価セット

AI評価は、AIの出力や行動が目的、品質、安全性、コスト、業務基準を満たすかをテストする仕組みである。生成AIやエージェントを本番化する前提になる。

公式
合格ケース数 / 評価ケース数
使う場面
モデル、プロンプト、RAG、ファインチューニングのどれを採用すべきか比較できる。
注意点
正確性、根拠、形式、安全性、バイアス、ツール操作、レビュー負荷
更新日: 2026/07/04品質: Reviewedページ種別: 高品質本文出典数: 2件

この用語の意味

AI評価は、AIシステムの出力、判断、ツール利用、長いタスクの進行が、期待する基準を満たすかを継続的に測る活動である。正解がある分類タスクだけでなく、要約、検索回答、下書き、コード生成、エージェント実行なども、基準、テストケース、採点方法、レビュー担当を決めて評価する。実務では、モデル変更、プロンプト変更、データ更新、ツール追加のたびに回帰が起きるため、AI評価は一回の検収ではなく運用品質の仕組みとして扱う。 正解率だけでなく、根拠、形式、安全性、禁止行動、ツール実行、レビュー負荷を評価対象に含めることで、AI機能を継続的に改善できる。

計算の考え方

AI評価は用途ごとの採点指標と失敗率で見る。 合格率 | 合格ケース数 / 評価ケース数 | 本番投入の最低品質を見る 重大失敗率 | 高影響エラー / 評価ケース数 | 事故につながる失敗を見る 回帰率 | 以前合格していたが失敗したケース / 以前の合格ケース | 変更影響を見る

見方式・扱い使う場面
合格率合格ケース数 / 評価ケース数本番投入の最低品質を見る
重大失敗率高影響エラー / 評価ケース数事故につながる失敗を見る
回帰率以前合格していたが失敗したケース / 以前の合格ケース変更影響を見る

含めるもの / 含めないもの

AI評価は、モデル性能だけでなく、プロンプト、データ、ツール、UI、運用ルールを含む。 含める | 正確性、根拠、形式、安全性、バイアス、ツール操作、レビュー負荷 | 実務品質の要素 含めない | 一回限りの感想、デモの印象、モデル名だけの比較 | 再現性がない 明示する | 評価ケース、採点基準、合格ライン、レビュー担当、更新頻度 | 継続改善に必要

項目扱い判断理由
含める正確性、根拠、形式、安全性、バイアス、ツール操作、レビュー負荷実務品質の要素
含めない一回限りの感想、デモの印象、モデル名だけの比較再現性がない
明示する評価ケース、採点基準、合格ライン、レビュー担当、更新頻度継続改善に必要

何が数字を動かすか

評価品質は、代表的なケース、失敗例、採点基準、変更時の回帰テストで決まる。 ケース設計 | 実際のユーザー質問や業務失敗を含める 採点基準 | 何を合格とするかを人間が説明できるようにする 失敗例 | 危険な例や境界例を入れると本番事故を防ぎやすい 回帰 | 変更時に過去の合格ケースが壊れていないかを見る

ドライバー数値への影響
ケース設計実際のユーザー質問や業務失敗を含める
採点基準何を合格とするかを人間が説明できるようにする
失敗例危険な例や境界例を入れると本番事故を防ぎやすい
回帰変更時に過去の合格ケースが壊れていないかを見る

こんな場面で役立つ

モデル、プロンプト、RAG、ファインチューニングのどれを採用すべきか比較できる。 本番化前に、許容できない失敗をブロックする基準を設定できる。 判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。 AI機能の改善を、個人の印象ではなくKPIとして運用できる。 判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。

  • モデル、プロンプト、RAG、ファインチューニングのどれを採用すべきか比較できる。
  • 本番化前に、許容できない失敗をブロックする基準を設定できる。 判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。
  • AI機能の改善を、個人の印象ではなくKPIとして運用できる。 判断時は、平均点だけでなく重大失敗率、回帰率、レビュー負荷を分けて見る。

実務での使い方

  • AI評価は、AI出力と行動を再現可能に測る仕組みである。 AI評価はリリース前の検収ではなく、変更ごとに回す品質運用である。
  • 評価対象はモデルだけでなく、プロンプト、データ、ツール、UI、運用を含む。
  • 代表ケース、失敗例、境界例を持たない評価は本番品質を保証しにくい。
  • モデルやプロンプトを変えたら回帰テストが必要である。 AI評価はリリース前の検収ではなく、変更ごとに回す品質運用である。
  • 重大失敗率を合格率と同じくらい重視する。 AI評価はリリース前の検収ではなく、変更ごとに回す品質運用である。

判断するときの注意点

高い平均点だけで本番可否を決めない。 少数の重大失敗が事業リスクになる用途では、平均スコアより危険ケースを見る。 評価ケースが簡単すぎると、実運用で品質が崩れる。 人間評価を使う場合は、採点者間の基準ずれを確認する。

  • 少数の重大失敗が事業リスクになる用途では、平均スコアより危険ケースを見る。
  • 評価ケースが簡単すぎると、実運用で品質が崩れる。
  • 人間評価を使う場合は、採点者間の基準ずれを確認する。

一緒に見る指標

AI評価は、生成AI、プロンプト、ファインチューニング、AIエージェントの土台である。 生成AI | 出力品質を測る対象 | 評価なしでは本番化しにくい プロンプトエンジニアリング | 変更効果を測る | 改善の根拠になる AIエージェント | 長いタスクとツール利用を評価する | 成功率だけでは不足する

指標役割一緒に見る理由
生成AI出力品質を測る対象評価なしでは本番化しにくい
プロンプトエンジニアリング変更効果を測る改善の根拠になる
AIエージェント長いタスクとツール利用を評価する成功率だけでは不足する

具体例

マーケティングチームが、AIにキャンペーン案の下書きを作らせる。最初は担当者の主観で良し悪しを見ていたため、モデル変更後に品質が下がっても気づけなかった。チームは、ペルソナ一致、ブランドトーン、禁止表現、根拠、CTAの明確さを採点基準にし、過去の良い案と悪い案を評価セットにした。プロンプト変更ごとに合格率と重大失敗率を比較し、ブランド違反が出た場合はリリースしないルールにした。結果として改善の議論が感覚ではなく証拠ベースになった。 さらに、評価ケースには良い出力だけでなく、過去に問題になった出力、境界例、禁止表現を入れた。平均点が上がっても重大失敗が残る場合はリリースしない基準を置いたため、モデル名や担当者の印象ではなく、再現可能な証拠で改善判断ができた。

似ている言葉との違い

AI評価 | 出力と行動をテストする | 本番品質を判断する A/Bテスト | ユーザー反応を比較する | 実利用後の効果を見る 監視 | 本番の挙動を追う | リリース後の劣化を検知する

指標違い一緒に見る理由
AI評価出力と行動をテストする本番品質を判断する
A/Bテストユーザー反応を比較する実利用後の効果を見る
監視本番の挙動を追うリリース後の劣化を検知する

よくある勘違い

  • 一度評価すれば終わり、という誤解がある。モデルやデータが変われば再評価が必要である。
  • 人間が数件見れば十分、という誤解がある。代表ケースと失敗例が必要である。
  • 平均スコアが高ければ安全、という誤解がある。重大失敗を別に見る必要がある。

よくある質問

AI評価はモデル比較だけですか?

違います。プロンプト、データ、RAG、ツール、UI、運用ルールを含めて評価します。

何件くらい評価すべきですか?

用途によります。まず代表ケースと危険ケースを小さく作り、利用ログから継続的に増やします。

平均点だけ見ればよいですか?

いいえ。高影響エラーや禁止違反は平均点とは別にブロック条件として見ます。

参考・出典

参考・出典種別リンク
NIST: AI RMFtier_s開く
NIST: Generative AI Profiletier_s開く
AI評価 | YogoQ Core