Rovo エージェントのパフォーマンスを評価する

作成したエージェントを実行する際には、一連の評価ツールを使用してプロンプトに対する応答の品質を測定できます。

評価は次の点で役立ちます。

エージェントをローンチする前に問題をすばやく発見し、改善を行う
エージェントの異なるバージョンがプロンプトにどの程度適切に応答するかを確認する
エージェントに変更を加えた後で結果を比較する

エージェントのパフォーマンスを評価するには、次のことを行う必要があります。

データセットをアップロードする
評価を実行する
評価結果をレビューする

データセットをアップロードする

エージェントを評価するには、データセットをアップロードする必要があります。データセットとは、エージェントの応答をテストする目的で作成された一連のプロンプトのことです。プロンプトは、顧客から問い合わせがあると予想される質問、またはエージェントに特定のアクションを実行するよう求める指示スタイルのプロンプトのいずれかです。

A dataset must be in a CSV format. It must have one column for prompts and may have a second column for expected responses. Your CSV can’t exceed 100 prompts.

データセットをアップロードするには、次の手順に従います。

エージェント設定で、サイドバーナビゲーションから [Evaluation (評価)] を選択します。
[Dataset (データセット)] タブで、[Create dataset (データセットを作成)] を選択します。モーダルが表示されます。
データセットに名前を付けて、CSV ファイルをアップロードします。
[作成] を選択します。

データセットがページに表示されます。展開してデータセット内のすべてのプロンプトを表示し、不要なものを削除できます。

評価を実行する

データセットを用意したら、評価を実行してエージェントがプロンプトにどのように応答するかを確認できます。

評価を実行するには、次の手順に従います。

[Evaluations (評価)] タブに移動します。
データセットを選択します。
評価タイプを選択します。
1. Response accuracy (応答精度): データセット内の応答に対する精度をテストします。
2. Resolution rate (解決率): エージェントがサポートリクエストを解決する率をテストします。
3. Manual testing (手動テスト): スコアリングなしで応答を一括生成します (手動で評価)。
4. [Run evaluation (評価を実行)] を選択します。

一度に最大 3 つの評価を実行できます。

評価結果をレビューする

評価が完了したら、その結果をレビューしてエージェントのパフォーマンスを確認できます。

結果をレビューするには、表で評価を見つけて [View results (結果を表示)] を選択します。

場合によっては、エラーが発生し、LLM が応答を判定できないことがあります。この場合、プロンプトは解決率の計算に含まれません。LLM から判定を得るには、新たに評価を実行する必要があります。

個別の応答の詳細をレビューする

各プロンプトについて、エージェントからの応答およびスコアに対する LLM 判定の理由を確認できます。

これらの詳細を表示するには、[Review (レビュー)] 列のアイコンを選択します。これにより、[Conversation review (会話レビュー)] ページに移動し、プロンプトとエージェントからの応答を確認できます。結果を CSV にダウンロードすることもできます。

[Conversation details (会話の詳細)] パネルでは、スコアおよび LLM 判定による評価ステータスの理由を確認できます。理由には、エージェントの応答とエージェントがプロンプトにどのように対処したかについての詳細が含まれています。

この内容はお役に立ちましたか?

正確ではなかった明確ではなかった関係なかった

さらにヘルプが必要ですか?

アトラシアンコミュニティをご利用ください。

コミュニティに質問