Rovo エージェントのパフォーマンスを評価する

作成したエージェントを実行する際には、一連の評価ツールを使用してプロンプトに対する応答の品質を測定できます。

評価は次の点で役立ちます。

  • エージェントをローンチする前に問題をすばやく発見し、改善を行う

  • エージェントの異なるバージョンがプロンプトにどの程度適切に応答するかを確認する

  • エージェントに変更を加えた後で結果を比較する

エージェントのパフォーマンスを評価するには、次のことを行う必要があります。

  1. データセットをアップロードする

  2. 評価を実行する

  3. 評価結果をレビューする

データセットをアップロードする

エージェントを評価するには、データセットをアップロードする必要があります。データセットとは、エージェントの応答をテストする目的で作成された一連のプロンプトのことです。プロンプトは、顧客から問い合わせがあると予想される質問、またはエージェントに特定のアクションを実行するよう求める指示スタイルのプロンプトのいずれかです。

データセットは CSV 形式である必要があります。プロンプト用の列が 1 つ必要で、期待される応答用に 2 つ目の列を含めることができます。CSV に含めることができるプロンプトの上限は 50 個です。

データセットをアップロードするには、次の手順に従います。

  1. エージェント設定で、サイドバー ナビゲーションから [Evaluation (評価)] を選択します。

  2. [Dataset (データセット)] タブで、[Create dataset (データセットを作成)] を選択します。モーダルが表示されます。

  3. データセットに名前を付けて、CSV ファイルをアップロードします。

  4. [作成] を選択します。

データセットがページに表示されます。展開してデータセット内のすべてのプロンプトを表示し、不要なものを削除できます。

評価を実行する

データセットを用意したら、評価を実行してエージェントがプロンプトにどのように応答するかを確認できます。

評価を実行するには、次の手順に従います。

  1. [Evaluations (評価)] タブに移動します。

  2. データセットを選択します。

  3. 評価タイプを選択します。

    1. Response accuracy (応答精度): データセット内の応答に対する精度をテストします。

    2. Resolution rate (解決率): エージェントがサポート リクエストを解決する率をテストします。

    3. Manual testing (手動テスト): スコアリングなしで応答を一括生成します (手動で評価)。

    4. [Run evaluation (評価を実行)] を選択します。

一度に最大 3 つの評価を実行できます。

評価結果をレビューする

評価が完了したら、その結果をレビューしてエージェントのパフォーマンスを確認できます。

結果をレビューするには、表で評価を見つけて [View results (結果を表示)] を選択します。

場合によっては、エラーが発生し、LLM が応答を判定できないことがあります。この場合、プロンプトは解決率の計算に含まれません。LLM から判定を得るには、新たに評価を実行する必要があります。

個別の応答の詳細をレビューする

各プロンプトについて、エージェントからの応答およびスコアに対する LLM 判定の理由を確認できます。

これらの詳細を表示するには、[Review (レビュー)] 列のアイコンを選択します。これにより、[Conversation review (会話レビュー)] ページに移動し、プロンプトとエージェントからの応答を確認できます。結果を CSV にダウンロードすることもできます。

[Conversation details (会話の詳細)] パネルでは、スコアおよび LLM 判定による評価ステータスの理由を確認できます。理由には、エージェントの応答とエージェントがプロンプトにどのように対処したかについての詳細が含まれています。

 

さらにヘルプが必要ですか?

アトラシアン コミュニティをご利用ください。