Outcome Evaluator Kit

Systematic evaluation of agent execution outcomes across quality dimensions.

Configuration

Evaluation method

Auto-tag failures

Data Extraction

Extract 500+ records → Extracted 487 records

Records:487count/ 500count

Accuracy:94%/ 95%

Sentiment Analysis

Classify with 90%+ accuracy → Achieved 92% accuracy

Accuracy:92%/ 90%

Latency:180ms/ 200ms

Report Generation

Generate in under 5s → Generated in 7.2s

Time:7.2s/ 5s

Completeness:100%/ 100%

API Response

Sub-100ms response time → Averaged 85ms

Response Time:85ms/ 100ms

Error Rate:0.3%/ 1%

Integration Code

import { createOutcomeEvaluator } from 'agent-tools-kit/learning'

const evaluator = createOutcomeEvaluator({ method: 'multi-dimensional' })
const score = await evaluator.evaluate(execution)