利用 Strands Evals 的 ActorSimulator 实现多轮对话 AI 代理的真实用户模拟评估

评估单轮对话的流程已相对成熟：提供输入、收集输出、判断结果。Strands Evaluation SDK 通过帮助性、忠实度、工具使用等评估器将这一过程系统化。此前的博客已展示如何构建完整的 AI 代理评估套件，但真实使用场景往往是多轮交互——用户会在答案不完整时追问、在出现新信息时改变方向、在需求未满足时表达不满。传统的静态输入‑输出对无法捕捉这种动态性，因为每一步的用户消息取决于代理的当前回复，导致对话路径呈指数增长，人工测试难以规模化。\n\n为了解决这一难题，Strands Evaluations SDK 引入了 ActorSimulator，它通过结构化的用户模拟生成连贯且目标导向的“演员”，在多轮对话中与代理自然交互。模拟用户的关键特性包括：\n- 角色连贯性：在整个对话中保持统一的沟通风格、专业水平和性格特征。\n- 目标导向：围绕明确任务持续推进，直至目标达成或对话结束。\n- 适应性响应：根据代理的回答动态生成后续用户消息，而非遵循预设脚本。\n\n工作原理：ActorSimulator 首先依据测试用例的输入查询和可选任务描述，使用自动生成完整的用户档案（如预算敏感、经验不足的旅行者）。随后在每轮对话中，模拟器维护完整的对话历史，并依据用户档案与当前目标生成下一条用户消息。当代理仅部分满足请求时，模拟用户会补充遗漏信息；当代理提出澄清问题时，模拟用户会给出符合角色的回答，从而形成自然流畅的多轮交互。\n\n快速上手：\npython\nfrom strands import Agent\nfrom strands_evals import ActorSimulator, Case\n\ncase = Case(input="我想计划一次去东京的旅行，包括酒店和活动", metadata={"task_description": "完成旅行套餐安排"})\nagent = Agent(system_prompt="您是一位乐于助人的旅行助手。")\nuser_sim = ActorSimulator.from_case_for_user_simulator(case=case, max_turns=5)\n\nuser_message = case.input\nconversation = []\nwhile user_sim.has_next():\n agent_response = agent(user_message)\n conversation.append({"role": "assistant", "content": str(agent_response)})\n user_result = user_sim.act(str(agent_response))\n user_message = user_result.structured_output.message\n conversation.append({"role": "user", "content": user_message})\n\nprint(f"对话在 {len(conversation)//2} 轮后完成")\n\n该循环演示了如何在本地快速实验。生产环境中，可将对话数据通过 OpenTelemetry 遥测收集，并映射为 Strands Evals 会话，以供后续评估器（帮助性、忠实度、工具使用等）自动打分。\n\n自定义角色：虽然自动生成的档案已覆盖多数场景，但用户仍可手动定义角色属性（耐心水平、沟通风格、专业知识等），以验证代理在急躁专家、耐心新手等不同用户群体中的表现差异。\n\n最佳实践：\n- 根据任务复杂度设置 max_turns（3‑5 轮用于简单任务，8‑10 轮用于多步骤工作流）。\n- 编写具体任务描述，帮助模拟器明确目标。\n- 结合自动生成的广泛角色与手工定义的特定角色，形成覆盖面与深度兼备的测试套件。\n- 关注整体评估趋势而非单个对话记录，利用目标完成率和一致性反馈定位问题。\n- 从常见用例入手，逐步扩展到边缘情况和更复杂角色。\n\n作者：Ishan Singh、Jonathan Buck（AWS 高级应用科学家）以及 Vinayak、Abhishek（AI 评估与后训练基础设施负责人）。

利用 Strands Evals 的 ActorSimulator 实现多轮对话 AI 代理的真实用户模拟评估

内容评分

摘要

正文

标签