本文系统阐述了AI代理开发中整合人类判断的实践方法,通过金融服务案例展示如何将隐性知识转化为代理能力。重点介绍LangSmith平台的自动化评估工具和持续优化机制,强调通过专家反馈和生产数据构建测试套件,实现代理性能的迭代提升。
专题:langsmith
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 22 篇文章。
本文提供AI代理评估的完整准备指南,涵盖评估方法选择、数据集构建、工具设计及流程优化等核心环节。通过区分不同评估类型和定制化策略,帮助开发者建立系统化的评估体系。重点强调实际错误分析、持续迭代机制及基础设施排查,对LangChain等开源工具的应用实践具有指导意义。
本文系统解析深度代理评估体系构建方法,涵盖数据采集、指标分类(正确性/效率/延迟)及技术实现(Pytest/GitHub Actions/LangSmith)。通过内部测试、外部基准和自定义测试相结合,确保评估体系能精准反映实际场景需求,为模型优化提供可靠依据,助力提升代理性能与用户体验。
LangSmith Fleet推出技能功能,通过结构化知识提升代理业务适应性。支持AI生成、模板创建和手动编写三种方式,实现团队知识共享与跨平台迁移。代理按需加载技能保持高效,新增版本控制和多所有者权限功能增强协作性,是AI代理实用化的重要进展。
Moda 为非设计师提供 AI 驱动的可编辑画布平台,核心采用 Deep Agents 多代理系统并通过 LangSmith 实现可观测性。平台通过 Design、Research、Brand Kit 三大代理协同工作,结合自定义上下文表示层,解决了视觉设计缺乏标准化抽象的问题,实现高质量、品牌一致的设计输出。未来将完善内存管理并迁移至新版 Deep Ag…
LangChain 将在 Google Cloud Next 2026(拉斯维加斯)展示最新的 LangSmith 可观测、部署与 Fleet 功能,并通过分组讨论和圆桌会谈分享高性能安全代理运行时技术、开放标准与开发者体验提升方案。现场提供展位演示、社交活动以及一键在 GCP Marketplace 购买的部署渠道,为开发者提供从调试到生产的全链路支持。
LangSmith Fleet 为 AI 代理提供两种授权模型:On‑behalf‑of 让代理使用当前用户凭证,确保跨用户数据隔离;Claws 让代理拥有独立的固定凭证,适用于长期跨用户任务。系统通过通道绑定、共享机制以及人工审核,兼顾灵活性与安全性,并计划进一步细化权限控制。
Polly 现已在 LangSmith 全平台上线,提供跨页面 AI 调试助手。它能够记住对话上下文、执行实际操作(如更新提示、生成评估代码),帮助开发者快速定位长链执行记录中的故障并基于数据做出实验决策。使用快捷键即可在任意页面召唤,配置仅需添加模型 API 密钥。
LangSmith推出沙箱功能,为AI智能体提供安全的代码执行环境。该环境通过隔离技术防止恶意操作,支持快速集成与多种应用场景,如编码助手、CI测试和数据分析。其核心亮点在于安全性、可扩展性和与现有工具的兼容性。
OpenAI推出GPT-5.4 mini/nano小型语言模型,支持40万词上下文处理,推理速度提升超2倍。尽管仅使用30% Codex资源,其编码性能已接近完整模型,成为开发者新宠。但定价争议与第三方评估分歧存在。同时,子代理技术、安全代码执行框架及注意力机制研究同步推进,推动LLM应用生态发展。
LangChain 推出 `deploy cli` 工具,简化 AI 代理的部署与管理。通过命令行一键部署到 LangSmith 平台,自动构建 Docker 镜像并配置 Postgres 和 Redis 等基础设施,提升 CI/CD 集成效率。新增代理模板和管理命令,方便开发者快速构建和部署 AI 代理。
LangChain与LangSmith是构建AI智能代理的工具,支持多步骤任务处理和模型调试。它们通过链式结构和工具链提升AI的自主性和交互能力,适合开发者和研究人员进行实际应用。
LangSmith 推出 CLI 和技能系统,提升 AI 编码代理在追踪、测试和评估任务中的表现。通过动态加载技能,Claude Code 通过率从 17% 提升至 92%,CLI 提供终端操作支持。技能库包含 trace、dataset 和 evaluator,未来将持续扩展。开发者可通过命令安装并应用这些技能。
LangChain 2026年2月更新聚焦于Agent Builder新功能、LangSmith性能优化及生产监控方法,同时展示了开源进展与行业应用案例,为AI Agent开发和部署提供了实用工具与实践经验。
本文深入解析AI代理的可观测性与评估方法,强调其与传统软件的不同。通过追踪代理的执行过程,开发者可以更有效地调试推理逻辑、验证工具调用和维护上下文。文章介绍了三种核心可观测性原语和三种评估粒度,并指出LangSmith等工具在代理开发中的重要性。
LangSmith Agent Builder新增代理聊天、文件上传和工具注册系统,提升AI代理开发效率与灵活性,适用于多种实际场景,是开发者工具的重要升级。
Monday Service与LangSmith合作,构建以代码为中心的AI服务评估策略,通过离线和在线评估双层机制确保AI代理质量。核心亮点包括快速反馈循环、全面测试覆盖、代理可观测性及评估逻辑的版本控制与CI/CD集成。
LangChain 将其代理工程平台 LangSmith 推至 Google Cloud Marketplace,GCP 客户可直接在云端采购并统一计费。LangSmith 提供可观测性、评估、部署和零代码 Agent Builder 等功能,并深度集成 Vertex AI、Gemini、各类数据库及 GKE。平台支持 SaaS、混合和自托管三种部署模式,…
LangChain 1 月发布多项代理相关更新:正式上线 LangSmith Agent Builder,支持自然语言描述自动生成代理;实验结果并排对比功能帮助快速定位回归;Insights Agent 为自托管用户提供使用模式分析。开源方面,LangChain JS 1.2.13 引入动态工具和流式错误处理,并支持子代理运行进度可视化。重点强调代理可观测…
LangSmith Agent Builder 是一个用于构建 AI 代理的工具,支持从设计到部署的全流程。其核心亮点在于集成多种 LLM 模型、提供直观界面和提升开发效率,适用于研究人员和工程师。