专题:langsmith

按该标签聚合的大模型资讯列表(自动分类与标签提取)。22 篇文章。

媒体LangChain Blog2026/04/09 23:004810
人类判断提升代理决策可靠性
LangSmith实现自动化评估闭环

本文系统阐述了AI代理开发中整合人类判断的实践方法,通过金融服务案例展示如何将隐性知识转化为代理能力。重点介绍LangSmith平台的自动化评估工具和持续优化机制,强调通过专家反馈和生产数据构建测试套件,实现代理性能的迭代提升。

媒体LangChain Blog2026/03/27 22:005850
手动审查执行记录
区分评估类型差异

本文提供AI代理评估的完整准备指南,涵盖评估方法选择、数据集构建、工具设计及流程优化等核心环节。通过区分不同评估类型和定制化策略,帮助开发者建立系统化的评估体系。重点强调实际错误分析、持续迭代机制及基础设施排查,对LangChain等开源工具的应用实践具有指导意义。

媒体LangChain Blog2026/03/26 23:185850
多源数据构建评估体系
五维指标分类框架

本文系统解析深度代理评估体系构建方法,涵盖数据采集、指标分类(正确性/效率/延迟)及技术实现(Pytest/GitHub Actions/LangSmith)。通过内部测试、外部基准和自定义测试相结合,确保评估体系能精准反映实际场景需求,为模型优化提供可靠依据,助力提升代理性能与用户体验。

媒体LangChain Blog2026/03/26 00:106620
技能功能提升代理业务适应性
支持AI生成与模板创建

LangSmith Fleet推出技能功能,通过结构化知识提升代理业务适应性。支持AI生成、模板创建和手动编写三种方式,实现团队知识共享与跨平台迁移。代理按需加载技能保持高效,新增版本控制和多所有者权限功能增强协作性,是AI代理实用化的重要进展。

媒体LangChain Blog2026/03/25 01:075740
Moda 用 Deep Agents 构建多代理设计平台
Design/Research/Brand Kit 三代理协同完成视觉任务

Moda 为非设计师提供 AI 驱动的可编辑画布平台,核心采用 Deep Agents 多代理系统并通过 LangSmith 实现可观测性。平台通过 Design、Research、Brand Kit 三大代理协同工作,结合自定义上下文表示层,解决了视觉设计缺乏标准化抽象的问题,实现高质量、品牌一致的设计输出。未来将完善内存管理并迁移至新版 Deep Ag…

媒体LangChain Blog2026/03/24 05:375750
LangChain 5006 号展位现场演示最新 LangSmith 功能
分组讨论聚焦次秒冷启动、gVisor 隔离的高性能安全代理

LangChain 将在 Google Cloud Next 2026(拉斯维加斯)展示最新的 LangSmith 可观测、部署与 Fleet 功能,并通过分组讨论和圆桌会谈分享高性能安全代理运行时技术、开放标准与开发者体验提升方案。现场提供展位演示、社交活动以及一键在 GCP Marketplace 购买的部署渠道,为开发者提供从调试到生产的全链路支持。

媒体LangChain Blog2026/03/24 01:295670
LangSmith Fleet 引入 On‑behalf‑of 与独立凭证两种授权
辅助代理使用当前用户身份,独立代理使用固定凭证并可人工审核

LangSmith Fleet 为 AI 代理提供两种授权模型:On‑behalf‑of 让代理使用当前用户凭证,确保跨用户数据隔离;Claws 让代理拥有独立的固定凭证,适用于长期跨用户任务。系统通过通道绑定、共享机制以及人工审核,兼顾灵活性与安全性,并计划进一步细化权限控制。

媒体LangChain Blog2026/03/18 23:385660
Polly 已在 LangSmith 所有页面可用
支持对话持久化与实际操作

Polly 现已在 LangSmith 全平台上线,提供跨页面 AI 调试助手。它能够记住对话上下文、执行实际操作(如更新提示、生成评估代码),帮助开发者快速定位长链执行记录中的故障并基于数据做出实验决策。使用快捷键即可在任意页面召唤,配置仅需添加模型 API 密钥。

媒体LangChain Blog2026/03/17 23:517890
提供安全代码执行环境
支持AI智能体运行和验证代码

LangSmith推出沙箱功能,为AI智能体提供安全的代码执行环境。该环境通过隔离技术防止恶意操作,支持快速集成与多种应用场景,如编码助手、CI测试和数据分析。其核心亮点在于安全性、可扩展性和与现有工具的兼容性。

媒体AINews2026/03/17 13:446840
GPT-5.4 mini/nano发布
性能接近大型模型

OpenAI推出GPT-5.4 mini/nano小型语言模型,支持40万词上下文处理,推理速度提升超2倍。尽管仅使用30% Codex资源,其编码性能已接近完整模型,成为开发者新宠。但定价争议与第三方评估分歧存在。同时,子代理技术、安全代码执行框架及注意力机制研究同步推进,推动LLM应用生态发展。

媒体LangChain Blog2026/03/17 01:207850
新增 deploy CLI 命令简化代理部署
自动构建 Docker 镜像并配置基础设施

LangChain 推出 `deploy cli` 工具,简化 AI 代理的部署与管理。通过命令行一键部署到 LangSmith 平台,自动构建 Docker 镜像并配置 Postgres 和 Redis 等基础设施,提升 CI/CD 集成效率。新增代理模板和管理命令,方便开发者快速构建和部署 AI 代理。

媒体LangChain Blog2026/03/04 08:057830
Agent Builder集成新功能提升开发效率
LangSmith增强追踪与报告调度能力

LangChain 2026年2月更新聚焦于Agent Builder新功能、LangSmith性能优化及生产监控方法,同时展示了开源进展与行业应用案例,为AI Agent开发和部署提供了实用工具与实践经验。

媒体LangChain Blog2026/02/22 11:516830
代理评估需追踪推理过程
评估粒度包括单步、流程和多轮

本文深入解析AI代理的可观测性与评估方法,强调其与传统软件的不同。通过追踪代理的执行过程,开发者可以更有效地调试推理逻辑、验证工具调用和维护上下文。文章介绍了三种核心可观测性原语和三种评估粒度,并指出LangSmith等工具在代理开发中的重要性。

媒体LangChain Blog2026/02/18 16:056830
代码驱动评估贯穿开发流程
双层评估机制确保质量

Monday Service与LangSmith合作,构建以代码为中心的AI服务评估策略,通过离线和在线评估双层机制确保AI代理质量。核心亮点包括快速反馈循环、全面测试覆盖、代理可观测性及评估逻辑的版本控制与CI/CD集成。

媒体LangChain Blog2026/02/10 10:477570

LangChain 将其代理工程平台 LangSmith 推至 Google Cloud Marketplace,GCP 客户可直接在云端采购并统一计费。LangSmith 提供可观测性、评估、部署和零代码 Agent Builder 等功能,并深度集成 Vertex AI、Gemini、各类数据库及 GKE。平台支持 SaaS、混合和自托管三种部署模式,…

媒体LangChain Blog2026/01/30 10:275650

LangChain 1 月发布多项代理相关更新:正式上线 LangSmith Agent Builder,支持自然语言描述自动生成代理;实验结果并排对比功能帮助快速定位回归;Insights Agent 为自托管用户提供使用模式分析。开源方面,LangChain JS 1.2.13 引入动态工具和流式错误处理,并支持子代理运行进度可视化。重点强调代理可观测…