生产环境中的 AI 智能体监控

核心思想

监控是把「拥有追踪数据」变成「真正理解系统」的关键一环。它由两类不同活动组成：聚合指标追踪回答「系统随时间在变好还是变坏」，信号检测回答「此刻该去排查哪一条具体追踪」。数据一部分来自埋点自带的延迟、成本、错误等字段，一部分来自需额外补充的评估——显式反馈信号清晰但样本有偏，隐式反馈量大但需要解读。作者建议从真实追踪出发、迭代式地把监控搭起来，而不是一次性配置到位。

本文是我们作为 Langfuse Academy 一部分发布的系列文章之一，整个系列会带你完整走一遍 AI 工程生命周期。如果你是第一次接触这个系列，从 AI 工程循环开始读最合适。

AI 工程循环简要回顾

AI 工程循环是团队持续改进 AI 系统的方式。它把生产环境里正在发生的事情（追踪、监控）与开发阶段有结构的迭代（数据集、实验、评估）连接起来。每一次上线的改进都会产出新的数据，而团队就在这个流程里不断循环。

AI 工程循环

关于这部分，你可以在这里读到更多。

监控如何融入这个循环

追踪提供了一份完整的记录，记下你的 LLM 应用所做的一切——每一次请求、每一次模型调用、每一次工具使用。监控则是你读懂这些数据的方式。它给你两样东西：一是系统性能随时间变化的持续视图，二是一种途径，让你能把值得深入排查的具体追踪记录（trace）挑出来——错误、用户行为模式，以及某些事情意外出错的情况。

两者结合，你就从「拥有数据」转向了「真正理解你的系统」——理解得好到足以去改进它的程度。

指标与信号

把监控分成两个不同的活动会有帮助，因为它们回答的是不同的问题。

聚合指标追踪告诉你事情随时间是变好还是变坏。成本、延迟、评估分数——这些会变成你可以观察、可以推敲的趋势。上周二改的那个提示词，到底有没有带来改进？随着使用量增长，质量是不是在漂移？

信号检测告诉你此刻该去看哪里。它会把值得深入排查的单条追踪记录挑出来：一个错误、一簇重试、一个在对话中途离开的用户。信号之所以有用，正是因为它挂在触发它的那条具体追踪记录上。那条追踪记录就是你理解「哪里出了问题」的起点。

指标和信号从哪里来

聚合指标和信号检测都依赖于挂在观测数据上的字段。只要你做好埋点，很多需要的信息其实早就在那儿了：延迟、由 token 推算出的成本、模型与路由的元数据、工具调用的结果、错误——这些通常无需额外对接，就会从你的客户端和供应商 API 里自动汇集过来。

在这些内置字段之外，你还要加上评估。用户反馈（显式评分，或者像会话中途放弃这样的隐式信号）、人工标注、LLM 评判器给出的分数——你可以通过手动标注追踪记录、或运行自动化评估器来得到这些数据。这些数据会汇入聚合图表，用于追踪长期趋势；也会汇入信号规则，这样当某条单独的追踪记录越过你在意的某个阈值时，它就会浮现出来。

显式与隐式用户反馈

用户反馈是最丰富的信号来源之一，但它有两种形式，各有各的取舍。

显式反馈很直接：一次点赞或点踩、一个星级评分、一条用户留下的评论。信号是明确无误的，但回应率低，而且样本有偏——不满意的用户比满意的用户更愿意回应。

隐式反馈则是从行为中推导出来的：用户是否重试了某个查询、是否与系统的回答有分歧、是否复制了某条回复、是否采纳了某条建议，或者是否在对话中途离开。它不需要用户付出任何额外努力，能产生大量数据，但这些信号是间接的，需要加以解读。这类信号可以借助自动化评估器浮现出来。

为了把这件事说得具体些，下面是一个示例应用，看它如何在显式和隐式反馈之间取得平衡：

一个例子：客服聊天机器人

一个嵌入在某 SaaS 公司帮助中心里的客服聊天机器人。用户可以在对话结束后给这次对话打分，也可以在聊天过程中的任意时刻请求转人工。

团队所采集的反馈：

显式： 对话结束时的点赞 / 点踩
隐式： 用户在对话中途请求转人工

两者都会被记录为评分，所以它们会和你的其他评估数据一起，汇入同一套仪表盘、趋势图和信号规则。至于究竟哪些反馈信号一开始就值得做成自动化评估器，可以看我们对错误分析的深入探讨。

评估器类型

要把分数挂到追踪记录上，有两类自动化评估器：

LLM 评判器（用于质量信号，或像用户分歧这样的行为模式）
基于代码的评估器（用于精确的检查，比如回复是否包含某个特定词、是否超出长度上限）。

关于这两者，更多内容可以在评估一节里找到。

从哪里开始

从小处起步，让你的监控方案建立在真实的追踪记录之上，而不是建立在「什么可能重要」这类抽象设想之上。

先动手看你的数据。 通读一遍追踪记录，留意哪些东西反复出现。在你弄清楚自己要找什么之前，是搭不出有用的监控的。
用错误分析 把值得追踪的东西挑出来。 错误分析给你一套有结构的方法，去发现追踪记录中的模式——那些反复出现、值得做成自动化评估器并持续运行的问题。
想想你这个具体的应用会以怎样的方式暴露失败。 应用专属的隐式信号——客服聊天里用户的一次分歧、流程自动化里的一次纠正——往往比通用分数更具可操作性，而且它们无需手动打标就能让问题显现。
把它当成一个迭代的过程。 一套能用的监控方案，不是配置一次就丢着不管的东西。使用模式会变化，模型会更新，新的失败模式会冒出来。持续打磨你的方案，这样你才能穿过噪声，始终盯住那些真正重要的东西。

接下来是什么

当监控把某个值得排查的东西挑出来时，你有几个选择：如果原因显而易见，就直接修复；如果它看起来像是一种模式，就把它收进数据集；如果你怀疑背后有系统性的问题，就跑一次有结构的评估。走哪条路，取决于你对原因有多大把握。

数据集：采集生产环境的追踪记录用于评估
实验：测试某个修复是否真的奏效

description	把生产环境监控拆成「聚合指标」与「信号检测」两件事：前者看长期趋势，后者定位当下出问题的具体追踪。讲清两类数据来源、显式/隐式反馈与评估器选型。
tags	clippings, ai/agent, ai/工程实践, ai/可观测性
aliases	Monitoring AI Agents in Production, AI 智能体生产监控

AI 知识库

INDEX