核心思想
监控是把「拥有追踪数据」变成「真正理解系统」的关键一环。它由两类不同活动组成:聚合指标追踪回答「系统随时间在变好还是变坏」,信号检测回答「此刻该去排查哪一条具体追踪」。数据一部分来自埋点自带的延迟、成本、错误等字段,一部分来自需额外补充的评估——显式反馈信号清晰但样本有偏,隐式反馈量大但需要解读。作者建议从真实追踪出发、迭代式地把监控搭起来,而不是一次性配置到位。

本文是我们作为 Langfuse Academy 一部分发布的系列文章之一,整个系列会带你完整走一遍 AI 工程生命周期。如果你是第一次接触这个系列,从 AI 工程循环 开始读最合适。
AI 工程循环简要回顾
AI 工程循环是团队持续改进 AI 系统的方式。它把生产环境里正在发生的事情(追踪、监控)与开发阶段有结构的迭代(数据集、实验、评估)连接起来。每一次上线的改进都会产出新的数据,而团队就在这个流程里不断循环。

AI 工程循环
关于这部分,你可以在 这里 读到更多。
监控如何融入这个循环
追踪 提供了一份完整的记录,记下你的 LLM 应用所做的一切——每一次请求、每一次模型调用、每一次工具使用。监控则是你读懂这些数据的方式。它给你两样东西:一是系统性能随时间变化的持续视图,二是一种途径,让你能把值得深入排查的具体追踪记录(trace)挑出来——错误、用户行为模式,以及某些事情意外出错的情况。
两者结合,你就从「拥有数据」转向了「真正理解你的系统」——理解得好到足以去改进它的程度。
指标与信号
把监控分成两个不同的活动会有帮助,因为它们回答的是不同的问题。
聚合指标追踪告诉你事情随时间是变好还是变坏。成本、延迟、评估分数——这些会变成你可以观察、可以推敲的趋势。上周二改的那个提示词,到底有没有带来改进?随着使用量增长,质量是不是在漂移?
信号检测告诉你此刻该去看哪里。它会把值得深入排查的单条追踪记录挑出来:一个错误、一簇重试、一个在对话中途离开的用户。信号之所以有用,正是因为它挂在触发它的那条具体追踪记录上。那条追踪记录就是你理解「哪里出了问题」的起点。
指标和信号从哪里来
聚合指标和信号检测都依赖于挂在观测数据上的字段。只要你做好埋点,很多需要的信息其实早就在那儿了:延迟、由 token 推算出的成本、模型与路由的元数据、工具调用的结果、错误——这些通常无需额外对接,就会从你的客户端和供应商 API 里自动汇集过来。
在这些内置字段之外,你还要加上评估。用户反馈(显式评分,或者像会话中途放弃这样的隐式信号)、人工标注、LLM 评判器给出的分数——你可以通过手动标注追踪记录、或运行自动化评估器来得到这些数据。这些数据会汇入聚合图表,用于追踪长期趋势;也会汇入信号规则,这样当某条单独的追踪记录越过你在意的某个阈值时,它就会浮现出来。
显式与隐式用户反馈
用户反馈是最丰富的信号来源之一,但它有两种形式,各有各的取舍。
显式反馈很直接:一次点赞或点踩、一个星级评分、一条用户留下的评论。信号是明确无误的,但回应率低,而且样本有偏——不满意的用户比满意的用户更愿意回应。
隐式反馈则是从行为中推导出来的:用户是否重试了某个查询、是否与系统的回答有分歧、是否复制了某条回复、是否采纳了某条建议,或者是否在对话中途离开。它不需要用户付出任何额外努力,能产生大量数据,但这些信号是间接的,需要加以解读。这类信号可以借助自动化评估器浮现出来。
为了把这件事说得具体些,下面是一个示例应用,看它如何在显式和隐式反馈之间取得平衡:
一个例子:客服聊天机器人
一个嵌入在某 SaaS 公司帮助中心里的客服聊天机器人。用户可以在对话结束后给这次对话打分,也可以在聊天过程中的任意时刻请求转人工。
团队所采集的反馈:
显式: 对话结束时的点赞 / 点踩
隐式: 用户在对话中途请求转人工

两者都会被记录为评分,所以它们会和你的其他评估数据一起,汇入同一套仪表盘、趋势图和信号规则。至于究竟哪些反馈信号一开始就值得做成自动化评估器,可以看我们对 错误分析 的深入探讨。
评估器类型
要把分数挂到追踪记录上,有两类自动化评估器:
- LLM 评判器(用于质量信号,或像用户分歧这样的行为模式)
- 基于代码的评估器(用于精确的检查,比如回复是否包含某个特定词、是否超出长度上限)。
关于这两者,更多内容可以在 评估 一节里找到。
从哪里开始
从小处起步,让你的监控方案建立在真实的追踪记录之上,而不是建立在「什么可能重要」这类抽象设想之上。
- 先动手看你的数据。 通读一遍追踪记录,留意哪些东西反复出现。在你弄清楚自己要找什么之前,是搭不出有用的监控的。
- 用 错误分析 把值得追踪的东西挑出来。 错误分析给你一套有结构的方法,去发现追踪记录中的模式——那些反复出现、值得做成自动化评估器并持续运行的问题。
- 想想你这个具体的应用会以怎样的方式暴露失败。 应用专属的隐式信号——客服聊天里用户的一次分歧、流程自动化里的一次纠正——往往比通用分数更具可操作性,而且它们无需手动打标就能让问题显现。
- 把它当成一个迭代的过程。 一套能用的监控方案,不是配置一次就丢着不管的东西。使用模式会变化,模型会更新,新的失败模式会冒出来。持续打磨你的方案,这样你才能穿过噪声,始终盯住那些真正重要的东西。
接下来是什么
当监控把某个值得排查的东西挑出来时,你有几个选择:如果原因显而易见,就直接修复;如果它看起来像是一种模式,就把它收进数据集;如果你怀疑背后有系统性的问题,就跑一次有结构的评估。走哪条路,取决于你对原因有多大把握。
相关笔记
- 长时间运行智能体的高效编排框架 —— 长程智能体的可靠性设计,监控是其前提
- 扩展托管智能体:将大脑与双手分离 —— 生产环境中托管智能体的架构形态
- 使用 AI 智能体重构单体应用:我们学到了什么 —— 真实生产项目里使用 AI 智能体的复盘
- 不碰模型与提示词,让编程智能体更聪明 —— 把可观测性当作智能体自动进化的驱动信号