观测云2月产品升级报告 | 故障中心+错误中心双擎发布,隐私保护加固与用户体验全面优化

    2026 年 2 月,我们收到不少用户反馈。我们把这些声音,一条条变成了产品更新,以下是本月最值得关注的 9 大升级亮点,每一个都为了让你的观测体验更顺滑、更贴合实际业务场景。

    01|重磅更新!故障处理不再手忙脚乱:全新「故障中心」实现一站式响应

    需求背景

    "支付服务不可用"的 P0 告警短信发到了"技术值班"群,却无人响应。老板介入时,黄金排查时间已流逝。更混乱的是紧急排障过程中,4 个 Tab(监控指标、错误日志、链路追踪、基础设施)来回切换拼凑故障全貌,却没人知道当前谁在主导处理、处理到哪一步。历史操作散落在群聊天记录里,无法追溯。

    更新说明

    原「异常追踪」现已全面升级为「故障中心」,提供一体化故障处理工作台,让每一次异常都有明确的责任人和清晰的处理轨迹:

    • 智能值班(On-Call):支持多团队轮换(工作日 A/B 团队,周末 C/D 团队)、标签匹配(DB 故障自动找 DBA)、跨时区设置(跨国团队协作)。当监控器触发异常,系统自动按规则通知责任人。
    • 自动升级策略:若故障超时未认领,自动扩大通知范围,避免遗漏:
      • T+0 分钟:持续通知值班人员
      • T+20 分钟:若状态仍为"待分配",升级通知团队负责人
      • T+60 分钟:升级通知部门经理
    • 唯一责任制:只有当前负责人能变更状态(待分配→处理中→已解决→已关闭),避免多人重复处理或互相推诿
    • 全景关联:在单一详情页内一站式查看关联的监控指标、错误日志、调用链路、基础设施状态,无需在多个 Tab 间跳转拼凑信息
    • 完整审计:每个动作、每次通知、每次交接都有据可查,为复盘提供准确依据

    如何体验?

    进入「故障中心」,当监控器触发异常时将自动生成故障事件。在故障详情页内即可完成从发现、指派、处理到复盘的闭环操作。

    02|重磅更新!全新「错误中心」让根因定位快人一步

    需求背景

    同样的 NullPointerException 在 APM、RUM 和日志里反复出现,开发团队难以判断这是新问题还是已处理问题的残余;错误分散在各处,缺乏统一跟踪手段,排查时需要在不同数据源间来回比对,处理进度难以掌握。

    更新说明

    「错误中心」全新上线,实现跨数据源错误智能聚合:

    • 统一汇聚:自动采集 APM、RUM、日志中的错误数据,打破数据孤岛
    • 智能聚合:通过算法将相同根因的错误收敛为单一 Issue,避免重复处理和告警疲劳,一眼看清错误趋势
    • 全栈详情:进入错误详情即可查看完整堆栈、关联链路拓扑、用户会话回放,从代码层到用户层快速定位根因
    • 流程管理:支持错误状态流转(待处理/处理中/已解决)与团队协作指派,实现从发现到解决的全生命周期管理

    如何体验?

    进入 错误中心,先配置投递规则设定监控范围,即可在列表查看错误趋势与概况,点击具体错误进入详情进行深度分析。

    03|长周期指标查询更流畅:大数据量场景下曲线不再"中断"

    需求背景

    有客户反馈,排查故障回溯一个月数据时,使用未加过滤的查询经常遇到曲线中段无数据的情况,看上去像指标中断,实则是因为命中对象过多导致前端无法完整渲染。虽然可以通过添加聚合函数规避,但难以要求所有用户都掌握此技巧,长周期排查体验受阻。

    更新说明

    指标分析模块新增 Top N 序列及最大返回点数选项:

    • 智能采样:查询超长周期、大范围指标时,系统支持自动按对象采样,优先展示关键时间线,避免因数据量过大导致的"假性中断"
    • 灵活配置:可自定义返回排序后的最大/最小 20/50/100/500 条数据序列,在完整性与性能间找到平衡

    • 下钻增强:新增支持点击图表数据点,下拉选择查看相似趋势指标、下钻分析或其他关联查看,从宏观趋势快速聚焦微观异常

    如何体验?

    进入「指标」-「指标分析」,在查询配置中选择「Top N 序列」,系统将在大数据量场景下智能采样展示。

    04|企业级安全再升级:SSO 登录流程加固,工作空间隐私保护更完善

    需求背景

    有客户反馈,在公共场合或共享屏幕演示时,输入邮箱进行 SSO 登录后,无需认证即可直接看到该邮箱能访问的所有工作空间列表。这在企业场景中存在信息泄露风险,可能被恶意利用进行针对性攻击或社会工程学渗透。

    更新说明

    SSO 登录流程已优化为"先认证、后展示"的更安全模式:

    • 身份验证优先:用户需先通过邮箱选择身份提供商(IdP)并完成认证
    • 受控信息展示:认证通过后,才能在受保护状态下查看可访问的工作空间列表
    • 隐私合规:彻底避免在登录前暴露用户的 Workspace 归属信息。

    如何体验?

    在登录页面点击「单点登录」,按新流程输入邮箱并完成 IdP 认证,通过后即可安全查看并选择目标工作空间。

    05|大文件 Profile 分析不再迷茫:20MB+ 文件提供友好引导与工具推荐

    需求背景

    有客户反馈,当采集的 Profile 文件解析后超过 20MB,浏览器无法在线加载,只能下载后自行分析,但用户往往不清楚该使用什么专业工具处理,体验断裂。

    更新说明

    Profiling 功能现已增强大文件处理引导:

    • 当 Profile 文件超过 20MB 时,系统新增友好提示"暂不支持在线解析,您可使用专业分析工具进行查看"(如火焰图分析器、JProfiler 等)进行本地深度分析
    • 从"无法打开"的挫败感转变为"清晰知道下一步怎么做"的顺畅体验

    如何体验?

    在「APM」-「Profiling」中上传或查看超过 20MB 的 Profile 文件,页面将自动展示下载提示与工具引导。

    06|维护状态一目了然:主机列表新增「静默」标识与筛选

    需求背景

    有客户反馈,服务器进入维护模式(Mute)后,在主机列表中无法直观识别哪些机器处于维护状态,难以快速区分正常下线与异常失联的主机。

    更新说明

    基础设施主机管理增强可视化能力:

    • 静默标识:通过 Open API 或规则创建的主机全局静默,将在主机列表显示"静默"标识,一眼识别维护中的资产
    • 快捷筛选:支持通过 df_mute 字段快速筛选处于维护模式的主机,批量管理维护中的资源
    • 避免误报:运维团队可直观判断主机状态,避免对维护中机器发出无效告警

    如何体验?

    进入「基础设施」-「主机」,查看列表中的「静默」标识列,或使用 df_mute 字段进行列表筛选。

    07|监控器与仪表板一键关联:排查效率再提升

    需求背景

    分析仪表板数据异常时,用户需要快速确认关联的告警规则配置情况。以往需要手动查找哪个监控器引用了该仪表板指标,操作繁琐且容易遗漏,无法实现从可视化分析到告警管理的无缝衔接。

    更新说明

    仪表板新增关联监控器快捷入口:

    • 一键查看:在仪表板页面即可一键查看与该仪表板关联的所有监控器,快速确认告警阈值配置与监控状态

    • 图表配置优化:为所有图表别名配置新增统一序号标识和悬停联动,直观展示多查询行配置时的对应关系,复杂图表也能清晰阅读

    如何体验?

    打开任意仪表板,点击右上角关联监控器按钮,即可查看并管理相关监控配置;在图表配置中悬停别名即可查看对应查询行关系。

    08|Logstreaming 结构化日志查看更清爽:自定义字段列表不再被 message 强制填充

    需求背景

    有客户反馈,通过 Logstreaming 接入的业务日志通常只包含自定义结构化字段(如 order_id、api_latency、status_code),本身无需 message 字段。但此前在日志查看器点击"重置为默认字段"后,系统总会自动加回 message 列,即使已在全局设置中配置了关键字段列表也无法避免,导致纯结构化数据查看时始终存在空白列干扰,浪费横向视野。

    更新说明

    日志查看器的字段重置逻辑现已优化,更尊重你的自定义配置:

    • 已配置关键字段:若你已在日志索引中设置了关键字段,重置后将严格按照你的自定义列表展示,系统不再自动注入 message 字段,确保视图与你的数据结构精准匹配
    • 未配置关键字段:若未配置关键字段,重置后默认显示 time 和 message(time 列的显示同时受独立显示时间列开关控制)
    • 灵活兜底:无论是否配置关键字段,message 字段均支持在显示项中手动移除,满足临时调整需求

    如何体验?

    进入「日志」-「查看器」,点击「显示项」-「重置为默认字段」:

    • 若你希望长期默认不显示 message,建议先在「全局配置」-「关键字段配置」-「关键字段」中配置好关键字段(仅保留你需要的业务字段),此后重置即按此列表渲染;

    • 若只需临时隐藏,直接在「显示项」-「显示字段」中移除 message 字段即可。

    09|更多体验优化与问题修复

    LLM 监测更精准

    • Trace 列表中「总 Tokens 数」现统计整条 Trace 消耗,并同步展示输入/输出 Tokens 数量,便于精确计算调用成本。

    资源目录管理更便捷

    • 新增「服务清单」列表入口。支持通过 Open API 创建、编辑、删除资源分组,账号状态(值班中/休假中)可直接编辑。

    部署版全局公告

    • 管理后台新增平台级系统公告配置,便于企业级客户统一发布维护通知。

    多项稳定性提升

    • 修复了仪表盘外部数据源克隆导入失效、宁夏站点电话告警、日志监控器 503 错误等影响日常使用的问题,整体操作流畅度显著提升。

    更多更新详见观测云二月更新日志:https://docs.guance.com/release-notes/

    每一次更新,都为了让观测更简单、更强大。每一项看似微小的体验改进,都源于我们对真实用户使用场景的深刻洞察。观测云以极微之行致广大之境 ,致力于让可观测性不仅是技术能力的堆砌,更是如丝般顺滑的操作体验。

    如果您有任何功能建议或使用反馈,欢迎立即联系我们小助手/访问官网联系我们 — 您提需求,我们改产品,让观测云成为最懂你的可观测平台。

    下月见,愿你的系统稳如磐石,查询疾如闪电!

    联系我们

    加入社区

    微信扫码
    加入官方交流群

    立即体验

    在线开通,按量计费,真正的云服务!

    立即开始

    选择观测云版本

    代码托管平台