企业应该如何配置 Guance Agent Teams？

推荐按岗位和场景配置，例如 SRE Agent 负责稳定性与故障处理，Security Agent 负责风险检测与响应，FinOps Agent 负责云资源成本分析，Test Agent 负责质量保障与回归验证。每个 Agent 都可以配置独立的权限边界、知识库、工具范围和工作上下文。

Guance Agent Teams 的记忆如何管理？

Guance Agent Teams 支持会话上下文和长期知识沉淀。会话上下文用于连续分析同一次告警、故障或变更；长期知识用于沉淀历史事故、处置方案、Runbook 和最佳实践，并通过权限策略、数据脱敏和审计记录控制敏感信息访问范围。

Guance Agent Teams 如何计费？

Guance Agent Teams 按每个 Agent 包月订阅，价格为￥999 / 月 / Agent。每个 Agent 订阅赠送约 40,000 Credits / 月，约可支持 500 个复杂任务；超出部分按实际 Credits 消耗计费。Copilot 高级问答与 Agent Teams 任务执行共用同一个 Credits 池。

Guance Agent Teams 会替代 SRE 或 DevOps 团队吗？

Guance Agent Teams 更适合接管重复、密集、耗时的排查工作，例如告警初筛、日志检索、指标关联、Trace 分析、相似事故检索和复盘报告生成。业务判断、风险取舍、重大变更审批和跨团队协调仍由工程师负责。

Guance Agent Teams 如何控制生产操作风险？

Agent 默认以只读和最小权限运行。管理员可以配置工具白名单、Skill 审批、动作分级、访问范围、数据脱敏策略和高风险操作审批流，并保留完整操作记录和证据链。

可以自定义企业自己的可观测 Agent 吗？

可以。企业可以基于团队流程、工具链、权限策略和知识库配置自己的 Guance Agent，例如值班分析 Agent、发布守护 Agent、成本优化 Agent 或管理汇总 Agent。

Guance Agent Teams 能否 7×24 小时持续工作？

可以。Agent 适合承担持续巡检、告警初筛、变更观察、异常归因和周期性报告等长期任务。企业可以按场景设定触发条件、执行频率和预算边界。

Guance Agent Teams 能接入现有 DevOps 工具链吗？

可以。通过 MCP Server、OWL CLI、OpenAPI 和 A2A 协作，Agent 可以接入 Kubernetes、Terraform、CI/CD、工单、Slack、飞书、钉钉以及企业已有自动化平台。

如果 AI Agent 判断错误，如何追溯和纠正？

Guance Agent Teams 会保留分析依据、工具调用、参数、结果、审批记录和执行反馈。团队可以基于证据链定位问题来源，并将修正后的 Runbook 或知识规则沉淀回系统。

Guance Agent Teams 如何上线？

推荐从值班告警分析、核心链路故障定位、发布变更观察、云资源成本优化或日报周报生成等明确场景开始。完成角色选择、工具接入、权限配置和审批策略后，再逐步扩展到更多服务和团队。

为什么是 Agent Team，而不是普通 AI 助手？

普通 AI 助手主要回答问题；Agent Team 强调角色分工、工具调用、流程协作和结果交付。不同 Agent 可以分别承担告警分析、Trace 关联、发布变更比对、安全排查和成本优化等任务。

Guance Agent Teams 的操作是否可审计？

可审计。Agent 的工具调用、Skill 使用、参数输入、数据采样、推理过程、审批结果和执行动作都可以形成证据链，便于安全审计、故障复盘和合规检查。

Guance Agent Teams 与通用 Agent 框架有什么区别？

通用 Agent 框架更适合构建个人助手、自托管工具链或定制化自动化项目。Guance Agent Teams 面向企业可观测场景，内置指标、日志、链路、RUM、拓扑、告警和变更上下文，并强调权限白名单、审批流、审计留痕、数据治理和团队级治理能力。

哪些团队不适合直接使用 Guance Agent Teams？

如果团队只是希望做 AI 展示，而没有明确的告警分析、故障定位、发布守护、成本优化或安全响应场景，短期价值会比较有限。Guance Agent Teams 更适合已经具备基础可观测数据、服务目录、告警策略和运维流程的团队。

Agent Teams

Q: Guance Agent Teams 如何计费？

Guance Agent Teams 按每个 Agent 包月订阅，价格为 ￥999 / 月 / Agent。每个 Agent 订阅赠送约 40,000 Credits / 月，约可支持 500 个复杂任务；超出部分按实际 Credits 消耗计费。Copilot 高级问答与 Agent Teams 任务执行共用同一个 Credits 池。

你的专属 AI 团队

7x24 小时为你解决问题

从数据到决策，从分析到执行，Agent Teams 让 AI Agent 真正连接你的生产环境，成为你团队的强力同事

免费试用了解更多

待分配 frontend-proxy 5xx 与 SLO 异常 持续 32m

入口服务 5xx 突增，SLO 与 Trace 同窗口告警，等待接管。

值班SRE 值班群 最新操作触发新故障 处理人未分配

处理中 checkout-api CrashLoopBackOff 持续 18m

Pod 重启 12 次，最近一次退出码 1，日志指向 Redis 连接配置异常。

值班应用值班 处理人Yuki

待分配 payment-service 延迟升高 持续 42m

P95 延迟高于基线 2.8 倍，尚未触发 SLO 严重告警。

值班SRE 值班群 处理人未分配

重要 06/30 12:55:00（32 分钟前） frontend-proxy 5xx 与 SLO 异常

持续 32m

待分配处理人：未分配

故障详情协作记录操作记录

当前上下文 等待 AI 继承告警上下文

当前故障已带入 service、resource、namespace、timeRange 和事件 ID。

事件 4 条未恢复

Trace P99 9534ms

SLO 0.5258%

读取故障上下文 query_incident

状态流转 待分配 → 处理中 → 已解决

异常信号：故障中心已生成待分配故障

打造属于你的 AI 团队，让复杂问题迎刃而解

创建团队专属 Agent

根据团队角色和业务场景，快速创建专属 Agent。配置知识、工具和权限，让 Agent 更懂你的业务。

运维专家

性能分析师

SRE 助手

自定义 Agent

部署到你的生产环境
可以真正执行任务的 Agent

安全连接到你的生产环境，提供系统监控和工具，执行排查、分析、变更等真实任务，闭环解决问题。

连接到观测云
可以协助你进一步探索问题

深度集成观测云，访问指标、日志、链路等数据，引导你进一步分析根因，提供可行建议。

指标CPU · Memory · Load

主机信息order-service · healthy

事件近 1h · 无异常

Developer

@order-service 这台服务最近一小时运行情况如何，是否存在异常？

Coding Agent

正在关联指标、事件和主机信息...

当前状态确认

CPU5.39%

Memory46.17%

Load0.46

Disk73.6%

判定：
所有指标均在健康范围内，
未发现异常告警。

构建 Channel 将 Agent 连接到你熟悉的工作平台成为你的同事

无缝集成 Slack、飞书、钉钉、企业微信等平台，在你熟悉的环境中与 Agent 协作。

Slack

飞书

钉钉

企业微信

更多平台

与 Coding Agent 协作
帮助研发工程师快速分析定位修复线上问题

与 Coding Agent 深度协作，自动分析问题，定位代码，生成修复方案，加速线上问题闭环。

const service = OrderQueryService.getDetails(orderId);trace.query("orders").where({ status: "paid" }); SELECT * FROM orders WHERE user_id = ? LIMIT 50;span.setAttribute("db.duration", 1240); if (cache.miss) await repository.findOrderItems();metric.histogram("order.p95.latency").record(1800); await Promise.all([fetchPayment(), fetchShipment()]);logger.warn("slow sql detected", queryHash); OrderQueryService.getDetails -> queryOrderSkuListdb.statement: SELECT sku_id, price, count FROM order_item apm.linkTrace(traceId, serviceName, endpoint);slowSql.count = slowSql.count + 1; pipeline.scan(productionTraffic, errorLogs);duration.breakdown.database = 0.67; rootCause.rank(["database", "cache", "network"]);agent.context.attach(observabilitySnapshot); const p95 = quantile(latencySamples, 0.95);return composeOrderDetails(order, items, user); ordersRepository.findById(orderId, { traceId });db.pool.waiting = connectionPool.pendingCount; trace.child("mysql.query").setStatus("slow");cache.hitRate("order.details").below(0.42); SELECT order_id,total,status FROM order_summary;agent.read(span.events).filter(e => e.error); service.map("checkout").edge("mysql-primary");slowSql.topK(3).groupBy("statement_hash"); if (latency.p95 > 1500) raiseFinding("P95");profiling.cpu.attach("OrderQueryService"); queryPlan.rows_examined = 184205;indexAdvisor.suggest(["idx_order_user_time"]); timeline.mark("db", 0, 1206).mark("app", 1206, 1800);log.pattern("timeout").count(328); span.link(logs, metrics, traces, profiles);rootCause = "database query fan-out"; agent.summary.write(performanceFindings);patch.plan("add composite index").estimateImpact(); observe.prod("order-service").window("15m");notify.channel("incident-room").preview();

Production Traffic1.24M Requests

P95 Latency1.8s

Database Time67%

Error Logs328 Events

Developer

分析 OrderQueryService 在线上的实际运行情况

Coding Agent

正在关联生产环境观测数据...

已完成生产环境分析

订单服务 P95 延迟达到 1.8s，
数据库查询占总耗时 67%，
发现 3 条高频慢 SQL。

主要性能瓶颈位于
OrderQueryService.getDetails()

支持自动化
让 Agent 7x24 小时不停歇工作

通过自动化规则和任务调度，Agent 可持续监控、自动处理、生成报告，保障系统稳定运行。

触发条件（告警/定时/事件）

自动分析

执行任务

通知反馈

完成闭环

立即构建你的 Agent 团队

让 AI Agent 真正落地，成为你团队的超级同事

免费试用预约演示

Agent Teams

状态变更为

打造属于你的 AI 团队，让复杂问题迎刃而解

创建团队专属 Agent

部署到你的生产环境可以真正执行任务的 Agent

连接到观测云可以协助你进一步探索问题