DeepFlow携手某保险集团亮相SIGCOMM,展示AI可观测性于金融系统的价值

在美国计算机协会(ACM)旗舰会议 SIGCOMM 2025 的首届 Next-Generation Network Observability(NGNO)研讨会上,云杉网络与中国某保险集团共同展示了“基于 DeepFlow 智能体的 IT 健康评估和故障诊断平台”,受到全球产学研界的关注。该项目在保险行业首次完整实现了从“可视”到“维稳”再到“智能”的全阶段落地,不仅验证了 AI 时代智能体与可观测性技术结合的实际效果,也为该保险科技公司在整合科技资源、支撑服务能力、共享运营服务、创造业务价值等方面提供了关键技术支持,为金融行业 IT 转型提供了可借鉴的实施路径。

一、行业挑战:复杂金融 IT 系统下的稳定性压力

随着金融数字化转型进入深水区,保险行业 IT 系统同时面临监管合规要求提升与技术架构日益复杂的双重压力。该保险科技公司承担着为整个集团提供全方位数字化支撑的任务,并负责建设集团的统一科技底座。其云平台承载了寿险、财险、健康险等多个业务线的核心交易系统,日均处理保单超百万笔,支付网关峰值 QPS 超过 10 万。由于各子公司业务场景不同,上云架构呈现出云原生改造、分布式架构演进、多样化迁移方式并存的局面,加上容器云节点规模达到万级,运维体系面临四个主要挑战:

1. 观测盲区:系统包含 2000 多个微服务、5000 多个容器节点,技术栈涵盖传统与云原生组件,监控覆盖不足导致故障误报频繁;

2. 数据分散:现有监控、日志、告警、追踪等工具数据格式不一、缺乏统一标准,出现“保单交易失败却无法关联网络链路异常”的情况;

3. 协作效率低:各子公司运维能力存在差异,跨部门排查故障时需要人工整合多个系统数据,沟通耗时占运维总工时的 40%;

4. 应对未知故障能力弱:标准操作流程仅能覆盖约 30% 的已知故障,面对信创改造中软硬件兼容性等新型问题,常缺乏有效应对手段。

这些挑战在保险行业具有普遍性。随着信创政策推进和云原生技术普及,超过 70% 的保险机构面临“技术架构演进速度快于运维能力提升”的矛盾,系统稳定性已成为影响业务创新的关键瓶颈。

二、解决方案:构建“可视-维稳-智能”的运维体系

为应对上述挑战,DeepFlow 智能体通过“零侵扰采集、一体化数据平台、智能体驱动”三大核心能力,与保险业务场景深度结合,构建了三阶段逐步演进的运维体系:

1. 可视阶段:基于 eBPF 的全栈数据采集

由于保险核心系统对业务连续性要求极高,传统插码或重启式监控可能带来业务风险。DeepFlow 智能体借助 eBPF 技术实现无侵扰的数据采集:

● 覆盖应用、容器、网络、存储、数据库等多个维度的指标、追踪、日志和性能剖析数据,将全链路追踪覆盖率提升至原来的 5 倍;

● 通过自动化标签注入实现数据统一治理,打破数据孤岛,使跨团队协作效率提升 60%,故障定位时间缩短 90%。

2. 维稳阶段:结合混沌工程的稳定性保障

为提升对已知故障的处置效率,方案将混沌工程与智能体训练过程结合:

● 模拟实例宕机、网络抖动、版本回滚等近 50 类故障场景,进行自动注入与反馈学习;

● 自动生成多级应急预案和处置脚本,实现已知故障的快速响应,例如支付网关超时后可自动触发安全组策略回滚;

● 建立基于 SLO/SLA 的动态监控机制,将“保单交易成功率≥99.99%”等业务指标纳入监控基线,实现风险早发现、早响应。

3. 智能阶段:强化学习支持的自适应运维

通过引入大模型与强化学习技术,DeepFlow 智能体具备对未知故障的应对能力,达成“1-5-10”目标(1 分钟发现、5 分钟定位、10 分钟恢复):

● 构建运维专家模型,内置 120 多种保险行业典型故障模式。例如在 2025 年 7 月的寿险模块响应慢事件中,系统在 1 分钟内关联到服务超时与节点异常,5 分钟定位为客户端配置问题;

● 实现 7×24 小时自动巡检,提前发现潜在隐患,如提前 3 天预警“mobile-auth-sit 服务 ACK 缺失异常”,并通过建议防火墙规则优化避免业务中断;

● 支持在线学习与策略迭代,未知场景下的响应准确率每月提升约 15%。

三、实施效果:运维能力提升与业务价值体现

在项目实施 6 个月期间,通过全栈观测平台持续采集数据并进行全链路分析,验证了“可视—维稳—智能”模式对云平台稳定性与运维效率的改进效果:

除了核心指标改善,该方案还带来多方面收益:在云迁移过程中,自动化兼容性检测使开发周期缩短 30%;信创改造阶段提前识别国产化组件风险,保障平滑过渡;每年节约基础设施投入达千万级别,释放资源用于业务创新;运维人效提升 30%,事故率下降 80%,实现降本、增效与质量提升的综合效果。

四、行业意义:可观测性从技术概念走向业务支撑

该案例反映出一种趋势:随着金融行业数字化转型深入,全栈可观测性已不仅是运维工具,更成为保障业务连续性、满足合规要求和推动效率提升的关键基础设施。

对保险行业而言,落地可观测性需关注三个方面:一是技术与业务场景紧密结合,确保方案贴合保单交易、支付结算等实际流程;二是平衡合规要求与运维效率,通过智能化降低操作成本;三是加强生态合作,如云杉网络与清华大学、北京大学共同举办的第一届 NGNO 研讨会,正是希望通过产学研协同推进技术落地。

正如 SIGCOMM 2025 NGNO 研讨会主席、清华大学张晗教授所说:“DeepFlow 智能体在保险集团的实践,体现了下一代网络可观测性技术的实际价值——它不仅解决技术层面的问题,也为金融机构的数字化转型提供了重要支撑。”

结语

从该保险集团的 IT 健康评估与故障诊断平台实践,到全球金融机构的关注,DeepFlow 智能体的落地标志着保险运维向智能化防御阶段迈进。随着 AI 大模型与可观测性技术的进一步融合,预计更多保险机构将借助这类以业务为导向、合规可落地、效果可衡量的方案,应对数字化转型中的系统稳定性挑战,实现系统可靠、业务增长与合规达标的综合目标。

(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。)

广告等商务合作,请点击这里

本文为转载内容,授权事宜请联系原著作权人。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开