阿里搜索业务AIOps智能运维实践综述

  • 时间:
  • 浏览:0
  • 来源:大发彩神下载—大发彩神APP

随着搜索管控的统一,对智能运维能力也提出了新的要求,如保用同一套避免方案共同避免各系统的痛点难题做到AIOps能力复用,上篇文章原困 分析介绍过hawkeye优化大师及torch容量评估的实践,本篇文章主要介绍下大伙在异常检测,根因分析,冷数据及僵尸应用治理上的实践,各项实践也都取得了预期的效果。

下面分别介绍下以上难题大伙的避免方案和进展。

(2)kmon-apiserver会定时同步烽火台报警配置

(1)管理员在烽火台监控平台给指标配置异常检测算法及参数

避免方案:

背景:

目前搜索系统的监控是基于规则的阈值报警,面对周期性指标,毛刺和稀疏数据等繁杂场景难以适用,原困 大次责指标报警泛滥,给用户带来很大的困扰,于是大伙和kmon监控同学基于tisplus搜索业务平台top报警场景联合达摩院算法尝试增加异常检测进行智能报警治理报警泛滥难题。