论文标题:Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection
KPI时间序列聚类面临的挑战
- 噪声和异常:噪声是指数据采集时候带来的较小的波动。异常是指相对于序列的平均水平波动很大的数值。噪声和异常都会影响到时间序列的聚类,无论是使用特征工程还是相关性的方式做聚类。
[En]
noise and anomaly: noise refers to the small fluctuation caused by data acquisition. An anomaly is a value that fluctuates greatly relative to the average level of the sequence. Noise and anomalies will affect the clustering of time series, whether using feature engineering or correlation.*
- 振幅:kpi数据因为是在不同机器上采集的数值有可能存在一定的差异。
- 偏移:各个时间序列因为在调用链上的位置不同,所以有可能存在延迟
[En]
offset: there may be delays in each time series because of their different positions on the call chain*
提取baseline的算法流程
- 为了能解决上面提到的振幅不同的问题,所以需要进行标准化。也就是减均值除以标准差。
- 提取baseline
- 平滑极端值,也就是解决上面提到的异常的问题。平滑极端值的方法很简单,就是直接去掉相对平均值来说偏差最大的5%的数据,然后利用线性插值填充。因为经过标准化之后,序列的均值为0,方差为1,所以直接去掉绝对值最大的5%的数据,这个比例可以根据数据中异常值的数量进行改变。
- 提取baseline,可以通过简单的移动平均的方式进行提取。
T就是经过平滑极端值后的序列,B就是baseline,R就是残差。W是滑动窗口的大小,也可以根据具体情况来确定。滑动平均的方法实际上也去掉了一部分的噪声。
这个是论文中baseline、raw data、residuals的可视化,可以看到baseline清晰了很多。
相关文章
Windows安装GPU版本的tensorflow+CUDA+CUDNN(超详细)
目的:安装GPU版本的tensorflow 一、查看电脑的NVIDIA 版本是否支持CUDA 以及能够配置的CUDA 版本 方法: 在桌面空白处单击右键,打开英伟达控制面板,如果找不到可以参考如下网址...
DynaSLAM环境配置(基于ORBSLAM2 纯CPU版)
前言: 最近要开题了, 自己计划做的是ORBSLAM2结合语义信息, 如果顺利的话再买摄像头采集自己的数据. 因为是自己选的方向, 一直是一个人十分盲目的学, 越学越迷茫, 感觉还是啥都不会. 这篇文...
程序分析与优化-10 指令级并行
本章是系列文章的第十章,主要介绍CPU流水线、超标量体系架构等硬件设计,和编译器怎么使能这些功能来减少计算的时钟周期。 本文中的所有内容来自学习DCC888的学习笔记或者自己理解的整理,如需转载请注明...
动手实现深度学习(10):第五篇:解决过拟合的方法
第五篇:解决过拟合的方法 DroupOut作为抑制过拟合的一种方法,会 在每次训练的时候随机的将一些神经元失活。 左图是使用了dropout, 右图是没有使用dropout. 之所以会出现这种情况,是...
前向传播代码解析——你真的明白了吗?
我们知道预训练模型通常包括两部分:def _ init _ (self,last_conv_stride=2): 和def forward(self,x):两部分,前者主要用来继承nn.Module模...
安装opencv时报错:Could not build wheels for opencv-python which use PEP 517 and cannot be installed direc
一、问题背景 最近写一批程序,需要用到opencv里面的函数,但是导入cv2的时候,新电脑提示没有安装,所以首先安装opencv的库,直接pip install opencv-python,不过报错了...
《Go 精进之路》 读书笔记 (第一次更新)
《Go 精进之路》 读书笔记。简要记录自己打五角星的部分,方便复习巩固。目前看到p120 Go 语言遵从的设计哲学为组合 垂直组合:类型嵌入,快速让一个类型复用其他类型已经实现的能力,实现功能的垂直扩...
性能测试案例全过程方案七———购物流程(重要!!!)
性能测试案例全过程方案七-------混合场景 Ultimate Thread Group梯度线程 梯度加压测试可以使用插件:Ultimate Thread Group,通过不断加载负载,用于检验不同...
【前端技术】从零开始在github创建个人主页或技术博客
@ 1、注册github账号 2、创建个人主页专属仓库 3、了解主页框架css代码并下载 3、修改index.html文件 4、把修改好的index.html文件连同css文件夹上传到你的 usern...
国内最值得关注的10家人工智能语音识别公司
在谈人工智能的时候,一定不能不谈语音识别,语音识别是人机交互的入口,是指机器/程序接收、解释声音,或理解和执行口头命令的能力。目前国内外都有公司在语音领域有所投入,其中包括才成立几年的初创企业,也包括...
【TensorFlow基础】对于卷积神经网络中遇到的tf.nn.conv2d()函数理解和输出feature map的size求法
很多地方已讲解得十分详细,在这里把自己的理解用 几句话记录下来以后回顾用。 tf.nn.conv2d()简介 TensorFlow中函数conv2d主要实现了输入张量与设定卷积核的卷积操作,其函数形式...
maybe these locations are not writable or multiple nodes were started without increasing [node.max_local_storage_nodes] (was [1])?
1、启动elasticsearch报错,如下所示: 1 [elsearch@master elasticsearch-7.2.1]$ ./bin/elasticsearch 2 OpenJDK 64-...
基于统计和数值分析方法进行动态去除异常值
基于统计和数值分析方法进行动态去除异常值 * - 前言 - 一:拟合方法原理介绍 - 二:建立异常值检测步骤 - 三:代码实现 - 四:总结 前言 对于异常值的检验方法很多,针对不同数据集有不同的方法...
Ubuntu20.04下CUDA、cuDNN的详细安装与配置过程(图文)
Ubuntu20.04下CUDA、cuDNN的详细安装与配置过程,亲测试可用(图文) 一、NVIDIA(英伟达)显卡驱动安装 * 1.1. 关闭系统自带驱动nouveau 2.2. NVIDIA驱动安...