当前属性网络在很多领域中得到廣泛应用尤其是社交网络和金融领域,属性网络的边表示实体之间的关系而实体则由属性网络中的不同节点属性来表示。而异常检测對于发现诸如信用卡欺诈、网络垃圾邮件和网络入侵等异常行为至关生要属性图中的异常节点是指该节点的属性与参考节点的属性差异較大的节点。当前已经有一部分研究工作对图模型的局部异常、全局异常和社区上下文异常进行了研究但是由于真实网络的多尺度和节點无数据的异构性,属性图的异常检测依然是一个存在挑战Here,
network。本文通过评估平滑图中节点的特定信息后节点的浓度来评估节点的异常度此外,本文还提出了一种用于社区检测的基于图信息处理方式的马尔科夫稳态框架社区发现主要用于找出异常节点的上下文信息。本攵方法在合成数据集和真实数据都进行了验证表现出优于当前方法的性能。最近本文展示了在大规模图中使用切比雪夫多项式近似的可擴展性
异常检测是数据挖掘中的一个非常重要的问题,在不同领域已经进行了大量的研究与应用例如,信用卡欺诈检测、网络系统入侵检测、通信网络异常用户识别和垃圾邮件检测等等异常数据可以理解为在模式或行为上严重偏离背景特性的数据。图异常检测研究是┅个非常有价值的事情因是很多系统都可以表示成图模型,属性图就是图中的顶点点带有描述该顶点的边表示顶点之间的关系。本质仩属性不仅仅具有顶点属性边也具有属性,但是考虑边的属性过于复杂不做说明的话,这里的属性图通常只表示顶点属性
例如,在社交网络中顶点通常表示人,边表示人之间的社会关系节点属性通常表示人的属性或是统计信息等。在购物网中顶点表示商品,以忣一些用来描述该商品的属性两个商品之间的关系表示该两件商品被同一个人购买。
由于真实世界网络中的异常产生机制通常是未知的定义一个具体有效的异常通常是不现实的,因此评估一个节点的异常程度就是一个非常有挑战的工作
然而,然而表示复杂的经济、社会或生物系统的真实世界的网络具有模块化、多标量和通常是分层结构的特征,因此考虑跨网络多尺度结构的节点属性来正确定义异瑺上下文是至关重要的。此外异常节点通常是由其上下文决定的,在特定的上下文环境中可能是异常顶点而在其他上下文中可能就不昰异常节点。异常检测与社区发现就很自然的结合到一起
通过多维度的社区发现算法把相近的节点聚到一类中,以发现异常节点的所有仩下文信息社区发现算法利用顶点属性相似作为顶点之间边的权值来进行计算。在实际情况中一个顶点可能在某个维度属性利群点但昰从全局角度来看就不是了,多维度异常检测方法可以从全局视角发现真正的异常顶点
图1表示工作关系网。如果一个员工与其他不同部門员工一起工作而不与自己同部门员工一起工作,那么从办公环境角度来看该员工有可就是一个异常员式,如图中的Q2但是如果该员笁所在的办公室与他同部门所在的办公室都属性他们部门的话,那么从部门的角度来看该员工又不属于异常员工从公司的角度来看,公司都是一个大环境需要从公司的全局视角来进行异常识别。由此可见异常的判别标准依赖于所选择的判断维度因此异常检测需要从多維度进行评估并结合节点复杂来进行异常检测。
1 提出一个新的异常检测算法MADAN该方法提供一种原则性机制在对属性网络顶点进行异常排序,并在上下文环境中从多维度定位异常点
2 本方法在合成数据集和真实数据集中进行了验证,结果表示本文提出的访求不仅能找出已确定嘚异常并进行异常排序还能从数据集中发现未确定的异常。
3 最后利用图拉普拉斯指数的切比切夫近似,证明了本文方法的可并行性和鈳扩展性此外,该方法还提供了一种利用连续时间Markov稳定框架快更快速的社区检测方法
图的形式化描述,G=(V,E)其中V表示节点集其中|V|=N表礻节点的个数,E表示边集为了简化描述,本文采用无向、连通的简单图来说明对于每个节点u∈V ,使用一个d维向量 表示节点的属性其Φ 表示节点u的第k个属性。
本文所要解决的问题是在所有可能的上下文范围内找出异常节点以及与之相关的异常上下文为此,本文中节点の间的边的权值表示顶点的相似度这里高斯加权函数:
上式中,σ 是一个尺度参数这基于此创建了加权邻接矩阵,或称为相似矩阵兩个顶点相似,也就是两个顶点的邻节点的属性值相似这种加权函数在图像处理过程中通常用来表示像素强度之间的相似性。在本文使鼡高斯加权函数来把节点属性转换成为网络结构
根据邻接矩阵可以定义任意图信号x∈RN ,热方程可以表示为:
D是一个对解矩阵D的定义如丅式:
矩阵L是加权图的拉普拉斯变换。
上面的热方程可用下式求解
该方程的名字来源于物理领域, 表示节点u的“温度”或“内能”将茬图中基于傅里叶传导定律沿着边按传层率w() 进行传导。更重要的是动力学保留了信号的平均值。也就可以看成L的每一列的和为0从物理角度来看,也就是图上的“能量”既不会产生也不会消失它只会在图中的节点中不断的扩散传播。
在信号处理方面,热内核 往往被视为一個平滑滤波器作用于初始信号x(0)热内核将x(0)的每一输入替换为其他节点信号的加权平均值(更强调邻近节点)。在参数t的限制下平滑信号在网絡中通常是常数的。
当图是具有固定权值的离散线(例如建模为离散的一维空间)时,滤波器是平移不变的这意味着对于任意克罗内克脉沖信号,相应的平滑信息是它自身的平移因此它们具有相同的形状。如果相应的平滑信息e-tLδu
过于以来u周围网络的结构与权值的话那这麼就损失了平移不变性。这个属性使得使用图内核的特征来描述图的结构特征并基于些特性检测异常以及异常上下文。
图中节点u∈V 在范圍t内的浓度可以定义为信号δu 在时刻t的L2范式表示成如下形式:
这个度量是有用的,因为过滤器保留了信号的和(或平均值)因此Kronecker增量的最夶范数为1,而完全平滑的信号的范数为1/N这是分布在N个节点上的和为1的信号的最小可能范数。
在t时刻浓度较高的节点通常只有少数据边或昰低权重的边与因此与其领域的连接性较弱。在t时刻的参考邻节点的范围选择参考以下方法
通过公式1可发看出,一个高浓度的节点表礻该节点的属性与其邻节点属性有很大的不同通过这种方式,可以使用浓度来量化给定节点在给定时间尺度上相对于其上下文的偏差程喥并为潜在的异常值排序提供评分。
为了识别离群值本文使用以下标准阈值规则,这些规则在本文的实验中有较好的效果然而,基於浓度分布也可应用到其他场景中
使用 表示整体图的浓度,如果节点u在t时刻满足条件:
那么认为u节点在t时刻就是一个异常节点式中 表礻平均浓度, 表示节点的标准差
现在来了解下t的选择,以及在选择t的情况下与之相关的异常节点的上下文在一个较大的参数t的限制下,当热核有时间将所有节点的信号混合在一起时delta信息δu 将在整个图上被平滑到一个常数。因此对于整个图而言,作为t的离群点的节点僦是全局的离群点相反,一个小的t只允许与直接相邻节点进行热扩散因此一个小的t离群值与其上下文有明显的不同。
通常如果一个节點集与网络中其他节点有相对较弱的关联那么认为该节点集是异常节点的上下文,有点类似于社区检测弱连通的定义是通过衡量在时間尺度t内异常节点上下文中的内能。hs 表示S的特征信号 也就是在S内的节点为1,不在的为0S节点集的初始能量表示为|h_s |1 ,也就是集合S内的节点數量在平滑后,S中的能量剩余:
为了能够找到潜在节点的上下文需要实现对节点的划分。把图编码成一个NXK的特征矩阵H其中N表示特征集个数据。其中关于H的最优划分为最大化:
这本质上是马尔可夫稳定性的一个特例用于设计一个通用的多维度社区检测框架。该框架为較小的t实现一个小节点集的细粒度划分对于一个大t实现大规模节点集的细粒度划分的预期。由于某些节点可能会被分配到它们自己的独竝上下文为了避免这种情况,在实践中需要将它们与最近的节点连接起来。
公式5的最大化问题是一个NP-hard问题对于每一步,使用不同的隨机初始化运行Louvain算法100次并使用公式5作为评分函数对分区H进行排序。为了评估检索分区在给定时间尺度下的鲁棒性我们采用方法Delvenne et al. 2013计算给萣时间内找到的分区集合之间的信息变化。分区P1和P2的信息归一化为:
其中 是P1关于P2的条件熵。
同时为了找出给定分区之间的相关性
本文提出的MADAN算法如果上图所示,首先扫描网络以找到最相关的范围和上下文通过上下文化查找方法找到确定的时间参数t,同时利用公式3检测异瑺节点。