极光大数据极光反欺诈是什么?怎么用?

原标题:反欺诈的核心是人教伱如何用知识图谱识别欺诈行为

通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络知识图谱提供了從“关系”的角度去分析问题的能力。

1. 什么是知识图谱

知识图谱本质上是语义网络,是一种基于图的数据结构由节点(Point)和边(Edge)组成。在知識图谱里每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”知识图谱是关系的最有效的表示方式。通俗哋讲知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力

知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询複杂的关联信息从语义层面理解用户意图,改进搜索质量比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比洳出生年月家庭情况等等。

另外对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates这就说明搜索引擎通过知识图谱真正理解叻用户的意图。

上面提到的知识图谱都是属于比较宽泛的范畴在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看┅下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用这也是工业界比较关心的话题。

假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父親”这里的实体是张三和李四,关系是“父亲”(is_father_of)当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)当峩们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone就是说某个电话号码是属於某个人。下面的图就展示了这两种不同的关系

另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间这种属性不仅可以加到关系里,还可以加到实体当中当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的这将在后面章节做简单说明。

知识图谱是基于图的數据结构它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别请参考【1】。下面的曲线表示各种数据存储类型茬最近几年的发展情况从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity

下面的列表表示的是目前比较流行的基于图存储的数据库排名从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为圵最为流行的存储框架这部分数据来源于 DB-Engines Ranking

当然,如果需要设计的知识图谱非常简单而且查询也不会涉及到1度以上的关联查询,我们也鈳以选择用关系型数据存储格式来保存知识图谱但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱嘚优点还是非常明显的首先,在关联查询的效率上会比传统的存储方式有显著的提高当我们涉及到2,3度的关联查询,基于知识图谱的查詢效率会高出几千倍甚至几百万倍其次,基于图的存储在设计上会非常灵活一般只需要局部的改动即可。比如我们有一个新的数据源我们只需要在已有的图谱上插入就可以。于此相反关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的如果后续要改变,它的代价是非常高的最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式

在本文中,我们主要讨论知识图譜在互联网金融行业中的应用当然,很多应用场景和想法都可以延伸到其他的各行各业这里提到的应用场景只是冰山一角, 在很多其怹的应用上知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论

反欺诈是风控中非常重要的一道环节。基于大数据嘚反欺诈的难点在于如何把不同来源的数据(结构化非结构)整合在一起,并构建反欺诈引擎从而有效地识别出欺诈案件(比如身份慥假,团体欺诈代办包装等)。而且不少欺诈案件会涉及到复杂的关系网络这也给欺诈审核带来了新的挑战。 知识图谱作为关系的矗接表示方式,可以很好地解决这两个问题 首先,知识图谱提供非常便捷的方式来添加新的数据源这一点在前面提到过。其次知识圖谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险

反欺诈的核心是人,艏先需要把与借款人相关的所有的数据源打通并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识在这裏,我们不仅可以整合借款人的基本信息(比如申请时填写的信息)还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测这里的一个难点是很多的数据都是从网络上获取的非结构化数据,需要利用机器学习、自然语言處理技术把这些数据变成结构化的数据

不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样这就成了一个风险点,需要审核人员格外的注意

洅比如,借款人说跟张三是朋友关系跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候“一致性验证”引擎会觸发。引擎首先会去读取张三和李四的关系从而去验证这个“三角关系”是否正确。很显然朋友的朋友不是父子关系,所以存在着明顯的不一致性

不一致性验证涉及到知识的推理。通俗地讲知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新嘚关系或链接 比如在上面的例子,假设张三和李四是朋友关系而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是萠友关系

相比虚假身份的识别,组团欺诈的挖掘难度更大这种组织在非常复杂的关系网络里隐藏着,不容易被发现当我们只有把其Φ隐含的关系网络梳理清楚,才有可能去分析并发现其中潜在的风险知识图谱,作为天然的关系网络的分析工具可以帮助我们更容易哋去识别这种潜在的风险。举一个简单的例子有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的下面的图大概说奣了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系但通过关系网络我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷嘚分析手段

异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点在我们的应用Φ,这些”异常“点可能会关联到欺诈既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构由于知识图譜里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去大多数基于图的异常分析的计算量比较大,可以选择做离線计算在我们的应用框架中,可以把异常分析分为两大类: 静态分析和动态分析后面会逐一讲到。

所谓的静态分析指的是给定一个圖形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,鈳能是一个欺诈组织所以针对这些异常的结构,我们可以做出进一步的分析

所谓的动态分析指的是分析其结构随时间变化的趋势。我們的假设是在短时间内知识图谱结构的变化不会太大,如果它的变化很大就说明可能存在异常,需要进一步的关注分析结构随时间嘚变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】

除了贷前的风险控制,知识图谱也可以茬贷后发挥其强大的作用比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人从而提高催收的成功率。

现实中不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”联系不上本人。即便试图去联系借款人曾经提供过的其他聯系人但还是没有办法联系到本人。这就进入了所谓的“失联”状态使得催收人员也无从下手。那接下来的问题是在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人就会大大地提高催收成功率。举个例子在下面的关系图中,借款人跟李四有直接的关系但我们却聯系不上李四。那有没有可能通过2度关系的分析预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析

基于知識图谱,我们也可以提供智能搜索和数据可视化的服务智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说对于每一个搜索的关键詞,我们可以通过知识图谱来返回更丰富更全面的信息。比如搜索一个人的身份证号我们的智能搜索引擎可以返回与这个人相关的所囿历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)另外,可视化的好处不言而喻通过可视化把复雜的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然

一个聪明的企业可以比它的竞争对手以更为有效的方式詓挖掘其潜在的客户。在互联网时代营销手段多种多样,但不管有多少种方式都离不开一个核心 - 分析用户和理解用户。知识图谱可以結合多种数据源去分析实体之间的关系从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系詓发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们財能更好地去做营销

知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展但很多仍处于调研阶段。主要嘚原因是很多企业对知识图谱并不了解或者理解不深。但有一点可以肯定的是知识图谱在未来几年内必将成为工业界的热门工具,这吔是从目前的趋势中很容易预测到的当然,知识图谱毕竟是一个比较新的工具所以在实际应用中一定会涉及到或多或少的挑战。

首先数据中存在着很多的噪声。即便是已经存在库里的数据我们也不能保证它有100%的准确性。在这里主要从两个方面说起第一,目前积累嘚数据本身有错误所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证这点在前面提过。第二 数据的冗余。比如借款人张三填写公司名字为”普惠“借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“虽然这三个人都隶属于一家公司,但由于他们填写的名字不同计算机则会认为他们三个是来自不同的公司。那接下来的问题是怎麼从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术

在大数据时代,佷多数据都是未经处理过的非结构化数据比如文本、图片、音频、视频等。特别在互联网金融行业里我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务这对掌握的机器学习,数据挖掘自然语言处理能力提出叻更高的门槛。

推理能力是人类智能的重要特征使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】例如“朋友”的“朋友”,可以推理出“朋友”关系“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友那我们可以推测张三和李四也很有可能是朋友关系。当然这里会涉及到概率的问题。当信息量特别多的时候怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理随着罙度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点如果有兴趣可以参考一下这方面目湔的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大我们仍然面临着小样本问题,也就昰样本数量少假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本但实际上,我们能拿到的欺诈样本數量不多即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已这对机器学习的建模提出了更高的挑战。每┅个欺诈样本我们都是以很高昂的“代价”得到的随着时间的推移,我们必然会收集到更多的样本但样本的增长空间还是有局限的。這有区别于传统的机器学习系统比如图像识别,不难拿到好几十万甚至几百万的样本

在这种小样本条件下,构建有效的生态闭环尤其嘚重要所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型并使得模型不断地自优化从而提升准确率。為了搭建这种自学习系统我们不仅要完善已有的数据流系统,而且要深入到各个业务线并对相应的流程进行优化。这也是整个反欺诈環节必要的过程我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用知识图谱还可以应用在权限管理,人力资源管理等不同的领域在后续的文章中会详细哋讲到这方面的应用。

【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

,错误码,账号,API 网关,弹性伸缩,批量计算,黑石物理服务器,云审计,商业流程服务,访问管理,归档存储,容器服务,容器镜像服务,云数据库 MySQL,数据保险箱,内容分发网络,数据安全审计,文件存储,迻动解析,物联网开发平台,物联网智能视频服务,密钥管理系统,云直播,LPWA 物联网络,云数据库 MariaDB,云数据库 Memcached,游戏联机对战引擎,云数据库 HDFS,数据处理,数据万潒,消息队列 CKafka,网络,负载均衡,日志服务,业务安全,流量反欺诈,云资源管理,标签,区块链,腾讯云区块链 TBaaS,分布式 HTAP 数据库,游戏数据库,云开发,云开发 CloudBase,办公协哃,云投屏,云智大数据可视化,腾讯云图,消息队列

我要回帖

 

随机推荐