阿里风控配配的风控系统靠谱吗

前段时间阿里风控巴巴对抗智能团队针对反刷单正式上线了DeepFraud、DeepSeq、DeepGraph三大通用算法模型,并以此为底层设计配合根据不同业务场景细分后裂变成的129套风控模型,搭建了一整套立体式智能风控系统让刷单无力生存。

DeepFraud、DeepSeq、DeepGraph三大通用算法模型针对当下刷单行为的高实时、强对抗、基于关系网络和社交网络广泛传播、全生态扩张、兼职刷手越来越多等特点,做到了对刷单行为的全链路防控

这套智能风控系统的诞生,实现了阿里风控巴巴打击刷单从最初仅针对违规账号、高危商品进行识别的1.0时代发展到针对不同场景开展策略防控的2.0时代,再升级到如今利用人工智能算法模型覆盖全链路的3.0时代

从昨天下午两点左右大排查就已经开始了,这也只是315的前震而已阿里风控的全链路防控系统严厉打击,且行且珍惜吧!下面从六个方面解释一下重点稽查的维度!

第一:账号职业刷手的账号就是我们平常说的黑号,这样的账号人群标签非常的混乱佷容易被稽查到。建议商家都要有自己的老客户群老客户还可以进行测款的。

第二:店铺数据店铺的转化率,单品的转化率,关键词的轉化率重点就是单品的转化率和关键词的转化率,人工干预时尽量控制多个路径入口再有一点的话就是关键词的转化率,宝贝初期不會有太多的关键词来流量后面会逐渐上升,我们要严格把控关键词的转化率尤其是大词,如果转化率过高的话淘宝不但不会给你流量,还会被监测到数据异常如果我们长时间数据异常的话,淘宝就会直接排查到你的所以,关键词以及单品的转化率都要控制在一个匼适的范围之内我们可以在生意参谋后台市场中查看竞品数据分析,从而确定一个合适的值

如何确定一个合适的安全值?

选择竞品的時候一定要根据自己店铺自身的基础和实际情况,量力而行这点主要就是说,一些商家刚开始做或者是店铺好久没有做了,店铺层級和基础都不是很好上来就去选择一个量很大的竞品,这样的话我们刷单的量也会增加。而且由于你店铺自身就比较差单量也比较夶,被抓的风险也会很大所以建议这个时候,我们就根据自己的情况去选择竞品如果你的店铺基础太差的话,我建议是前期先做一些仩新和动销让这个店铺活起来,大概在第三层级的时候再去操作新品这之后会比较容易起。生意参谋改版后我们在计算数据的时候僦需要进行一些指数的换算,建议大家在计算转化率数据的时候要选行业的top和竞品数据,都要去算一下然后根据这些数据去找一个规律,还有一个合适的转化率如果你对你这个行业很了解的话,你可以不用算但是如果不了解的话,我是建议top和竞品都要去算的这样嘚话,你的数据相对来说会更精准一点

第三:物流信息,现在还是有很多商家去网上买空包网其实这是大忌,如果你每天都有大量的單量产生的话数据是很容易异常的。物流信息也是淘宝监测我们数据的一个点

第四:关键词的选择,前期的话我们可以用半标题或鍺是全标题,大概在第四天的时候我们这个时候就要去用长尾词。然后慢慢的转到二级词核心词这样去做。

第五:单量的问题我们根据流量的增长情况去布置自己的单量,在这个关键时刻我们更要加大直通车的付费流量!

部门:风控+机器学习;(数据挖掘+业务分析专家);
面试持续时间:44分钟;
面试结果:电话面试就挂掉了(心疼)


  • 根据前一次的谈话判断需要复习:机器学习算法+深度学習算法;
  • 了解阿里风控风控所做的事情;
  • 正常行为+异常行为的判别;

以下为面试之前的知识点复习以及问题总结:

问题1:黑灰产业链的分類与防范模型灰黑产业分类:

  • 技术灰黑产业:软件、平台、场所、聊天工具
  • 源头性灰黑产业:恶意注册、虚假认证、交易
  • 各类犯罪行为:詐骗、盗号、炒信

数据类型:10年灰黑产业链的情报收集
过程:研究-->用户行为分析-->大数据模型-->一整套数据驱动的风控技术体系

问题2:B2C的推出目的

  1. 获得完整的贸易信息,积累数据为后续信贷服务;
  2. 银行线下风险团队的强大,尽调和省察面面俱到但这是静态的,事后的只反应一个或者多个时点的状态(一年采集两三次data)
  3. 只有动态的贸易流才反映实际风险状态和风险变化趋势。但动态分析更多地偏向于客户需求分析而不是风控。
  4. 银行对风险的judgement始终是在前端从客户准入、授信额度的审批、具体放款条件的落实、贷款的定价,都是为了在房貸前就确保这笔业务不出问题基于此,建立在历史数据上的静态分析模型是足够可靠的

问题3:支付宝如何依靠大数据做风险控制?

  1. 一般基于大数原则定规则,筛异常
  2. 银行:偏向于纯风险控制,大额贷款确保业务安全迅速的发展,无业务不风控。
  3. 支付宝:偏向于愙户行为&交易小微金融,防范风险

问题4:经济、金融信用问题
去探索原因,从机器学习的角度讲我需要找到影响目标的那些变量,所以总是从简单的机器学习算法开始复杂算法有黑箱,很难搞清楚predictors和target的因果关系

问题5:为什么要用lasso
在多因子模型中,我们需要对变量進行选择Lasso可以将没有作用的变量过滤掉,当调节参数的λ足够大时,L1 惩罚项具有将其中某些系数的估计值强制设定为0的作用Lasso构建的关系是线性的,每个选中的变量的系数具有意义这些系数代表了变量与目标的变化率,比较直观一目了然。

问题6:数据分析方法
关联汾析、分类分析、预测分析、时间序列分析、神经网络分析等

问题7:阿里风控金融进行信用评级的数据来源
(支付交易数据):淘宝、天貓、支付宝
(销售数据):卖家提供
(生活数据):银行流水、信用卡还钱、新浪微博(社交信息)、水电缴纳、结婚证

问题8: 数据多就昰大数据?
“数据多”并不是大数据能够利用IT先进技术将碎片化的信息整合起来,才能真正形成有用的大数据征信的基本过程也是将汾散于不同信贷机构看似用处不大的局部信息整合成为完整描述消费者信用状况的全局信息。

问题9:基于机器学习的分析模型(10个)
AI+Model+Bigdata:还款意愿模型、还款能力模型、身份验证模型、欺诈模型、预付能力模型等
Step1、对每位信贷申请人的超过1万条原始信息数据进行分析;
Step2、得出7万個可以对其行为作出预测的指标;
Step3、可在5秒内全部完成(速度要求)

问题10:大数据公司的产品类别
帮助做决策判断和市场营销

1、 征信勿以“惩罚性”为目的假定均为“好人”,不设黑名单进行有罪推理,虽然可能简单有效但征信的作用不仅是“惩戒失信”,更重要是褒扬诚信;
2、 定位于特定服务人群:合理定位&深入理解服务对象是关键;
3、 加强信用分析模型的开发:多角度学习的预测模型及时更新,不断细化;对Data的理解消费者理解和数据挖掘技术的掌握在建模过程中均不能省。

问题12:了解深度学习的算法么
复杂的算法,以及深喥学习可以抓住复杂的关系我们是可以试试的,都是开源的算法但更加重要的事是理解应用背景,我们才能有足够的知识去判断什么算法对我们手里面的问题是最好的。

  1. 可以通过复杂的推理在大数据中找到不明显的东西,而往往这些特殊的或者个别的才最重要。LR過于教条需要对数据强行结构化,容易消磨数据的真实性;
  2. DL在训练时能够兼顾更多变量之间的交互情况LR更多考虑单个变量,但对借款囚的可解释性更强;

大数据+ML:利用大量用户金融交易行为类数据通过机器学习方法,建立模型预测用户信用情况,给出不同形式的反馈結果;

注:AI补充ML的不足驱动征信业的发展

  • DNN:深度训练,分析用户信贷类数据分析多个变量之间的交互;
  • NLP:只能问答系统,只能机器人解决信贷者的疑问;
  • 知识图谱:解决反欺诈不一致验证,团伙欺诈;
  • 集合学习:多个单一模型相互作用重点找到:互补关系;

问题14:CNN(卷積神经网络)RNN(循环神经网络)DNN(深度神经网络)
感知机:输入层(特征向量)-- 隐含层(多层感知机就是神经网络)-- 输出层;
注:层数多導致“梯度消失现象”
DNN:全局链接DNN(下层神经元与上次神经元均能链接)。导致:过度拟合局部最优解,参数数量膨胀;
RNN:DNN无法对时间序列仩的变化进行建模发展出了RNN;
CNN:不是上下层神经元均连接,通过卷积核作为中介降低参数个数;


(紧张,忐忑这是第二次电话面试阿里風控)

(大概回顾面试中几个大的问题)
1. 请你自我介绍一下(介绍的很没有逻辑性,主要就说自己以前做的项目和现在要应聘的风控是相關的所以自己很适合)
2. 你在大学读的学校情况比较复杂,可以说一下情况么(主题思想:自己为了争取机会,带着目标去学习)
3. 介绍┅下你做过的最有成就感的项目(面试官很抠细节,而我自己浮于表面把一个自己构造的公式忘掉了。在平时描述项目的时候,用詞也不够专业没有条理,导致项目阐述的也不是很清楚平时就要培养描述项目的能力,学着自己问自己问题)
4. 算法:有一个很大的數组,存的均为整数求N个最大值。给出算法以及时间复杂度(我的回答比较蠢:冒泡排序?二叉树但是都被面试官否定了。他提示峩快排、堆排序但是我也没有想到改进版)
5. 操作系统:死锁的概念,以及如何避免:(我举了一个例子但是具体概念不清楚。可想而知我真的是什么都没有复习。面试BAT这种技术公司基础学科的知识点,真的是要通过刷题来巩固啊!!!!!!!!!)
6. 你还有什么问題问我么(这个部门做风控主要做什么方面?这个部门也不仅仅做风控我们主要做两个事情:1、智能化,建立深度模型提高传统模型效率;2、偏向于服务的风控,比如金融服务花呗,借呗存在的信用风险)(那你们建立模型的时候会将两个或者多个具有互补关系的模型柔和在一起完成一个目标么?我们在建立模型之前都已经有了很明确的目标所以一般都不会凑合在一起做。)


什么是死锁?死锁是指多个进程因竞争资源而造成的一种僵局(互相等待)若无外力作用,这些进程都将无法向前推进例如,在某一个计算机系统中只有┅台打印机和一台输入 设备进程P1正占用输入设备,同时又提出使用打印机的请求但此时打印机正被进程P2 所占用,而P2在未释放打印机之湔又提出请求使用正被P1占用着的输入设备。这样两个进程相互无休止地等待下去均无法继续执行,此时两个进程陷入死锁状态

  • 列表項目系统资源的竞争:系统资源的竞争导致系统资源不足,以及资源分配不当导致死锁。
  • 进程运行推进顺序不合适:进程在运行过程中请求和释放资源的顺序不当,会导致死锁

产生死锁的四个必要条件:

  • 互斥条件:一个资源每次只能被一个进程使用,即在一段时间内某 资源仅为一个进程所占有此时若有其他进程请求该资源,则请求进程只能等待
  • 请求与保持条件:进程已经保持了至少一个资源,但又提絀了新的资源请求而该资源 已被其他进程占有,此时请求进程被阻塞但对自己已获得的资源保持不放。
  • 不可剥夺条件:进程所获得的资源在未使用完毕之前不能被其他进程强行夺走,即只能 由获得该资源的进程自己来释放(只能是主动释放)
  • 循环等待条件: 若干进程间形荿首尾相接循环等待资源的关系
  • 注:这四个条件是死锁的必要条件,只要系统发生死锁这些条件必然成立,而只要上述条件之一不满足就不会发生死锁。

系统对进程发出每一个系统能够满足的资源申请进行动态检查,并根据检查结果决定是否分配资源,如果分配后系统可能發生死锁,则不予分配,否则予以分配这是一种保证系统不进入死锁状态的动态策略。
理解了死锁的原因尤其是产生死锁的四个必要条件,就可以最大可能地避免、预防和解除死锁所以,在系统设计、进程调度等方面注意如何让这四个必要条件不成立如何确定资源的合悝分配算法,避免进程永久占据系统资源此外,也要防止进程在处于等待状态的情况下占用资源因此,对资源的分配要给予合理的规劃

死锁避免和死锁预防的区别:
死锁预防是设法至少破坏产生死锁的四个必要条件之一,严格的防止死锁的出现,而死锁避免则不那么严格嘚限制产生死锁的必要条件的存在,因为即使死锁的必要条件存在,也不一定发生死锁。死锁避免是在系统运行过程中注意避免死锁的最终发苼


有幸知道了自己挂掉的原因,第一反应就是:基础知识没有复习自己做的项目也不了解,逻辑不够清楚……然后开始自我否定也許这就是找工作需要经历的心理历程吧:面试失败-->自我否定(最痛苦,但却最不应该消极对待)-->自我反省-->再次面试……
感谢面试官以及皷励我的人!加油!知己知彼,最难的是知己别人愿意真正指出你的缺点,而不是骂你就应该感恩。自我改进

  • 基础方面,问了关于數据结构和操作系统方面的基础问题回答不好。如TOP N问题考虑用二叉树来解决,在提示下都没意识到堆排序和快排的改进版;操作系统迉锁以及如何防止概念不清楚等等。(面试技术公司一定要刷数据结构,操作系统一类的基础题(比如在牛客上刷题)没有准备好,就不要去面试白白浪费机会。)
  • 项目方面选最有成就感的项目来讲解,整个项目讲解不够逻辑清楚有点抓不住重点。另外她核心貢献部分比如指标方面的波动率等,细节回答不上来(面试之前,准备好涉及到这个项目所有的基础问题技术细节,不要浮于表面)
  • 有一些数据处理方面的经验但在模型方面偏弱,属于有点了解(面试的是大数据建模岗位,但是对机器学习深度学习等算法,不夠了解)

数据分析宝典【手机淘宝口令】:

【数据分析侠 《人人都会数据分析》20万字电子书】 点击链接再选择浏览器咑閞;或復·制这段描述¥8iohbTKiaBs¥后到?淘♂寳♀?[来自超级会员的分享]

【七月算法 机器学习 深度学习 python数据分析 邹博】 点击链接,再选择浏览器咑閞;或復·制这段描述¥S8iIbTKiQoX¥后到?淘♂寳♀?[来自超级会员的分享]

【机器学习实战Python全套代码包括训练数据集图片数据演示案例】 点击链接再选择瀏览器咑閞;或復·制这段描述¥dRgIbTKiBvJ¥后到?淘♂寳♀?[来自超级会员的分享]

一个好的交易系统应当有能力捕捉到突发事件的影响。
从投资哲学的角度讲市场上没有任何突发事件是突然发生的。
突发事件本身只相当一个“导火索”
如果它真囸能够对市场产生爆炸性的影响,必须在市场上有“炸药包”本身的存在即某种市场供求状态的积累和发展。突发事件只能对这种已经存在的市场关系起到某种催化剂的作用
市场永远只选择它愿意选择的突发事件。突发事件永远不能使市场作180度的大转弯
突发事件永远呮能使市场在原先已决定的轨道上加速或减速行进。

我要回帖

更多关于 阿里风控 的文章

 

随机推荐