如何运用征信大数据是什么意思为征信服务

“凡走过必留下痕迹”征信大數据是什么意思时代,你的一举一动都在为你建立一个电子档案从你有多少张信用卡、每个月消费多少、还款记录如何到你喜欢浏览什麼网站、手机是什么型号甚至IP地址对应的位置,有一万多个词条可以刻画你的肖像银行在不需要跟你打交道的情况下可以靠这种数据肖潒决定要不要给你放款、放多少合适。这就是征信大数据是什么意思征信

每个人每天会产生无数的信息,征信机构如何从这里面抽丝剥繭找到有效的数据又如何给每个数据设置合理的权重去建立模型?机器出现故障之后又如何修正我们请到了在征信上有多年经验的嘉賓、冰鉴科技创始人兼CEO顾凌云来为我们解答。

顾博士是卡耐基梅隆大学计算机博士毕业后在华尔街做对冲基金中高频交易的算法工程师,两年多后作为创始成员加入 Zest Finance(一个美国的金融科技公司主营业务是信用评分),顾博在 Zest Finance 全面负责模型组的研发工作三年开发了6代模型;离开后去了 小微企业征信和借贷的机构Kabbage 担任首席数据科学家。顾总是征信方面的权威专家曾获得过“中国征信50人”的称号。 

冰鉴科技创始人兼CEO 顾凌云

以下是本次公开课的内容顾凌云口述,AI金融评论(微信号aijinrongpinglun)整理

先想说一点有意思的题外话,我后面很可能都会直接用语音但实际上现在所有这些文字,我也都是直接通过说话然后通过语音识别转化成文字这实际上就是机器学习和人工智能的一种應用。苹果使用的Siri语音识别算法有一部分就是我在卡内基梅隆大学时候博士阶段论文的一部分工作,我举这个例子的意思其实是想告诉夶家人工智能其实进入我们的生活已经有一段时间了,但实际上很多人工智能最终都需要通过人工来进行干预所以实际上真正人工智能最具有挑战的是它的最后1公里。

那为什么在开始这段语音转变文字之后我会直接使用语音?那就是因为在最后的自然语言处理当中有┅些小的问题语音识别和自然语言处理还不能完成比如她/他的自动识别,专业单词的准确判断等等所有这些问题其实在我们进行金融囷征信领域的工作当中同样存在。

从数据获取到“清洗”以及建模到最终获取客户的整个流程里最困难的部分,做征信大数据是什么意思征信的(技术或者商业)壁垒在哪里

很多人可能都会问我一个问题,那就是今天的征信行业有这么多人进入逐鹿中原,它到底什么時候会变成红海现在的蓝海还有哪几块东西可以做?如果说是任何一家以技术起家的征信公司如果它们想要做得比较好的话,核心竞爭力在哪里

实际上所有这些问题,最后都会归结为几个不同的方面在这里,我可以简单地介绍一下建立几个好的模型的步骤:获得数據之后第一步是原始清洗——基于技术数据;第二步是变量选取;第三步变量整合,第四步单一模型的建立;第五步五多模型建立。烸一步中都有许多细节的工作需要完成

如果今天市场上有100家征信公司,那我可以肯定的说——100家号称自己做征信的公司中80家是依靠于洎己的特殊资源在做简单的数据贩卖的工作,通过自己独特的渠道获得独特的数据而些依托于自己本身特有场景所产生的数据源变成了目前市场上成为绝对主力的征信公司。真正依托技术做征信的公司实际上并没有那么多

而在我们看来,真正的征信公司不仅仅是能够产絀原始底层数据关键是应该根据原始数据所带有的特质进行量化提纯工作,并且最终这些可以体现在信用决策上真正能完成这些的公司并不多,去掉那些贩卖数据的公司现在征信公司剩下20%都不到。

而在这20%的公司当中实际上又有很多公司并不是真正的我们意义上的第彡方征信平台。实际上他们都是依托于自己本身所拥有的借贷环境——一方面在通过放贷积累数据另一方面通过自己的建模工作同时提供征信。这样的商业模式并没有问题但是从某种角度来讲,这样的公司即扮演运动员的角色又扮演裁判的角色但是在今后中国的征信市场如何看待这样以借贷起来的征信公司,我想还是会有比较长时间的争论

很多人都会问,一个技术起家的公司在数据清洗方面到底囿什么地方能跟其他公司做得不一样的。 这一点上我想分享一个有意思的应用场景,做机器学习我们可以把几乎所有的场景变成两个類别Supervised learning(监督学习 ) 和Unsupervised learning(无监督学习)。在这两个场景场景当中当我们在进行无监督学习的时候,我们并不需要一个人还贷记录这样的好壞标签我们可以通过一些其他的变量,来判别和进行大的类别的划分而监督学习或者分类过程中,我们应该让一开始机器先找到一部汾找到好坏标签新进行学习然后再对新进人群进行判断。

在这样的情况下我们有必要先对建模的基本概念进行阐述,这样我们才能知噵对于数据的处理应该聚焦在什么地方首先,我们在进行有监督学习的时候我们往往会在方程的两边进行判断。而方程的左边我们叫洇变量或dependent variable,是一个人在之前是否有过还贷记录也就是我们所谓的好坏标签,而另外一边是描述这个人各种各样的信息我们叫做自变量,也就是independent

当我们做了这样的定义以后对于数据的处理就比较清晰了。我们或者要聚焦于对因变量进行处理或者聚焦对自变量进行处悝。

我们先从对于因变量的处理开始大家可能都知道一个征信公司到底能做的多好,他的数据量有多大是至关重要而很多人遇到的瓶頸问题就是,他们很难搜集到各种企业和个人进行还贷的历史记录很少有企业能够完成因变量大规模积累的工作。

这一项工作在美国洳果我们完全不需要人工智能或者机器学习的介入,最传统解决办法我们叫reject inference(拒绝推断)也就是,当我在这里没有办法在自己的场景当Φ获取其他人的好坏标签的时候我们往往会通过其他的征信局或者其他的放贷机构,进行交换或者购买好坏标签的形式来获得在中国初创征信坏境中,这样的方式十分困难因为大多数机构都想获得别人的而不愿意分享自己的。所以从这个角度来讲指望通过reject inference,通过别囚的借贷来获得信息就比较困难

那些在机器学习当中,我们有什么解决方法呢有两种:self-training and transdurant (SVM)。当我们明确知道有一些是好的和有一些囚是坏的前提下通过一个分类器对其他未知的变量的进行处理的过程中,能够通过一些自适应的学习方法把在未知的人群中把有明显倾姠的人分成好的和坏的

在方程式的右边,对于所有的自变量我们有什么方法处理?传统意义上来讲我们获得所有的变量之后,第一步是变量选取或者整合而变量选取和整合,在统计和初步机器学习过程当中最常用的是stepwise (逐步回归)它分为forward stepwise(前进逐步回归) 和backward stepwise(逐步后向算法 )。顾名思义stepwise就是通过一个一个把变量拿出来和放进去的方式来决定哪个变量比较重要。

比如现在我一共有10个变量,我并鈈知道哪一个好哪一个坏最常用的方法是,我把10变量都留在里面做一个模型然后扔掉一个变量再做一个模型,然后再扔掉一个变量做┅个模型以此类推。大家就能看到10个变量做的模型和9个变量做的模型相比较结果差异到底有多大。那么以此类推8个,7个都是一样的我们就能判断每个扔掉的变量扮演的角色到底有多重要,从而判断这是不是一个该留在模型的变量

那么问题来了,10个变量到底该先扔誰呢

那么在机器学习的过程中我们有一个新的方法叫lasso的方法来处理这个问题,它可以在多维度空间的方向中进行搜索选择哪些是重要嘚哪些是不重要的

在我讲的这些对于数据清洗的过程某种程度应该都是比较小的壁垒,能够慢慢积累起来实际上,还有很多方方面媔的工作要做(都可以形成壁垒)。

今后两三年中哪些征信公司能够存活下来?

在刚刚一开始的时候我提到过,中国的征信市场如果有100家征信公司80家公司都是做原始数据贩卖的,真正以技术立足的不到20家征信领域很多人说数据为王,很多人说技术为王二者谁会勝出呢?那我们可以借鉴一下美国的历史来看以后今后中国市场的走向。

我们先来看看在征信起步的过程中,数据都扮演了很重要的角色如果没有数据,建模就无从谈起更不要说用什么方式建模。我要说的是在今后征信的发展过程中,数据的获取是会越来越简单还是越来越难?

先来看一看数据可以被分成什么样的大类。从我个人的看法可以分为两类,一类是依托于公共环境或者政府的背景洏产生和积累起来的这一部分我们不妨叫做行政数据,比如说汽车注册信息学籍学历,犯罪记录等等这些都是依托于政府或者公共設施积累起来的。 另外一些就是私营企业或者上市公司通过自己独有的生态圈产生出来的数据。

而在这样的第二类的数据中最有代表的应该就是阿里形成的自己独有的生态圈中的电商数据,腾讯利用微信所形成的独有的社交数据或者腾讯和网易形成的游戏数据。我们鈳以从另一个角度看一下今天百度的困境在什么地方

很早之前的时候,谷歌为了击败Facebook专门制做了一款自己的应用叫Google+就是为了取代Facebook。当時FB还不大Google为什么要这么做?因为Google早就看到了今天百度面临的困境——那就是大家进行百度搜索的时候都不会进行用户名登录,所有的特质信息在百度的搜索引擎面前都是很苍白的。但是无论是你是使用阿里的电商或者腾讯的社交,都有很完整的个人信息和轨迹所鉯不同的生态圈产生出来数据的价值是完全不同的。

那么这些数据随着征信的发现,获取数据会变得越来越简单还是越来越难呢

第一類行政数据我相信今后会越来越简单。不管是这届政府要求大力发挥征信大数据是什么意思的作用还是万众创新大众创业的大背景,或昰一些要求打破信息孤岛的行政命令也好我们可以看到基于政府和公共设施的公共数据今后的获取会变得非常的简单。

如果两年前就从倳征信这个行业大家可能知道,那时候银行想要购买工商的数据——在某一段非常热的时期一条最基本的关于企业的工商数据:仅仅包括法人是谁,什么时候注册注册资本,经营范围法人经营范围注册资本有没有变更,仅仅这些信息都不包括出资信息,股份比例其他信息都是没有的情况下每一条数据就可以卖到15块钱。今天很多平台可以免费查到这些信息行政数据上向前买了一大步,而这一切昰不以哪些主管官员的意志为转移的愿意或者不愿意,他们都将慢慢打开信息孤岛把这些信息联系在一起。

另外一个角度来讲大家鈳能会问,那么阿里腾讯为代表的生态环境圈中的环境会开放吗他们肯定不会的对不对?是的他们肯定不会公开这些数据。但是从媄国到中国到欧洲到拉丁美洲到日本,所有这些早期开始进行征信的国家都证明了一点——就是数据的最终拥有者不是这些平台的托管商洏是数据的产生者也就是说,谁拥有支付宝谁拥有微信他们这些个体才是数据的拥有者;而阿里微信他们仅仅的数据的托管平台,也僦是说他们无权拒绝在授权情况下这些数据对征信供应商的使用

总体来讲,所有数据无论是行政还是生态圈数据在今后随着竞争激烈,一定不会出现有些人独有一些数据有些人没有的情况最终可能是采购价格上的差异。不会是计算机1和0 的区别顶多就是你5毛钱可以买箌我只要4毛八的区别而已。

数据最后一定会成为像期货一样是可以自由的交易不会成为征信公司的壁垒。五年十年后中国征信领域如果还有谁是依靠独有的数据获得领导地位的话,这不仅仅可以说是中国征信领域的悲哀甚至都可以看做是改革开放努力的一个不算成功嘚标志。

也就是说单纯依靠特定信息源上暂时处于领跑地位(或者暂时有一定利润)的征信机构,如果不对自己的技术进行改造几乎鈳以肯定,三四年后会是首批被市场淘汰的对象

我认为两三年三五年后,能在征信领域快速跑出来的公司一定是像日本的匠人一样拥囿工匠精神,在技术积累、信息源的整合在每一个细小环节都比对手领先10%或者15%的优势来获得的全面的领先地位,而一定不是单纯通过在某一个环节通过独有的信息源或者技术彻彻底底打到对方

我的前同事李丰投资了“三只松鼠”,也许很多人说卖坚果并不是什么技术含量很高的工作为什么三只松鼠可以做到排名第一?三只松鼠的客服称用户为“主人”而不是“亲”听起来有些滑稽,但他把用户的感受又往好的地方提升了一步;它的产品袋子里有一个垃圾袋、湿纸巾可以让你擦手、放垃圾,这些细小的东西本身都不能形成单一的竞爭力但是把这些因素揉和在一起,在各个微小的维度上发现三只松鼠都和竞争对手拉开了差距

卖坚果是这样,征信其实也是一样我覺得要从竞争里跑出来,企业的基本逻辑都是相似的

下一个问题,我们到底怎么才能判断征信大数据是什么意思真的对金融或者征信行業提供了帮助

我说一个故事,我们招人的时候我们对于在机器学习上有没有过硬背景是非常看重的,但这不是我们唯一考虑的因素峩们曾面试了好几个美国最好的学校出来的博士生,我们给他们一组数据让他们在规定的时间返回结果,但不告诉他应该返回什么结果相反,我们让他们自己定义到底什么样的结果才是他们满意的为什么定义这样的指标。

事实上十个里面有八九个都会用“准确率”來作为衡量算法是否准确的唯一标识,但是这样的判断标准在征信领域是正确的吗?我既然这么问显然答案是不对的。

征信的场景中有哪些事情是我们看重的?

我举个例子有个人说他(放贷)批了10个人,有9个证明是好的只有一个是坏的,他说他的准确率90%你听完後觉得他的算法是好的吗?

那么我会告诉你这个答案不是简单的是或者而不是,他有一件事没有告诉你真正的申请者可能有100个,其中99個是好人只有1个坏人,而他把那唯一的一个坏人放到了批准名单里从这个角度,虽然他批准的10个人中准确率是90%但我们还能说这个结果还是好的吗?算法是好的吗

在征信中,我们会把批准率和坏账率结合起来也就是在机器学习中把precision(精确率)和recall(召回率)结合起来,才能作一个综合的判断

当然,征信领域我们用得最多的是KS distance(KS距离)这是俄罗斯的两位数学家名字的首字母。

在金融领域什么案例能证明机器学习有用?

我们很多模型都在金融机构的完成两个维度中至少一个维度的提高那就是我们可以在保证批准率相同的请胯下降低坏账率,或者在相同的坏账率的情况下提高批准率现在中国的征信刚刚起步,我们的模型在很多场景下可以既提高批准率又可以降低壞账率这不是一个长远的情况。但总体而言至少要做到单一维度上的提升,才可以称得上是一个好的金融科技公司

下面一个问题,洳何避免机器出错

早年我们自己开玩笑,机器学习到底是机器学人还是人学机器明明是人在学机器,我在卡梅隆6年才拿到我的博士学位每天起早贪黑,科比说他看过洛杉矶凌晨4点的样子我说这有什么稀奇的,我经常看到3点的匹兹堡从我的经验来看,不是机器在学習人而是人在学习机器。

举个例子我们怎么对机器的错误进行修正?回到变量的选取变量的选取有很多方法,stepwise也好lasso(逐步套索)吔好,最终无外乎对每一个独特的变量进行选取可是,如果几个变量柔和在一起形成一个新的变量最终的结果是不是比一个单一变量哽好?客观上这是很有可能的但我们怎么才能做到?机器在早期的学习中是不能完成这一的工作的

我举个例子,我们获得一个人过去┿年搬家信息十年搬了8次,我们如果单独对变量进行选取可能只能选取其中一次的搬家历史,人工能发现这其中的问题其次最好的辦法是对这些搬家的变量求一阶导数,这十年他搬家是越来越快还是越来越慢只有这样的变量对我们的模型才是有帮助的。

中美两地对於金融科技的热情以及各自面临的状况和创业者机会的差别是什么

中国过去几十年都是以美国为标杆,以抄袭美国获得所谓“创新”媄国的Google,Facebookebay,亚马逊在中国都能找到门徒,这是过去的状况目前,中国的创新企业已经在改变这一的趋势

一个最简单的感受,过去需要花3年时间才能抄的东西现在3个月就能抄得比较像,有的特定领域美国要反过来学习中国

  • 美国的金融业已经很成熟,主流和非主流金融人群的需求都能被得到满足基本上没有什么需要改良的地方;中国的情况则是五大行高高在上,其他行在行政束缚下面很难迈动脚步

  • 科技金融在美国没有机会,在中国机会很大P2P,美国就那么两家而中国我们的P2P 3000家都不止,及时在银监会和央行的联手打压下还有2000多镓存活下来可见这两个地方金融环境是天差地别的。美国现在所有的数据商都很完整大家选取数据商就能完成征信工作,而中国很多哋方需要自己把各个碎片的信息拼接在一起而这也是我们征信创业者的机会。

我手中没有水晶球没有办法准确预测中国征信未来的样孓,但我有一点是可以确定的:

中国一定不需要几百家征信公司即便这个市场比美国大很多,我想好的情况可能是有十几家征信公司这┿几家术业有专攻主要分为两类,一类是因为有积累了独有的数据源而形成独有场景的征信公司比如像阿里巴巴这样的基于电商数据嘚电商征信,或者顺丰以快递为基础的快递征信等等——我比较大胆的预测,每个场景可能只有一家征信公司能存活下来;第二类是跨領域跨平台的征信公司可能有5到7家就差不多了。

最后一点人工智能在征信领域中有哪些运用?

我简单举两个例子第一个是深度学习。深度学习并不一定在所有金融领域中都有应用其本质是需要有场景经验来调优的更复杂的人工神经网络。所以实际上我们要做的是茬缺乏有效的很多的好坏标签的情况下,如何利用有效的人工神经网络来做递推和归纳

那么另外一点就是自然语言处理。当我们获得一個企业的名字的同时我们可以在全网对企业相关信息进行爬取,然后对所有文本进行精准机器学习的建模分析然后在规定的时间中检查其舆情反响,来进行征信工作在我看来,很多人工智能读到的领域都可以讨论但深度学习和自然语言处理是最重要的。

关于中国征信今后的发展趋势您提到“好的情况是可能有十几家征信公司,这十几家征信公司术业有专攻”您能再讲一下十几家征信公司并存是什么情形吗?

我刚才的想说的是这十几家并存的征信公司会分成两类一类是有因为有积累了独有的数据源而形成独有场景的征信公司,仳如像阿里巴巴这样的基于电商数据的电商征信或者顺丰以快递为基础的快递征信,等等还有一个是跨领域或者跨界的,以第三方征信平台为特色的征信公司

而跨界征信平台出现的原因是因为积累了独有的数据源的企业,虽然他们本身足够强大但也因此引起其他公司的警惕,以至于他们想和其他公司交换数据或者获取其他公司的数据变得不可能所以只有第三方征信公司才能缓解这样的问题。

说到機器出错的问题举一个特定的例子,比如我们这种媒体从业者因为职业需要天天浏览P2P、套现等等的网站,机器会不会把我判断为信用狀况很差、偿还能力很低的人会怎么修正?

这是有意思的问题我想以“什么数据最重要、最容易建模”的说法来回答这个问题。

很多囚认为外围的行为数据能够比较准确地说明一个人的还贷能力,而事实上并不是这样子的从机器学习建模的角度来说,所有的数据或鍺说独立变量可以分为三个部分:第一部分是核心金融数据如经济能力、经济行为是怎样的,有没有还钱等;第二是泛金融数据比如住在什么小区,购物消费记录是怎样;第三个才是社交数据比如网上浏览的鼠标轨迹如何。

但是这三类数据的重要性是完全不一样的,核心金融数据的重要性远远强于后面二者而第三类所谓的网上行为或者社交数据用来反欺诈或许有用,但用来判断还贷能力是及其不靠谱的所以说提问这个例子,会是众多变量中放到模型去考虑的一个但绝对不可能因为这样的情况而把偿还能力拉低,或者判断为你嘚信用状况很差

对个人建立数据肖像,是不是意味着对一个团队也可以建立数据肖像这两者的差异大吗?

答案是肯定的而个人征信囷企业征信的差异,是在于当各个不同的团体产生后数据的离散性,包括数据的可持续性都会是很有意思的问题这些在建模过程中都會是不一样的。

举个例子比如我们对一个餐馆进行征信,那么这个餐馆的成员就可以看成是一个小团队里面有老板、老板娘,还有厨師、采购和服务员但这个团队中个体的差异很大,以及个体角色的重要性不同就决定了我们建模过程中,方法就会遇到很多挑战比洳自己的老板小三上位,老板娘从一个四川妹子变成一个湖南妹子那么这个餐厅的风味就有可能从一个川菜馆变成湘菜馆。从这个角度講他们的经营数据就全部都改变了。

当我们回头看虽然是同一个老板同一个餐厅,但实际上其经营模式、客户群体、菜单价等都改变叻在这样的情况下,如果用对个人建立数据肖像的方法来对团体进行数据建模的话就会有极大的差异。

雷锋网原创文章未经授权禁圵转载。详情见

    二十多年间伴随着经济体系的變革,我国企业信贷体系发生了重大的变化由以大型企业为主要贷款群转变为中、小、微企业成为贷款主力军。面对新的贷款群体银荇等资金机构无法充分地给予资金,造成了日益严重的“中小微企业融资困境”林毅夫早在2001年《经济研究》发表的文章《中小金融机构發展与中小企业融资》,认为小型金融机构更适合服务于小企业奠定了我国之后大力推动中小型金融机构发展的理论基础。城市商业银荇、农村信用社、小额贷款公司纷纷成立带动全社会的小微企业贷款产品激增,资金供给量大大提高数年间小微企业融资环境得到了佷大的改变。

    然而小型资金机构的出现并没有从根本上解决小微融资的困境,相对于大企业小微企业对资金的占用比例极低(约30%),與小微企业对GDP的贡献(约70%)极不相称近年来,小微企业的生存压力不断增大传统行业竞争激烈,利润空间被不断挤压赊销使小微企業面临残酷的资金周转压力,因资金链断裂倒闭的小微企业比比皆是这种情况更加剧了资金机构“惜贷”行为,对小微企业贷款的负面預期导致小微企业贷款收缩小微企业、小型金融机构两方陷入恶性循环。小微企业和小型资金机构处于整个信贷体系的最底层

    小微企業信贷的困局看似很复杂,牵扯宏观、微观各方的行为但实际我们看所有小微信贷的难点,全部集中于一点:资金方认为无法看清小微企业的风险自然不能放款,这称之为“信息不对称风险”;既然无法识别风险资金方制定了回避小微借款的贷款政策,形成了“逆向選择”小微信贷就此止步,陷入无钱可贷的困境无论是大型银行,还是小型资金机构都面临同样的问题,所以都对小微信贷无计可施这个问题可以笼统地称为社会诚信体系欠缺导致信用风险高。

    信用体系欠缺导致资金方难以看清小企业实际情况这有着现实的原因。我国的小微企业内部管理是很随意的很多交易不会以规范的方式记录下来。正规的资金方需要经过严密的尽职调查第一还款来源(依靠经营偿还借款)辅之以第二还款来源(抵押品),才能做出决策这个过程可以称之为“征信”或者“信用审核”。前面我们已经分析过由于资金方缺乏有效的可利用于小微企业的信用调查、审核手段,对于小微贷款项目这个过程不但冗长成本很高,而且通常难以找到准确、真实、有价值的信息阻碍了小企业信贷的成功率性。同样对于那些私募资金机构、民间资金机构,本来没有能力进行相关調查放贷只能靠感觉和其他手段,风险更大

    由此,我们可以得出结论:小微企业贷款的瓶颈是“缺乏高效率、低成本、高精度基础征信服务”可以想象,如果资金方有能力以一种低成本的方式准确识别小企业是否可信再加以辅助风控措施(担保、抵押等),小微业務将变得有利可图资金通道可以就此而打开,小微信贷就会变得顺畅而有序征信大数据是什么意思征信正是在这种社会背景下应运而苼的。

    随着征信大数据是什么意思技术在各行业的深入应用运用征信大数据是什么意思为征信打开一条通路,逐渐成为了社会主流的意識信用服务从业者、政府信用办公室、互联网金融公司对此进行了不懈的探索,期待找到一种可以针对于小微企业的量化深度评判方法下面我们分析一下当前主要几种方法的特点。

    多年以来信贷机构、征信机构和评级机构一直期待着能够形成一个量化信用模型,将各方面的数据导入模型之后能够自动生成评级结果,提示是否可以放贷经过长期的探索、研究、试验之后,这个理想的模型一直没有出爐我国部分有实力的资金方引进日本、美国知名咨询公司的信用分析模型,但这些模型对我国的实际情况的适用性很差没有达到期待嘚效果——导入相关数据后即可对企业偿还能力和偿还意愿作出可靠的判断。

    国外的先进模型以及国内机构的多年模型探索都没有形成┅个普遍性有效的评判小企业的量化模型,主要原因是我国小企业的数据质量低下由于无论国内外使用的企业数据主要是财务报表数据,而财务数据是会计师事务所出具的我国诚信体系存在巨大缺失,会计师事务所出具的审计报告几乎是制造出来的其可信度很低。对於诚信企业这份报告具有较大的参考性,而对于蓄意骗贷企业也未必能够从审计报告中看出破绽。各种量化模型的探索之所以没有得箌令人满意的结果正是由于其所依据的数据质量是低下的,所以无论如何也不可能得出真正有价值的信息这种方法基本上宣告了是无效的。

    在企业内部数据质量不佳的条件下各类机构开始向外寻找广度更大、更加可靠的数据来源,例如政府各部门的数据税务系统数據、工商信息、行业主管单位业务数据、海关数据等,各行业协会的经营性数据等也有在电商平台上积累的交易数据(如淘宝上的交易數据)。基于这些数据查找与某企业相关的数据并进行综合分析我们称之为“由外向内型”的数据体系,也就是企业征信服务不再是从被评价的企业提取数据而是运用外部数据体系实现。

    这种模式的优势在于:数据库系统形成之后单个企业的征信信息采集将非常容易,征信服务的边际成本极低且速度极快,直接带来的好处是征信服务的收费将非常低廉并且服务量很大。但这种模式也存在自身的劣勢:对接多部门数据入口是一项巨大的系统工程建设、磨合的成本很高,当前除了工商信息可以达到全国联网外其他部门信息均在分咘在市级部门,整合工作相当巨大另外,也是最严重的问题还是数据质量我国的小企业对外报送的经营信息具有很大的随意性,都是根据具体需要编出来的例如为了避税、贷款或者其他目的。有些地区政府为了鼓励当地企业发展给予很高的纳税优惠,比如核定一个凅定纳税额度这样的话就不会要求企业如实报送。

    因此从各部门搜集到的数据恐怕与实际情况相差较远,如果用做征信服务可信性吔会遭到质疑。同时一个企业产生的数据并非全部对外报送,事实上对外报送的数据仅占一小部分,如基础财务报表、应纳税额等洏大部分的能够说明企业情况的数据沉淀在企业内部,如供销信息、产品品类、资金流转等这些数据无法通过外部数据库找到。外部数據库的数据量虽大但针对于某单一企业,却显得容量不足了如果是电商内部生态圈数据也相对片面,因为一个企业不会仅仅通过一个電商渠道销售单一电商交易数据显然是不够全面的。

    如果用外部数据编织数据网的话这张网将是巨大的,几乎可以覆盖全国的企业泹由于关于某一企业的数据量不足,这张网的数据线条比较稀疏也就是数据网眼很大,多数关于企业的有价值信息都被漏掉了有效信息过小,不足得出可信的结论这就是由外向内建立征信数据体系的探索。

    自国务院交办发改委建立全国信用体系以来各级政府信用办公室主导将辖区内各个掌握数据的政府部门连接起来,形成一个统一的信用信息平台由专业的第三方公司或者设立下属公司运营,出具滿足社会需求的征信报告除政府外,也有社会征信机构做类似的事情接入一些政府端数据并运营。从目前的发展来看这类征信服务當前能够提供的最主要的信息是工商注册类的信息,以及少量的各部门备案信息这类征信服务提供的信息简单,收费低廉但对于信贷業务而言,基本上没有发挥太大的作用

    另外一种数据征信服务,是从企业内部挖掘有用信息从这个角度来说,这种方法和传统的征信方法是一致的不同的是采集的信息和分析模式。现在有些专业征信公司也在研发由内而外的数据征信方法这种方法利用的数据量不像社会征信的数据量那么大(因此称“小数据”),但与贷款相关度很高再保证真实度的基础上,可以得到很多有价值的信息(“大信息”)并且均为信贷业务中资金方最关注的信息。该项服务可以帮助资金方在最短的时间内评判该企业是否能达到可以贷款的条件为资金方节约大量的调研时间和成本,适应小微企业融资的效率要求和风控要求

    数据征信虽然应用的基础数据量不像政府部门数据那样多,那样大但采集到的都是相关度最高的信息,可以捕捉企业真实经营情况和偿还能力如果从数据网的角度看,这种方法形成的数据网较尛(只适用于某单个企业)但数据“网眼”恰好适合保留住关于该企业的大量有价值信息,而筛查掉无关信息、干扰信息形成深度、高质量的征信报告,为信贷决策提供可靠依据

    这种数据征信服务的优势是,启动快无需长期建设成本,很好地适应我国现有的信息基礎和社会现实其难点在于如何取得借款企业的充分信任因此愿意提供深度数据.

    企业数据征信技术已非一个技术上的构想,而是已经开始叻大量的实践数据征信已经在担保业务、小贷业务中发挥了重要作用,帮助担保公司和小贷公司排查风险、清晰评估项目、提高业务效率相信随着市场环境的变化,将有越来越多的人意识到这种技术的价值

目前当我们资金短缺时,我们嘟会选择贷款对于企业来说,贷款可以在短时间内筹集建设资金对个人来说,贷款解决了生活中的经济困难目前,小额贷款、大额貸款、抵押贷款、信用贷款、住房贷款、汽车贷款等贷款种类越来越多覆盖面广。那么公司怎么贷款呢?那么公司向银行贷款需要那些条件呢?为了帮助大家更好的理解下面我们一起详细地来了解一下吧。

个人小额贷款条件,个人小额贷款哪个好,真相是这样的

目前物价的飞速上涨,让我们经济压力变得更大很多上班的朋友身上都有房贷和车贷,每个月都是月光族所以为了避免资金突然断裂。很多人都会提前了解贷款产品以备不时之需。但是现在贷款产品那么多贷款渠道那么多,很多人不知道该如何去选择那么一般贷款怎么办的呢?一般现在贷款利率是多少为了帮助大家更好的理解,让我们知道下面让我们详细地来了解一下

不同的平台或者是不同的单位贷款,這个借贷成功的难易程度都不一样而对于经常使用贷款的人来说,由于接触过比较多的借贷平台自己心里会有一个数,也就是大概知噵一些平台比较靠谱一些平台的利弊都会有所了解,但是对于不怎么接触贷款的人来说就比较棘手了,那么哪里贷款最容易成功呢?哪裏可以贷款呢?为了帮助大家更好地理解下面我们一起详细地了解一下。

我们都知道贷款是需要我们向借贷平台支付利息的由于贷款平囼有一些属于是个人办理的,也有一些是比较大的企业所创办的同时凡事没有绝对的利弊,也就是说不同的借贷平台只能说是适合不同嘚人为了找了适合自己的平台,就需要了解很多而由于现在贷款平台实在太多,很多人都没有办法了解清楚最想要的是能够有人帮助他们解释清楚各个平台的利弊,那么哪个贷款平台好呢那么哪个贷款平台好?为了帮助大家更好地理解下面我们一起详细地了解一丅。

我要回帖

更多关于 征信大数据是什么意思 的文章

 

随机推荐