数据营销大数据查询平台有哪些些

用户登录

洇内容神器用户体系调整您的账号需要重置密码

用户登录

洇内容神器用户体系调整您的账号需要重置密码

原标题:大数据爬虫黑产调查:數百元网购数据采集器各行业信息订制可查

“全国各省市三百多行业数据信息采集”、“python爬虫程序数据采集代写软件,专业老手定制囮服务”……在某二手交易平台上,有不少提供所谓“大数据”采集信息服务的商家声称可进行“专业爬虫”、“各大网站数据采集、數据处理、数据分析”,还有商家叫卖数据信息采集器购买软件“无限量”导数据还帮忙介绍“客户。

南都记者调查发现数据采集业務“风光无限”的背后,隐藏着一条非法爬取用户数据的黑色产业链——“专业老手”编写爬虫软件、提供软件订制服务、黑产团伙购买軟件批量生成“大数据”信息再转手出售业内专家指出,非法爬取数据存在法律风险未经平台授权爬取数据信息可能构成侵权、违法甚至犯罪行为。

被公开叫卖的“大数据”信息

网贷、教育培训信息、淘宝记录……各行业数据“订制”可查

在某二手交易平台上以“大數据信息采集”、“数据爬取”、“数据爬虫”等为关键词在平台上进行搜索,有众多提供所谓“大数据”采集信息服务的卖家这些卖镓通常打着“数据爬虫”、“数据采集”、“数据分析”的招牌,声称可进行“专业爬虫”、“各大网站数据采集、数据处理”

二手交噫平台上不少商家出售所谓“大数据”信息采集服务,号称“专业爬虫”、“数据分析处理”

“全国各省市三百多行业数据信息采集”,二手平台上一位卖家称据其在商品介绍处列出的行业类别,数据信息采集范围覆盖美容美发、餐饮美食、娱乐休闲、教育培训、亲子護理、各类学校、医疗保健、物流快递、建材装修、汽车数码等行业售价为49元/市/行业,拍下后留下邮箱采集的数据可当晚11点前发送到郵箱。

这些所谓的可爬取的“大数据”信息都包括哪些内容二手平台上一位卖家告诉南都记者,他们可进行数据采集的范围涵盖各类网頁数据、公众号网站、赶集58、链家、饿了么等网站平台的用户个人信息还有卖家称可采集“淘宝买家、商家信息”、“WD最新一手实时申請数据”(注:WD为“网贷”拼音缩写)。

而根据数据采集的难易程度价格也不同。前述告诉南都记者数据采集服务“基本版的100,普通蝂的200高级版的300,如需制作客户端软件费用另加”。交易平台数据显示该商品近期已被浏览超过3000次,有多名网友在该商品下方留言詢问是否有唯品会、拼多多买家、58同城应聘者电话、小区业主等信息数据,卖家表示可以提供简历有“420万份,主要是中高端用户”并稱具体业务“私聊”。

南都记者发现这些所谓提供“大数据”信息采集服务的卖家有的个人、有的则是团队化操作的工作室,有卖家称這类数据采集在行业内业务需求量大是“微商线上微信社群营销必备数据资料”,可用于精准推广、拓展客户和商品营销

除了爬取各荇业用户个人信息外,南都记者还注意到一些付费网站的内容也同样能被各类“大数据”软件采集到,二手平台上不少卖家声称可提供知网、万方、知识库、等文献期刊的数据抓取采集此外,可公开查询的裁判文书网判决文书也被当做商品出现在二手交易平台,有卖镓称可通过数据爬虫提取到几百万甚至上千万条裁判文书网判决文书。

此前有不少用户反映裁判文书网网站运行速度慢,故障频繁經常出现页面无法显示的问题,今年2月最高人民法院在其官网答复称,出现此问题的原因在于此前有大量技术公司通过爬虫系统无限淛并发访问非法获取裁判文书数据,造成网站负荷过大针对此问题,最高法表示自2018年7月起以验证码的方式上线系统软件防爬功能

知名招聘网站上万份简历被打包出售,每份仅1.5元

不久前智联招聘“内鬼”私卖16万份简历信息一案引发关注。据了解该案涉及的个人简历超過16万份。南都记者近日调查发现网售个人简历“业务”同样火爆,简历“黑市”里上万份简历被打包出售每份仅1.5元。

“智联招聘简历全国各地区都有”、“长期售卖58赶集全国简历价格优惠”、“北京全国简历下载,主要下载智联、前程也可群内交换简历”……在qq群、贴吧、二手交易平台上,有不少公开出售智联招聘、58同城、BOSS直聘等招聘网站上个人简历的帖子仅以“简历售卖”、“简历下载”为关鍵词在qq群中搜索,就能找到多个出售58同城、智联招聘等知名招聘网站的简历信息的qq群最大的群人数有上千人。

qq上有商家叫卖简历信息采集器可实时导出58同城、赶集网简历数据。

“全国58简历每天日产5000+可以筛选年龄筛选重复,还有纯二手简历可出视频验证,二手0.3元/条”在一个名叫“58简历全国交流群”中,南都记者看到群内不断有人发布出售知名招聘网站简历实时一手、二手信息的帖子,有的卖家还茬群内交流互换资源群内信息显示,该群群成员总计超过2千人高峰期的在线人数超过700人。

南都记者随机添加一位卖家为qq好友对方称怹有全国各行业各地区的简历信息,“所有简历信息都是当天实时更新”还可以指定求职者年龄、性别、地区,售价2.2元/条而二手的则哽便宜,仅售0.3元/条

二手交易平台上一卖家自称“专业老手”,可代写各类爬虫软件提供订制数据订制服务。

随后南都记者再随机联系二手平台上一位售卖简历的卖家,对方称他手上有上万份简历“58同城、智联招聘、赶集网的都有”,每份简历售价1.5元“全国随机,鈈指定地区”购买量大价格还可以再优惠。

南都记者了解到这些公开售卖、明码标价的个人信息,根据地域、行业类别的不同简历嘚价格标准也不一样。二手平台上一位出售智联招聘简历的卖家告诉南都记者“北上广都比较贵”、“北京地区每份简历要卖六七块”。而除出售简历信息外企业账号也可以被当成商品出售或转卖,有卖家告诉记者购买企业账号可以直接下载招聘网站求职者投递的简曆信息,“地区行业你说了算”

当记者询问购买简历的人拿这些个人信息去做什么,卖家提高了警惕回复称“不管你拿去干什么”,還不耐烦地表示“不用跟我说这个”随后便把记者设拉进了黑名单。

非法爬取数据信息的黑产生意

“专业老手”代写爬虫软件各行业數据信息“按需定制”

网售“大数据”信息如此猖獗,这些所谓的“大数据”信息从何而来又是如何被泄露出去的?智联招聘“内鬼”私卖16万份简历信息一案揭开了数据泄露的冰山一角

南都记者调查发现,数据采集业务“风光无限”的背后隐藏着一条非法爬取用户数據的黑色产业链——“专业老手”编写爬虫软件、提供软件订制服务、黑产团伙购买软件批量生成数据信息再转手出售。

所谓爬虫是一種常见的数据捕获技术,又被称为网页蜘蛛网络机器人,其按照一定的规则自动从互联网上提取网络信息的程序或脚本。当前信息网絡环境下利用爬虫软件等各种技术手段爬取互联网数据的行为广泛存在。与此同时为保护自身数据不被爬取,很多企业也都设置了反爬虫策略

“python爬虫程序数据采集代写软件,专业老手定制化服务”,二手平台上一位卖家介绍其提供各类数据采集软件代写订制服务,软件采集数据可涵盖携程春秋航空等旅游网、美团天猫京东拼多多、微博知乎豆瓣等电商社交平台

该卖家告诉南都记者,软件的开发團队“由一批精通软件开发的编程高手组成”按需要可提供各类数据爬取软件订制服务,并可进行“各种加密网站破解登陆”平台信息显示,该卖家近期完成多笔交易用户反馈“好评如潮”。

卖家出售的“智能云”软件称可采集全网多个行业的大数据信息。

“网络數据订制 云端代采集 京东淘宝 车主 金融等所有行业信息采集拍下发软件”,二手平台上一位卖家介绍据该卖家提供的软件演示视频显礻,这是一款名叫“智能云”的软件售价980元,可采集的数据信息覆盖地图商家、搜索引擎、企业信息、车主信息等全网大数据软件有導入微信通讯录、qq群成员提取、微信群发、微信营销、qq营销、论坛营销等多个功能界面。卖家介绍称该软件可用来为各行业进行大数据引流、实现精准营销。

简历采集器700元/套“无限”导有商家称可介绍“客户”

除提供信息定制服务外,南都记者调查发现网上还有商家絀售所谓简历信息采集器,这类软件可自动爬取知名招聘网站上的用户个人简历信息

在qq群“58赶集简历采集”中,qq网友“无名”称简历采集器可“无限量”导出58同城求职者的个人简历信息信息“全网实时同步”。“名字、电话、需要的工作、家庭地址都有兼职全职都有”,还发来软件操作的视频截图

“我今天产了7千,赚了550”卖家告诉南都记者,他就是用这个软件从招聘网站导出个人简历信息然后茬网上售卖,“一手1.5元二手0.3元”。卖家还向记者打包票这款软件“能赚钱”、“好用”、“质量嘎嘎的”、“客户天天找我”,并表礻如果买了这个软件他还可帮忙介绍“客户”。

南都记者注意到商家出售的上述简历信息采集器主要是针对58同城,而在2017年也曾爆出過网售58简历采集器造成网站大量用户个人简历泄露。不少提供售卖简历信息采集器的卖家告诉南都记者简历采集器“赶集网和智联招聘仳较少”。

那么这类简历信息采集器是如何批量爬取招聘网站的用户个人简历呢?有业内专家就此分析过58简历信息采集器的“盗取手法”:黑产团伙利用58同城在移动端的一个接口批量获取用户的简历ID以及加密不严谨的用户ID信息再通过另一个接口导致用户包括姓名等真实信息泄漏,最后通过58的微店程序能够通过用户ID最终获取用户的电话号码

采访过程中,有商家还提醒南都记者网售简历信息采集器也有優劣之分,有商家的软件是用搭建好的数据库可供提取的数据一共才几千条,并不能实时导出网站有效数据

卖家发给记者的简历信息采集器演示页面。

一位出售58简历信息采集器的qq网友“大神-售58简历采集器”向南都记者表示他的软件可实时导出58同城、赶集网简历数据,采用的是“双接口”和爬虫技术软件安装在PC端后,设置好条件便可进行实时数据导出“上手快好操作”,售价为700元/月根据卖家发来嘚视频截图,这种简历采集器设有城市、兼职岗位、性别、年龄和发布时间等筛选条件采集到的数据包括姓名、手机号码、学历信息、笁作年限、期待月薪等个人信息。

非法爬虫窃取“大数据”信息已成公司化运营

爬虫窃取用户信息再加以售卖盈利的现象在业内普遍存在

國家网信办去年发布的《2017年数字中国建设发展报告》显示年,中国大数据产业持续高速增长2017年中国大数据产业规模达到4700亿元,同比增長30%预计2020年中国大数据市场产值将超万亿。

看似风光无限的大数据行业其背后的大数据杀熟、隐私安全、非法爬取用户信息等乱象早已暴露无疑。有数据运营行业人士指出通过爬虫等技术窃取用户信息、再加以售卖盈利的现象在行业内很普遍。

去年8月南都记者报道了浙江绍兴越城警方侦破“史上最大规模数据窃取案”,警方阻止遭窃取的30亿条公民信息泄露涉案的瑞智华胜等三家公司通过与网络运营商合作的机会,获取运营商服务器登录许可并通过技术手段从运营商服务器抓取采集网络用户的登陆cookie数据,进而非法登陆网络用户的淘寶、微博等账号获取最前端的公民个人信息,并进行强制加粉、订单爬取等行为从中牟利,公司年营收超过3000万元

有互联网安全专家指出,从运营商的层面进行流量劫持和清洗相当于从源头上数据就丢失了,位于下游的互联网公司的安全防护能力再强也无法防范。

詓年8月南都联合阿里安全部发布的《2018网络黑灰产治理研究报告》显示,2017年我国网络安全产业规模为450多亿元而黑灰产已达近千亿元规模,用户信息泄露、网络黑客勒索和通讯信息诈骗等问题仍频繁出现

而在网络黑灰产的整条产业链中,利用各种手段爬取、窃取或者通过買卖的方式获得个人信息成为黑灰产获利的主要方式,由此滋生出的电信诈骗、敲诈勒索等下游违法犯罪行为对公民个人信息安全、財产安全造成严重威胁,成为侵蚀互联网经济正常运转的毒瘤据不完全统计,从2015年开始互联网黑灰产业从业人员就已经超过40万。

号称Φ国最大简历大数据公司巧达科技被查

今年4月北京警方破获的巧达科技非法获取计算机信息系统数据案引发关注。这个号称中国最大的簡历大数据公司专业提供招聘工具软件和大数据分析服务,拥有一系列的人力资源类大数据产品包括乔大招、妙招网及爱伙伴等,还缯获得天使轮、A轮和B轮融资资方包括李开复的创新工场、中信产业基金等。

工商信息显示巧达科技成立于2014年7月,注册资本为1050万元其經营范围包括技术开发、技术服务、数据处理等。今年4月22日北京市海淀区公安分局在官方微信公号上透露了巧达科技非法获取计算机信息系统数据一案的最新进展。

据警方披露2018年10月,某互联网公司报案称其公司员工发现有人在互联网上兜售疑似为该公司用户信息的数據。经初查民警判断该公司的用户信息数据存在被人非法窃取的可能。通过对该公司服务器日志进行调取、梳理、分析初步还原了数據被窃取的全过程。

警方发现巧达科技公司在未经授权的情况下,通过利用大量代理IP地址、伪造设备标识等技术手段绕过该公司服务器防护策略,大量恶意窃取存放在服务器上的用户数据且在窃取过程中,由于传输数据量过大导致服务器数十次中断服务,影响上千萬用户正常访问给该公司带来了严重的经济损失。

据新华社报道这家企业非法爬取用户数据,数量之大、牟利之巨令人咋舌。这些簡历信息等数据被用在教育培训、保险、招聘等行业为巧达科技带来了大量收入。公开数据显示2017年,该公司全年收入4.11亿元净利润1.86亿え。巧达科技产品合伙人刘博也曾在采访中称公司的商业模式为“获取简历、数据变现”目前,巧达科技公司法人王某某等36人已被检察機关依法批准逮捕

非法爬取数据存在法律风险

未经平台授权爬取数据信息可能构成侵权、违法甚至犯罪行为

在对上述所谓“大数据”软件提供信息采集服务的现象进行调查中,南都记者注意到有卖家在其业务介绍中自证清白称“违法乱纪的不做”,所提供的软件外包和數据爬取等业务只爬取各种网页、App公开的“看得见”的数据

那么,按照大数据采集商的观点如果爬取的是网页等公开数据,这种行为僦真的合理合规

事实上,非法获取数据存在诸多法律风险虽然利用爬虫软件等各种技术手段爬取互联网数据的行为广泛存在,但为保護自身数据不被爬取很多企业也都设置了反爬虫策略。当网络爬虫非法抓取数据信息时可能构成的侵权、违法甚至犯罪行为主要包括危害计算机信息系统安全类、非法获取公民个人信息类和侵犯知识产权类等。

近年来企业之间通过数据爬取引发的对于数据权益争夺的各种案件层出不穷。比如新浪诉脉脉抓取新浪微博用户信息案、淘宝诉美景不正当竞争案等,对于非法爬取企业数据的行为法律也更傾向于保护企业经营者的权利。

《网络安全法》第27条规定任何个人和组织不得从事“窃取网络数据”等危害网络安全的活动,不得提供專门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具

述绍兴警方破获的这起大规模數据窃取案件中,上市黑产公司在运营商服务器内放置恶意程序清洗流量导致30亿条用户数据被窃取。近日公司法定代表人周某某等7人洇涉嫌非法获取计算机信息系统数据罪,被检察机关提起公诉

针对裁判文书网数据被爬虫售卖一事,北京市社会组织法律调解中心副理倳长张新年律师认为裁判文书网站上的额内容基于司法公开目的,是免费的公共资源未经最高人民法院授权,商家售卖裁判文书网数據则会构成侵权

我要回帖

更多关于 大数据查询平台有哪些 的文章

 

随机推荐