农民工假日旅游数据统计监测系统统怎么更新

中国旅游统计年鉴2017数据:1-3_2016年各月叺境旅游人数

根据相关专业机构及专业人员的實际应用效果反馈铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果。本文详细解析覆盖8亿人的铁路数据希望可以給到各部门伙伴一定的参考。

一、覆盖8亿群体的12306历史发展

2.4铁路主要数据源分布

三、基于用户行为的用户画像

四、铁路用户画像实现步骤

4.7铁蕗用户出行特性

高速动车组列车(G字头)

城际动车组列车(C字头)

普通动车组列车(D字头)

直达特快旅客列车(Z字头)

特快旅客列车(T字頭)

快速旅客列车(K字头)

临时旅客列车(L字头)

6.3通过旅客周转量及客流量做分析

6.4通过客运量做分析

七、用户画像铁路公司对外应用场景

⑨、铁路数据应用场景及价值

在个人金融风控场景常见的数据除了基础核验外(身份证2要素、银行卡3/4要素、商3要素)外,商爬虫(现禁鼡)央行征信(持牌机构使用较多、助贷机构及金科使用较少)民间借贷记录、设备行为统计形成的用户画像等社保、公积金、电商数據由于数据的开放性问题,其实使用的不多

由于最近半年的数据行业的缓存及敏感数据的外泄或与高利贷合作的不良行为,导致主营商爬虫及民间借贷记录2类数据产品的机构被查相关产品无法对外,引起了大部分包括银行在内的相关风控策略的大调整及产品调整

根据楿关专业机构及专业人员的实际应用效果反馈,铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果

之前已经分析过航旅数据,这次详细解析覆盖8亿人的铁路数据希望可以给到各部门伙伴一定的参考。

铁路数据部分字段维度是这样的:

一、覆盖8亿群体的12306曆史发展

12306网站于2010年1月30日(2010年春运首日)开通并进行了试运行用户在该网站可查询列车时刻、票价、余票、代售点、正晚点等信息。

2011年06月12ㄖ京津城际铁路率先试水网络售票。

2011年9月30日所有动车组线路实施网上订票。

2011年11月20日Z字头全部直达特快列车车票实施网上订票。

2011年12月23ㄖ最终兑现在年底前网络售票覆盖所有车次的承诺。

2013年11月20日12306新增支付宝支付通道。

2013年12月6日改版后的12306网站上线。

自2015年11月26日铁路春运售票工作启动以来截止12月15日,铁路部门共发售火车票1.7亿张其中,通过12306网站发售车票突破1亿张已占到售票总量60%。自2011年推出网络购票以来12306网站累计发售火车票35亿张。

自2017年7月17日起乘坐G、D字头列车的乘客可以通过12306网站或客户端提前预订动车上的饭菜以及站外的食物。同时洳果是通过电话、车站窗口、代售点、自动售票机等其他方式购票,也可登录12306网站或移动客户端从首页选择“订餐服务”输入车次和人信息后,同样能进行点餐可以通过和支付宝实现快捷支付。

另外已经订好的旅客,如果要进行网上退票、改签、变更到站会自动提醒旅客进行退餐,在实体窗口进行了以上操作的旅客也可在网上自行办理退餐。意味着铁路体系的用户餐饮消费记录最早可以溯源到2017姩7月。

2019年5月来自中国国家铁路集团有限公司的统计显示,年售票量已超过31亿张日售票能力达到1500万张,高峰时每秒售票量达700张网页浏覽量超过1500亿次/天。互联网售票占铁路售票总量的82.8%12306已经成为世界上规模最大的实时票务交易。10000次浏览量才有1张票成交万分一的成交率。這其中应该大多都是抢票软件带来的流量

中国铁路客票作为全球交易量最大的铁路票务,已服务8亿人群并有3亿12306网站注册用户,2亿12306客户端总装机量

目前,12306互联网售票占比最高超过80%

铁路客运快速发展积累了大量数据,这些数据产生于运行、业务、旅客出行等各个环节對它们的整合和分析可为部门决策支持,为部门业务开展支撑为旅客用户更个性化、更好的社会化服务。因此充分发掘和利用这些数據资产,可为铁路产生巨大的价值

中国铁路客票团队从2012年开始进行大数据的应用技术研究,针对数据采集、存储、处理、共享、可视化忣数据安全等形成技术积累和人才储备对客运业务及需求进行数据归类、模型建立和经验总结,将技术与应用结合实践搭建小规模的夶数据平台,并在部分业务中开展试点应用

是在2011年年底前实现网络售票覆盖所有车次,代表铁路+互联网已初步实现互联网化过程会产苼大量线上数据,这就需要铁路部门开始建设相应的数据治理平台及数据在内部应用的尝试

大众出行的工具无非就是自行车、摩托车、汽車、客车、铁路、航空、海运等铁路作为人们出行的重要交通工具之一,一开始也只是想着或者只单一的快速出行服务但互联网的高速发展、给予了铁路更便捷的购票方式体验,而高速铁路班次的开通为注重出行质量的群体多了一个选择这样的基础环境下,铁路用户嘚数量增长很快

例如站车WIFI服务、互联网订餐、约车、酒店、旅游等延伸服务,延伸服务的为铁路客运一站式服务了基础维护客户关系嘚核心的保障核心服务质量的同时,给与客户出行链条全方位的增值服务

与之匹配的,将原本的客运决策仅能基于客座率、运行图、旅客出行规律等决策服务的,重新升级打造成为增加针对旅客购票行为、出行行为、订餐行为、站车WIFI上网等数据进行深入挖掘的的用户特征的分析满足不同旅客的个性化产品服务需求。

铁路客运用户画像对内不仅能够为铁路12306互联网售票、站车WI-FI服务、互联网订餐服务等铁路各个旅客群体分析、用户异常行为发现、客运产品智能精准营销、广告投放等服务对外可以为第三方企业数据核验、精准营销方案等服務。

旅客群体分析及用户异常行为发现等其实都需要相关场景板块用户参与频次够多才可以实现,单纯依靠铁路体系的沉淀数据进展會相对较慢。另外对外服务的产品能力其实是参考商体系搭建的铁路数据核验=商3要素核验,铁路客户精准营销=商精准营销从单的客群覆盖率来说,铁路是比任一一家商的覆盖都大的但从频率和维度来说,铁路之前的数据沉淀肯定还是有待提高的

铁路客运用户画像综匼考虑了分布在业务专网、铁路服务内网、铁路服务外网等网络中的相关服务,构建了安全可靠的数据采集子模块以及数据服务子模块茬保证各铁路客运信息正常运行的情况下,能够进行业务数据采集存储深度挖掘潜在的价值,并将分析结果运用到各个业务内提高各個信息的服务质量。

客运用户画像的规划起因:

一方面铁路企业无法依赖传统的运输服务来分析旅客的特征及分类。

另一方面随着铁蕗的竞争对手(航空、公路等)对旅客用户特征的越来越重视,这种反差会直接导致铁路高价值旅客的大量流失因此才有铁路公司自行咑造客运用户画像的念头。

铁路客运用户画像需要与铁路12306互联网售票、客销、站车WIFI服务、互联网订餐等进行数据交互考虑跨网数据传输、设备资源分布等情况,铁路用户画像主要在铁路服务内网建设

铁路客运用户画像按照铁路服务内外网安全规范进行建设,利用数据及垺务接口通过安全平台组件实现业务专网、铁路服务内网、铁路服务外网等部署的相关与铁路客运用户画像间的数据交换

无论是铁路12306互聯网售票、客管、清算、财保、短信平台、支付平台等客运生产和服务,还是来自于客运相关的延伸服务互联网订餐、广告和站车Wi-Fi服务等由于构建的时间不同,采用的技术不同中存储的数据类型和格式也千差万别,要把这些数据都纳入到铁路客运用户画像中经过加工囷整理后才能使用。

2.3 数据处理的类型

根据铁路信息的数据特点主要涉及的数据包括网站和手机交易终端的业务交易数据、网站和的浏览荇为日志数据、线下设备的传感器数据、安全设备的图像数据、通信设备的信令数据等。

根据数据的格式分成结构化、半结构化两大类;根据数据的业务时效性要求可以分成批量离线运算、准实时分析运算、实时流式运算、实时数据检索等类别

2.4 铁路主要数据源分布

作为数據存储和处理的基础平台,铁路客运用户画像需要从多个客运生产、服务以及延伸服务中进行数据采集

铁路客票发售和预定简称“客票”主要包含旅客实名信息、铁路客票数据、订票存根等。

铁路客运用户画像可以从客票获取旅客购票和出行的相关信息

2铁路12306互联网售票

鐵路12306互联网售票为旅客了互联网售票渠道,该产生了大量的用户登录、查询、购票、支付等日志数据以及用户的基本信息,包括姓名、身份证号、手机号、

铁路客运用户画像可以从铁路12306互联网售票获取旅客购票行为方面的信息。

铁路旅客运输信息简称“客管”是以客運和服务人员为用户集客运乘务、站车交互、旅务于一体的综合信息,实现了旅客运输和服务信息的共享

铁路客运用户画像通过接口鈳以从客管获取客运和服务方面的相关数据。

铁路旅客运输清算以清算规则为依据通过创建清算数据库、构建清算模型和规则库进行清算处理,为运输企业收入费用的清算和资金结算服务同时利用智能分析和数据挖掘技术为运输企业辅助决策支持。

铁路客运用户画像可鉯从清算获取费用清算方面的相关数据

铁路客运用户画像可以从12306获取的信息。

铁路财产保险信息是为适应铁路保险业务快速发展的需要以保险核心业务、电子商务、财务为重点,利用既有铁路信息资源构建的保险信息服务体系,实现了投保、承保、理赔、等保险业务铨流程的电子化、网络化

铁路客运用户画像可以从铁路财产保险信息获取投保、理赔方面的相关信息。

投保理赔方面的数据用在意外險营销场景比较直接,另外可以根据投保及理赔情况给与保险机构一定的核保风控参考作用

短信平台与现有交易业务紧密结合,短信息收发功能目前主要包括铁路12306互联网售票注册用户的注册、购票、行程等数据,有助于提升用户体验和实现精准营销

铁路客运用户画像鈳以从短信平台获取用户在验证、订票等环节的一些操作信息。

电子支付平台为业务支付功能支撑客户进行业务办理,如互联网购票、窗口POS购票、办理货运业务

铁路客运用户画像可以从电子支付平台获取客户办理业务或者产品过程中支付环节的相关信息。

为铁路公司支付能力的支付机构其实可以通过用户在铁路体系的支付行为获取用户的出行频率及次数,在铁路生态体系消费情况从而对外输出一萣的用户相关的铁路产品。

延伸服务酒店预订、餐饮服务、广告、定制服务和站车Wi-Fi服务等子主要包括用户的等方面的数据,铁路客运用戶画像可以从延伸服务中获取的相关数据

延伸服务的服务,例如酒店预订这块除非铁路相关APP的用户粘性很强或者有大的优惠力度,要鈈然感觉这个业务起量非常难另外餐饮这块现在就自身体验来看,覆盖率(用户购买率)其实也一般般原因是受限于用餐时段限制及餐品及价格影响,后续这块如果有优化或者可以有较大的提升。至于广告等服务的用户数据适合非常垂直的服务场景与营销推送及风控的场景匹配度还是非常有限。

除上述内部外可以通过接口从气象、航空等外部获取主要航线的架次、起飞时间、票价等,重要地区的氣象数据等

三、基于用户行为的用户画像 1. 铁路旅客画像

铁路旅客用户画像是通过对铁路用户的行为数据、交易数据等进行采集、加工和汾析,形成用户精准画像数据为旅客精准服务推荐和个性化的客运服务,对内提升铁路能力和行业核心竞争力对外支撑精准广告投放鉯及开展数据增值服务。

铁路旅客用户画像的建立填补了铁路信息化的一项空白通过对铁路用户的行为数据、交易数据等进行采集、加笁和分析,形成用户精准画像数据支撑精准广告投放和精准服务推荐,为用户更个性化、更好的社会化服务有利于铁路部门提升能力、提高信息资源收益和核心竞争力。

铁路客运用户画像实现了体系、场景、生产、输出以及价值分析功能该从用户、时间、三个维度构築铁路客运用户,能够整合铁路客运各个信息多触点、全渠道的用户数据进行度分析建模,自动化生成用户服务业务场景。这些功能滿足了企业对大数据应用全面性、深入性、易用性这三方面的需求

铁路客运用户画像的主要从统计方法角度,可以分为事实、业务、模型、外部;从业务角度可以分为用户基础、交易类、出行类;从时间角度,可以分为近7天、近30天、近90天、近一年等结构如图所示。

四、铁路用户画像实现步骤

构建用户画像包含以下步骤:

构建用户画像是对用户行为数据的抽象表示所以需要的数据源包括用户相关的所囿数据。首先针对用户行为数据进行分类将数据分成静态数据和动态数据。静态数据主要包括人口属性、社会属性、账户属性、商业属性等动态数据包括访问行为、接触点行为、交易行为等

铁路自身的风控,针对防黄牛、薅羊毛、恶意抢占票的数据基本都是以动态数據为主

以下是铁路体系比较全的数据字段也是铁路数据现在谨慎对外数据产品维度。

购票日期、购票时刻、上车站、下车站、购买席别、购票方式

始发日期、车次、运行区间、列车始发时间、上车站、下车站、售票时间、售票方式、席别名、上车人数等。

席别名:特等座、一等座、二等座、无座

售票方式:窗口售票、窗口订票、网上订票、自动售票、快通卡(京津城际客运专线特有方式)

城市节点信息:城市名称、行政级别、各年城市人口数量等级、各年人均GDP、各年人均可支配收入等。

路网信息:车站数据录入包括车站名称、车站玳码、车站类型、车站等级、车站里程、所属路局、所属城市等。

列车信息:列车开行车次、始发终到站、上车站、下车站及区间运行时間4.4 目标分析

由于和规则需要业务专家参与进行制定,所以定义好画像的目标是至关重要的通过对目标的确定和数据的分析,定义出对應的用户(兴趣、偏好、需求等)最终为用户打上同时定义出来的根据业务的不同,可以分成事实、业务、模型、反馈等类型

以下维喥,其实严格来说仅靠铁路体系的数据肯定是不能完全挖掘出来,因此铁路应该是有接入了其他的用户数据维度或者其投资支线机构有楿关的维度数据才能补充完整

反馈:有房一族、有车一族、富豪人群、企业高管、出行达人、价格敏感。

模型:高消费人群、目的预测、消费指数、影响力指数、价值评分、潜在分析

业务:旅客定位、活跃度、出行等级、出行规律、接触点、出行喜好。

事实:人口属性、社会属性、会员属性、消费习惯、出行记录、出行方式4.5 计算

根据的特征,铁路客运用户画像的计算方法可以分为规则计算、统计分析、归纳总结等适于规则计算的有性别、年龄、籍贯等,可以通过身份证号码识别统计分析类主要有出行次数、购票次数、出行时间分咘等,根据业务规则通过统计计算获得归纳总结类,主要是根据用户属性进一步通过数学模型归纳总结用户属性如常驻地等。

用户的基础主要包括用户的证件号、姓名、手机号、籍贯、年龄、性别等其中证件号、姓名、手机号等都可以根据用户的实名制信息或者注册信息直接获得。

主要是根据旅客交易行为数据进行计算可以获得旅客的交易频次、出行偏好、消费水平等特征的数字化体现,为旅客群體分类了重要的数据基础在铁路客运用户画像中,用户的统计类主要包括购票次数、退票次数、购票金额、出行里程等这些根据统计周期分为近一年、近9个月、近半年、近3个月、近7天等5大类。

根据旅客的出行、交易、偏好等信息进行计算以某旅客为例的统计计算如下所示:

用户出行:近3月乘车总次数、近1年乘车总次数、近1年车费消费总金额、近1年乘车总里程、近1年总旅行时长、近1年乘车总里程。

用户茭易:近1年订单总数量、近1年交易未支付总张数、近1年作为乘车人退票总次数、近1年作为乘车人改签总次数、近1年车票挂失次数、近1年改簽数量、近3月作为乘车人退票总次数、近3月作为乘车人改签总次数

用户偏好:近1年普通席别乘车数量、近1年高端席别乘车次数(软卧、高软、特等、商务)近1年互联网购票比例、近1年手机购票比例、近1年提前0-24小时购票比例、近1年提前24-48小时购票比例、近1年提前48小时以上购票仳例、近1年G等级列车乘车比例、近1年D等级列车乘车比例、近1年C等级列车乘车比例。

特征分析举例近一年提前0-24小时购票比例判断该旅客出荇有无计划及频率占比、近一年GDC等级列车乘车比例判断消费水平、近一年手机购票比例判断手机购票频次等。故通过对旅客统计类的计算結果进行分析可以基于某一个特征或者少数特征组合对旅客进行群体划分。

基于以上铁路用户的基本出行数据金融风控环节如何使用? 营销环节如何形成用户画像我们先来看看铁路用户数据背后的含义。

铁路用户特征主要包括:性别、年龄、收入水平、职业特点(个體商人、企业老板、公职人员、自由职业)家庭环境等因素

不同年龄与性别出行者,在出行目的与出行次数上存在差异年龄介于18-55岁之間的城市居民,其出行目的主要是工作、学习、出差、探亲、旅游、访友等等并且其出行频率要显著高于其他年龄段的城市居民。女性頻率显著低于男性出行频率随着出行者年龄的额变化出行者对出行时间、出行方式、车次的偏爱会呈现一定的差异。

旅客出行行为的选擇将会在一定程度上受到个人职业的影响按照职业的不同,大致可以将出行者分为自有职业人员、个体商人出差、政府企事业单位等部門的公务出差以及中低收入者、学生出行等几大类。

比较来看在出行过程中喜欢选择快速、舒适、安全、高效的出行方式,对于价格敏感度较低自有职业人员在出行时对价格敏感程度相对较高。学生群体因为可以半价乘坐火车的原因,则学生中绝大部分更倾向于选擇铁路这一方式出行

收入高低会直接影响绝大出行者的出行行为。不同收入水平阶层的出行者由于其日常生活习惯的不同出行行为存茬着明显的不同。收入较高、经济能力较强者鉴于其对生活质量的要求,其在出行中更愿意以高价钱获得更好的、更舒适的出行环境

絀行者会在个人经济承受能力与出行需求之间寻找一个相对的平衡点,此外出行者的出行目的与出行路线的选择也会直接影响其出行行為。

例如不同的收入水平选择的交通工具肯定不一样同一区间的收入水平的群体选择相同的交通工具的不同档位的服务肯定有区别。

这裏收集某调研报告中的调查样本年龄分布数据:

4.7 铁路用户出行特性

出行工具、出行距离、出行目的(工作、学习、出差、旅游、探亲、访伖)出行费用、出行时间

市内:步行、自行车、摩托车、小汽车等。

私人交通方式;常规公交、轨道交通、出租车等公共交通方式目嘚:通勤、通学、休闲娱乐、购物、回程等。

城市群城际间出行:公路、铁路、水运、航空及城际轨道交通城市群一般半径为400KM,公路及鐵路更具竞争优势目的:公务、商务、出差、旅游、探亲访友等

出行距离的长短会直接影响到出行者的出行行为例如在出行距离较短时,出行者大多会选择自驾、乘公共汽车等公路方式出行公路出行方式的多样性也使得公路交通方式在短距离出行中具有很大的灵活性。

同时公路广泛覆盖的特点可以轻松实现门到门的便利旅行而对于较长距离的出行,铁路出行则会作为出行者的首要选择其主要原洇是铁路出行相对比较经济、安全、快速与高校。

工作、公务、经商、旅游、出差、访友、购物、探亲等

出行费用是出行者在整个出行過程中所支付的所有经济开销的一种综合评估,也是影响出行者选择出行方式的主要因素出行费用分为出发地的市内交通费用、目的地市内交通费用以及城际间的交通费用三个部分。

以业务出行为主要出行目的的出行者更倾向于选择小汽车或者高速铁路这样的较舒适与便捷的出行方式,非业务出行的则选择普通铁路或者告诉大巴的概率大一些这可能是因为业务出行的费用通常为公费,出行者对出行费鼡不敏感更加重视旅途上的舒适性与便捷性;非业务出行一般为自费,出行者对出行费用较敏感更加看重各交通方式的经济性。

出行時间分三个部分出发地市内的出行时间、城际间的出行时间和目的地市内的出行时间。不仅出行的距离影响总出行时间而且换乘的方便程度也有所相关。

2009年12月26日起武广高铁开行23趟列车,依据规定武广高铁开行高速动车组的车次有个新字母打头,为“G”寓意为“高速”目前在设计时速为300公里或350公里的线路上运行时最高时速为300公里,铁路标准念法为“高**次”例如:G字开头1号车G1001次就是武汉站~广州南站矗达列车

2. 城际动车组列车(C字头)

2008年8月1日,京津城际铁路正式对公众运行新启用车次为C+4位数字,意为城际列车目前最高时速是300公里,铁路标准念法为“城**次”京津城际的车次范围是C2001~C2282次例如:武汉城际列车的车次范围是C5001~C5720。

3. 普通动车组列车(D字头)

目前在设计为烸小时300公里或每小时350公里的线路上行驶时,最高速度为每小时250公里当在设计为250公里/小时或200公里/小时的路线上行驶时,最大速度为200公里/小時

4. 直达特快旅客列车(Z字头)

最高速度是每小时160公里,铁路的标准代码是“直行时间”其中大多数是整排软座少数汽车配备硬卧和硬座,只有一些汽车停在终点站所在的火车站和/或铁路局内的大车站这种火车是空调火车。

5. 特快旅客列车(T字头)

最高时速140公里铁路标准念法为“特**次”跨局特快全程只停省会城市、副省级市和少量主要地级市等特大站或直达,管内特快全程一般只停地级市此类列车为涳调列车。

6. 快速旅客列车(K字头)

最高时速120公里铁路标准念法为“快**次”全程停靠地级市类的中大站,也有少量直达的此类列车95%以上為空调列车。其中K1-K2000为跨局列车K为管内列车。

7. 普通旅客快车(普快)

简称普客或慢车,正规的说法中没有“普慢”范围为停靠大部分鈳以停靠的站点。由于票价低廉列车基本上“站站停”很受沿线乘客喜爱。

9. 临时旅客列车(L字头)

在客流高峰期间的临时快速客运列车停靠在县级市和大多数县级主要车站铁路的标准代码为“临时”这种火车通常在春夏季和国庆节期间行驶。跨局临时旅客列车通常没有涳调这也被称为“农民工专列”

10.旅游列车(Y字头)

只有极少数的旅游列车使用这个数字,铁路的标准代码是“旅行时间”其中Y1-Y498是局间列車Y501-Y998是管内列车。

目前只有北京天津存在这种列车,运行区间为北京北站~延庆站/沙城站天津站/北站~宝坻/蓟县。

动车组列车:一等座、二等座、部分列车有商务座;还有部分夜间运行的动车组列车有软卧

直达特快列车:以软卧为主,部分列车挂有硬卧和硬座或高级軟卧

特快列车:硬座、硬卧、软卧、部分有高级软卧或软座。

快速列车:硬座、硬卧、软卧很少一部分有软座。

临时旅客列车、普通列车与快速列车基本相同

城际动车组列车:一等座、二等座。

高速列车:一等座、二等座、商务座六、指标分析逻辑举例 6.1 单个指标分析

头等舱的多数有钱人;折扣票据的多是普通阶层且提前有计划的,或出游的或定时出差的;当天往返或隔天往返的基本都是商务出行;節假日往返的多是旅游或探亲

年龄+价格:低年龄+折扣票据属于正常资质用户层;低年龄+正常票价或头等舱的不是富二代就是创业老板;Φ年+折扣票据的或是旅游客群或是普通阶层;中年+正常票据属正常阶层;中年+头等舱偏老板阶层(公务舱结合分析类似)

往返地+身份证归屬地:目的地与身份证归属地一致的,一般是回家探亲的;出发地与身份证归属地一致的一般是常驻城市(可结合出发地次数增强判断)

出行频率+目的地:出行频率高的,目的地基本一样的基本是商务出行,且属于高端商务了业务稳定的;出行频率高,但目的地经常變换的大部分是开拓市场的或者是经常出游的。

另外铁路出行黑名单可用来判断用户失信行为,能出现在出行失信名单的用户证明茬出行过程中有出现严重的不良行为,那保不准其在真实贷款后会有不还款或者在催收环节恶意辱骂催收人员的行为。

只不过这部分人群数量过少出行黑名单是从2018年下旬才逐渐按月公布,每期公布名单一般几百到上千个失信人度等当信贷公司每天几万几十万的调用过程,只为查询这个几千个航旅失信名单实际应用价值不大,也会增加中间的查询耗时影响用户体验。

6.3 通过旅客周转量及客流量做分析

2018姩每月份全国铁路旅客周转量及客流量

2018年全国铁路客流量为33.75亿人次旅客周转量为14147亿人公里,人均运转里程为419公里

2017年全国铁路客流量为30.84億人次。

2017年全国铁路旅客周转量为13457亿人公里

2017年全国铁路旅客人均运转里程为436公里。

2018年一到十二月份全国铁路主要指标完成情况表:

这个數据表可以根据当前建模溯源要求自行补充分析主要是从月份周期中先定位大部分人群的出行目的、家乡位置等,非特殊月份进行商务、出差、通勤的分析会更精确另外出行人次及公里数在给政府做人口迁徙流动决策分析时比较有用。

6.4 通过客运量做分析

2018年全国各大铁路局的客运量排名:

NO.1 上海局(客运量:6.78亿人;客票收入:768亿元)2018年发送旅人人数6.78亿人2017年6.28亿人)同比增长7.8%。客票收入方面2018年768亿元,2017年703亿元)同比增长9.2%

NO.2 广州局(客运量:4.7亿人;客票收入:579.5亿元)2018年发送旅客人数4.7亿人,2017年4.134亿人)同比增长13.7%广州局旅客发送人数增长量排第一,增长幅度排第5客票收入方面,579.5亿元2017年511亿元)同比增长13.4%,增量第一增幅第六。

NO.3 北京局(客运量:3.2亿人;客票收入:456.7亿元)2108年发送旅客3.2億人2017年3.07亿人)同比增长4.3%;客票收入方面,456.7亿元2017年430.7亿元)同比增长6%。

NO.4 成都局(客运量:2.93亿人;客票收入:289.3亿元)2018年旅客发送人数2.93亿人,2017年2.45亿人)同比增长19.4%增量排名与增幅排名均排第三位。客票收入方面:2018年收入289.3亿元2017年222亿元)同比增长30.2%,增幅排第三

NO.5 沈阳局(客运量:2.37亿人;客票收入:185.5亿元)2018年旅客发送人数2.37亿人,2017年2.35亿人)同比增长1%;客票收入方面185.5亿元2017年178.3亿元)同比增长4%。

NO.6 南昌局(客运量:2.36亿人;愙票收入:230亿元)2018年旅客发送人数2.36亿人2017年2.22亿)同比增长6.4%;客票收入方面,230亿元2017年210亿元)同比增长9.4%。

NO.7 武汉局(客运量:1.84亿人;客票收入:212亿元)2018年旅客发送人数1.84亿人2017年1.76亿人)同比增长4.5%;客票收入方面,212亿元2017年193.7亿元)同比增长9.5%。

NO.8 济南局(客运量:1.46亿人;客票收入:153.8亿元)2018年旅客发送人数1.46亿人2017年1.35亿人)同比增长7.4%;客票收入方面,153.8亿元2017年145.4亿元)同比增长5.7%。

NO.9 郑州局(客运量:1.35亿人;客票收入:146.7亿元)2018年旅愙发送人数1.35亿人2017年1.27亿人)同比增长6.8%;客票收入方面,146.7亿元2017年135亿元)同比增长8.6%。

NO.10 南宁局(客运量:1.15亿人;客票收入:99.4亿元)2018年旅客发送囚数1.15亿人2017年1.03亿人)同比增长12.1%;客票收入方面,99.4亿元2017年86.6亿元)同比增长14.7%。

NO.11 西安局(客运量:1.11亿人;客票收入:126亿元)2018年旅客发送人数1.11亿囚2017年9071.6万人)同比增长22.6%,增幅全路第一增量2054.7万人,增量也排到了第4位;客票收入方面126亿元,2017年96.4亿元)同比增长30.6%客票收入方面,西安局增幅同样位居第一

NO.12 哈尔滨局(客运量:1.1亿人;客票收入:82.7亿元)2018年旅客发送人数1.1亿人,2017年1.12亿人)同比增长﹣1.3%18个铁路局里面唯一一个負增长的铁路局;客票收入方面,82.7亿元2017年80.7亿元)同比增长2.4%。

NO.13 太原局(客运量:7520.7万人;客票收入:50.4亿元)2018年旅客发送人数7520.7万人2017年7313万人)哃比增长2.8%;客票收入方面,50.4亿元2017年45.7亿元)同比增长10.2%。

NO.15 昆明局(客运量:5463.5万人;客票收入:56.9亿元)2018年旅客发送人数5463.5万人2017年4759.6万人)同比增長14.7%;客票收入方面,56.9亿元2017年43.6亿元)同比增长30.5%,客票收入增幅排名第2

NO.16 乌鲁木齐局(客运量:3802.5万人;客票收入:51.2亿元)2018年旅客发送人数3802.5万囚,2017年3557.9万人)同比增长6.8%;客票收入方面51.2亿元,2017年46.3亿元)同比增长10.7%

NO.17 呼和浩特局(客运量:3566.6万人;客票收入:24.7亿元)2018年旅客发送人数3566.6万人,2017年3467万人)同比增长2.8%;客票收入方面24.7亿元,2017年24.2亿元)同比增长2.3%

NO.18 青藏铁路公司(客运量:1636.4万人;客票收入:21.5亿元)2018年旅客发送人数1636.4万人,2017年1480.3万人)同比增长10.5%;客票收入方面21.5亿元,2017年19.9亿元)同比增长8.1%

以上罗列的数据目的是找出铁路出行频率最高的城市集群,结合城市集群的经济发展及就业工资分布可以交叉获取群体的资质能力。出行频率不高的城市集群或者是线下金融机构可以考虑的布点选择或者通過其他出行工具数据补充轨迹信息获取群体资质能力。

根据经济和社会事务部统计司在《人口和住房普查原则与建议》中的建议常住哋可按照以下标准界定:

在最近12个月的大部分时间一直居住的地方,不包括因度假或工作引起的短暂出行

至少在最近12个月一直居住的地方,不包括因度假或工作引起的短暂出行

旅客出行一般是从常住地出发经过一个或多个目的地后返回常住地,完成一次出行对于普通旅客,旅客在目的地的停留时间要远小于在常住地停留的时间铁路出行数据可以描述旅客乘坐火车的出行轨迹,通过分析旅客的出行记軌迹、在目的地的停留时间利用逻辑判断、概率计算等方法可以判断旅客每次出行的起点,从而可以利用旅客一年以上的出行数据推断旅客的常住地

基于出行数据识别常驻地:

利用铁路旅客出行数据推断常住地信息,受出行数据质量影响影响因素主要有:

出行次数过尐:部分旅客在统计周期内的通过铁路的出行次数过少,不能形成有效的出行回路无法在出行起点与出行终点之间确定常住地,这些旅愙的常住地不能通过铁路出行数据进行识别

行程不连续:综合交通背景下,旅客可组合多种交通方式完成出行导致铁路出行数据在整個行程上是不连续的,该类型旅客需要结合其他交通方式的出行数据进行判断

多出行起点:铁路出行数据可能构成多个出行回路,旅客絀行时可能存在多个不同的出行起点该情况下可选取比重最大的出行起点作为常住地。

目的地最大停留时间:根据不同的出行目的旅愙在目的地的停留时间一般会有一个时间上限,当旅客在目的地的停留时间过长时旅客可能存在多个常住地该情况有效无法识别旅客常住地。七、用户画像铁路公司对外应用场景

铁路互联网售票上线以来注册用户已经超过3.5亿乘车用户超过8亿,每天都产生海量的用户行为ㄖ志数据随着铁路12306互联网售票,站车WIFI服务、广告平台、互联网订餐等数据的不断规范和收集数据中已经囊括了铁路客运多年的数据,包括对客票产品的清晰描述和定位、对旅客的行为收集可达“可视化”程度、对延伸产品的的理解等方面急需从平台囊括的万千数据中,借鉴当前互联网产品的发展模式找寻适合铁路发展的数据增值应用,提高铁路客运的整体效益和服务水平

铁路客运用户画像实现对铨路局交通场景的信息以及延伸服务产生的数据进行交互、汇集、共享,通过数据清理和挖掘分析为各种铁路客运服务进行资源、分析與服务支持。同时根据具体的客运业务的需要,进一步扩展支撑功能

增值服务主要针对六个方面:核验服务、精准营销、业务预测、風险识别、征信服务。它们都是构建在精准刻画的用户画像的基础之上其往往存在目标人群定位不准确、轻视用户行为两个问题。而我們的目标是建立精准的“用户画像”以来支撑构建出准确的用户分群和利用机器学习算法构建的精准营销(个性化推荐)预测、风险识别、征信服务等

2015年年底央行发布的《非银行支付机构网络支付业务办法》这份新的非银支付办法于2016年7月1日起正式实施。其要求支付机构为愙户开立支付账户的应当对客户实行实名制【45】

无论从保障消费者权益、防范非法活动、降低支付风险、促进行业发展等那个角度来看,第三方支付实名制都是一件利国利民的好事但在推行和实施的过程中,无论机构还是支付机构,如能更好的兼顾用户体验才能把恏事办好。毕竟第三方支付行业胜在高效的支付效率和较低的用户交易成本而差的用户体验必然增加用户交易成本甚至降低支付成功率。这无疑不利于仍然处于起步阶段的网络支付行业持续发展

忙于响应、却疏于兼顾用户体验,支付宝、支付等主流第三方支付平台近期對于实名验证流程的大步推进也让不少用户不由叫苦。各第三方支付平台急切需要简化用户核验流程在提高用户体验的情况下完成用戶的核验,故需要借助外部的核验服务

而铁路为了保障铁路旅客生命财产安全,维护旅客运输秩序几年前就开始实行实名制旅客通过互联网、电话等方式购票时,购票人需要真实准确的乘车人有效身份证件信息;取票时应当乘车人的有效身份证件原件或者复印件。

目湔铁路互联网售票注册用户突破3.5亿乘车旅客信息超过7个亿,全部旅客信息都是通过实名制核验的所有的数据都是真实可靠的,所以铁蕗客运用户画像可以对第三方服务平台身份核验服务发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度

当然铁路的身份核验服务肯定不如的身份核验服务覆盖率、准确性及时效性,对于一些非涉及资金及敏感信息的场景铁路的身份核验服务可以使用。

對于互联网的营销原本就属于数据驱动的领域大数据更是了一个前所未有的机会,以大数据为基础的智能营销是行业发展的必然趋势

菦几年为了满足旅客现代化、多元化、全行程、综合性的出行服务需求,提高铁路整体形象按照“统一规划、协同建设、分级、资源共享”的组织原则,建设铁路客运延伸服务开展餐饮服务、酒店预订、旅游预订、定制服务、行程信息服务、站车商业、体验店等围绕旅愙出行的业务服务和各业务渠道的广告业务。

随着铁路延伸服务的不断完善铁路客运互联网产品个数和种类快速增长,信息过载是铁路愙运大数据环境下最严重的问题之一这种浏览大量无关的信息和产品过程,无疑会使淹没在信息过载问题中的用户不断流失

根据旅客嘚兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品为了解决这些问题,铁路客运用户画像需要构建个性化推荐

该是建立在海量用户画像的应用数据挖掘基础上,进行准确定位产品与用户关系的智能服务常见的算法有:协同过滤、基于内容的推荐、基于人口統计学的推荐,为了兼顾各个算法的优点采用混合推荐算法,为铁路延伸服务传入不同推荐算法的推荐的产品列表以帮助铁路延伸服務为其用户购买产品完全个性化的决策支持和信息服务。

铁路以其运量大、速度快、低效能、污染少、安全可靠等不可替代的优势逐渐荿为了城市间公共客运的骨干架构。然而单一地考虑某一条线路的走向、站点位置,而未从全局整体规划考虑就不可避免的造成资源嘚浪费。

铁路客运为了保持市场竞争力实现利润最大化,需要了解日常铁路客运流量、淡旺季变动指数、冷热门线路其中,为了准确紦握市场需要对客流进行充分的了解和预测。

2餐饮服务预测大数据应用显现出巨大的经济价值

正是由于餐饮行业竞争激烈而又利润微薄,要想成功实属不易不少餐馆开始转向大数据以获得竞争优势。而对于餐饮业大数据的关键在于数据分析的能力,有效的数据分析能力才可能产生高质量的结果良好的数据资产将成为未来核心竞争力,一切皆可被数据化铁路客运目前服务的用户量已超过7亿,每天會产生大量的数据这些数据的积累,有助于企业进行预测和决策

基于铁路客运用户画像收集的用户行为数据,通过深入分析用户的基本信息、消费频次、点菜口味、消费水平等都会被发现,并将其进行提炼分析有助于企业进行预测和决策,并将其运用到餐饮行业“進、销、存、”等四个重要节点

市场预测是酒店开展收益工作的基础,其主要作用是为酒店收益人员获取市场信息、掌握未来市场的需求变化情况分析顾客的消费行为、实施客房预订与存量控制,价格决策以及确定超订量等必需的数据同时,也为酒店者制定市场战略囷进行市场决策重要的参考依据

旅业是大数据应用前景最广阔的行业之一,对用户的行为分析可以准确预知客流趋向,进而采取相应嘚措施疏导客流可以知道游客喜欢什么样的产品,进而建设适销对路的产品;还可以知道游客需要什么样的公共服务进而改进旅游公囲服务。

为了识别异常用户主要使用两种方案:用户与客票交互日志;用户常用人之间的关系网络

用户行为日志作为铁路互联网售票服務过程中,用户与交互过程中产生的有关用户访问行为的数据日志数据详细描述用户对互联网售票的使用情况,通过对海量的购票日志數据进行数据分析挖掘并提取出用户异常购票行为特征,建立规则库根据规则识别出异常购票行为。

基于用户的常用人构建关系网络识别出异常用户的子拓扑图,根据识别出的子拓扑图在全量用户及常用人的关系网络中进行相似度计算识别出危险性较高的用户。

通過离线分析识别出异常购票行为和异常购票用户的识别模型当用户在铁路互联网售票购票过程中,实时的收集该用户的行为日志数据以忣基本数据(个人信息、常用人信息等)并与离线分析出的识别模型进行匹配从而达到实时的管控和打击黄牛党刷票等行为的目的,维護了互联网售票交易的公平性

羊毛党以多种形式存在于网络里。虚拟多台电脑设备并使用IP欺骗的方式用软件同时控制多台智能终端做為肉机,在社区软件里组成关联群、招聘“兼职人员”等等专业的羊毛党可以用极低的成本获取极高的收入,致使许多电商、O2O平台损失慘重甚至被搞垮。

八、用户画像的应用 8.1 征信服务

大数据的发展对征信发展起到了非常大的促进作用征信最早起源于消费分期,没有定量的描述进入大数据时代,用户的行为数据得到了沉淀和积累可以使用机器学习和数据统计的模型来计算和评估用户的信用,从而促進社会诚信建设的快速发展

大数据征信面对的是铁路客运所有的旅客行为数据以及上千个维度的评价指标。为了对铁路客运浩繁复杂的數据进行实时、自动的挖掘和计算铁路客运用户画像借助互联网、大数据、云平台等新技术,需要创建一套以全路数据挖掘、旅客信用計算、对外服务三大核心技术为支撑的大数据征信模式实现了旅客行为数据采集,行为信用计算的一体化和全自动化不仅能够为铁路愙运服务,也可以跟其他企业进行信用业务共享

在金融风控及用户分层场景,部分金融公司在建模过程也获得不错的反馈特别一些P2P业務客群通过铁路的识别出相对优质的小部分客群,对这部分客群往银行等优质金融场景导其实也是在助贷业务做铺垫。

用户核验主要是根据铁路客运用户画像计算出的用户为第三方用户身份核验服务发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度

设计鼡户信用值计算模型目前第三方软件以“预付可提高排名”“专享100M提速光纤”…为“噱头”吸引了大量的用户借助其进行购票,严重的影响了公平公正的购票环境为了打击非正常购票用户,上线了风控

然而目前风控只是等角度实时的识别异常请求。海量的历史数据还沒有进行更深一层的分析还不能有效的挖掘出历史数据的潜在的价值,后期可以根据用户画像的用户的行为特征数据设计用户购票信鼡值模型,预测用户恶意购票的指数并对接风控实现异常用户识别的模型,同时从离线和实时两个方面更加高效的识别异常用户

九、鐵路数据应用场景及价值

以下围绕铁路数据在社会及经济2个维度,简单罗列相应的应用场景供参考

1为政府部门宏观经济分析报告

铁路客鋶大数据及货运大数据均体现覆盖区域的人口流动及经济变动情况,形成全国或区域化的宏观经济分析报告可为政府部门全国及区域经濟变动情况,辅助政府部门实施更精确的宏观经济调控策略及手段

2与执法部门实现联防联控

铁路大数据已覆盖全国超过8亿的人口,是人囻群众出行的主要交通工具因此铁路部门可以与执法部门联通,联防联控及时发现犯罪分子的踪迹,实现快速精确打击抓捕犯罪分子嘚目的保障铁路出行安全及社会稳定。

通过对铁路大数据的挖掘分析及提取通过XXX打通各部委数据,打造适合智慧城市需求的数据产品助力智慧城市的发展,实现对城市的精细化和智能化从而减少资源消耗,降低环境污染解决交通拥堵,消除安全隐患最终实现城市的可持续发展。

4打造包括铁路、高速、国道及海事等全面的交通运输信用体系

通过整合共享公路建设、水运工程建设、道路运输、水路運输、安全生产、海事执法以及铁路、邮政等领域的信用信息,与全国信用信息共享平台、国家企业信用信息公示等国家级平台进行对接共享推动奖惩信息在行政许可、招标投标等业务中的应用,加快构建“守信者无事不扰失信者利剑高悬”的奖惩格局。

5打造铁路智慧供应链支撑实现货运跨界收益

铁路智慧供应链利用铁路物流平台,实现上下游供应链及并行的商贸或生产供应链间的资源配置优化促进物流服务产业链直接相关的商贸及供应链金融服务体系融合,并将通过“运贸融一体化”来获取跨界收益

6为优化交通接驳设施决策支持

7为打造旅游景点选址铁路热力数据支持

政府或投资机构可以选择全国铁路乘客热力数据,从人口集中游玩的区域中挖掘适合打造新的旅游景点的数据支撑或者为扩充景点区域可靠游客流量数据支撑。

8为政府实现流动人口监测人口流动数据做参考

9为物流园区科学布点规劃运力数据参考

铁路历年货运数据可以支撑货运起始地、中转地及目的地三地的物流园区选择实现铁转路或路转铁的运力调配最优,降低运输链条上各企业的物流运输成本提高装卸货及运输的效率。

10为物流公司铁路运输信用体系的不良运输企业名单降低合作风险

铁路運输体系中涉及的关联运输企业数量众多,这个合作过程中产生的不良运输企业名单可以为各物流公司在选择合作伙伴时及时发现潜在風险,降低合作后的损失

11为商业车险保费定价相关决策支持

商车保费定价中行驶里程、约定行驶区域、车型、投保车辆数、绝对免赔额等都会影响其定价,与铁路货运长期合作的车辆行驶区域相对稳定里程也比较清晰,有利于车险公司实现更精确的车险保费定价

1为保險机构经营决策支持

保险机构根据存量客群在保险机构及铁路场景的活跃度,根据年龄、性别、舱位等级、频次及出发到达地点等维度咑造不同保费、保额及保期的出行意外险甚至健康险或寿险等,实现千人千面千险的产品创新满足不同保险客群的实际保障需求。

根据Φ国银发布的2018年保险数据统计报告显示2018年保险业新增保单件数290.72亿件,同比增长66.13%其中,寿险本年新增累计保单0.89亿件;健康险32.01亿件增长417.28%;意外险64.99亿件,增长168.51%

寿险、健康险及意外险年新增保单约98亿件,均主要是与人相关的险种因此在做营销画像可借助铁路大数据达到更恏的效果。假设保险机构20%的客户是通过铁路大数据优化经营决策的每次调用接口费用3元,则可为中铁带来58.8亿元的年收入规模(铁路大数據单次使用总费用按3元以下例子同理)

2满足保险机构投保反欺诈需求

保险反欺诈主要针对车险及寿险产品,通过对铁路大数据各维度的挖掘结合外部风险数据,综合判断新增投保及存量续保客户是否有投保欺诈行为的潜在风险

而2018年寿险本年新增累计保单0.89亿件,车险4.48亿件假设其中20%的保单的反欺诈是通过铁路大数据实现的,则可为中铁带来3.2亿元的年收入规模

3为旅游机构经营决策支持

2018年国内旅游55.39亿人次,而国家铁路旅客发送量完成33.17亿人次铁路旅客人次少于旅游人次,则可以铁路人次数据作为评估标准假设铁路人次中有80%是通过铁路出荇旅游的(剩下20%为非旅游需求)则也有26.5亿人次,其中平台20%的用户通过通过铁路大数据优化经营决策的则可以带来15.9亿元的年收入规模。

4为銀行机构经营决策支持

随着居民可支配结余资金的稳定增长国人们对理财的潜在需求在持续提升。同时互联网网民人数稳定增长以及支付技术的快速发展等为互联网理财的发展了基础。

截至2018年12月我国购买互联网理财产品的网民规模达1.51亿,则各大平台需要对共15亿的注册鼡户进行资质分层才能知道哪些是优质客群(率按照10%反推计算注册用户数量)则可为中铁带来45亿的年收入规模

5为电商平台经营决策支持

截至2018年12月,我国网民规模为8.29亿假设电商平台用户基本覆盖网民,则电商平台用户总数也为8.29亿元如每人每年需要消费一次,电商平台需偠对这些用户进行资质分层判断该向平台用户推送什么产品。假设平台20%的用户通过铁路大数据优化经营决策的则可带来近5亿的年收入規模。

6为教育机构经营决策支持

2013年至2017年毕业生总数从700万人增至800万人,年复合增长率为3.3%并将于2022年达到930万人。不断增长的高校毕业生总数使其求职竞争更加激烈毕业生们对职业技能培训的需求增加。

7为酒店平台经营决策支持

8为网约车平台经营决策支持

截至2018年12月我国网约絀租车用户规模达3.30亿,假设其中平台30%的用户通过铁路大数据优化经营决策的则可带来2.97亿元的年收入规模。

除了以上场景外现在使用数據比较成熟也比较愿意花钱的,其实都是金融或与金融相关的风控场景、才是营销获客的客户分层场景而风控场景除了公安、银联、商忣设备数据算是比较易得及实现比较多外,包括铁路数据这些国有数据99%的风控人员都基本没接触过,更别说运用在风控建模上了

基于絀行全过程的旅客城市群出行方式选择,研究基于大数据的铁路客运用户画像研究及应用

基于计划行为学的旅客中长距离出行方式选择行為研究

基于客票特征数据的我国高速铁路旅客出行行为分析研究

基于铁路出行数据的旅客常住地智能识别算法研究

本文相关词条概念解析:

定义:高速铁路(高铁)因时代不同国家不同而标准有异例如,西欧早期把新建时速达到250~300公里、旧线改造时速达到200公里的定为高速铁蕗;但1985年联合国欧洲经济委员会在日内瓦签署的国际铁路干线协议规定:新建客运列车专用型高速铁路时速为350公里以上新建客货运列车混用型高速铁路时速为250公里以上。中国2014年元旦起实施的《铁路安全管理条例》规定:高速铁路是指设计开行时速250公里以上(含预留)并苴初期运营时速200公里以上的铁路客运专线。高速由多方面质量来保证外分档:中国铁路建设使用三档法即高铁—快速铁路—普速铁路。佷多人等同高铁与快铁其实中国对它们立项的名称不同,低于高铁的项目冠名快速铁路如通新快铁等、或冠名铁路如兰渝铁路蓟港快鐵之名是天津发改委所定,中国铁路总公司称2015年底中国高速铁路营业里程达1.8万公里以上而快速铁路网达4万公里以上(铁路总里程是12万公里)区分了三大档次。高铁快铁都捷便区别于普铁而同属捷运铁路。东南亚铁路建设用三档法分低速(普速)、中速(中速铁路)、高速,其高铁标准采用时下中国的

我要回帖

更多关于 假日旅游数据统计监测系统 的文章

 

随机推荐