4DPR如何利用数据去分析百度推广数据分析报告啊?

{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"title":"数据冰山专栏历史文章","author":"sun-jing-7-14","content":"大数据行业相关:数说生活:餐饮美食相关:
鞋服相关: 房产相关:
汽车相关: 手机数码相关:
互联网相关: 金融财经相关:技能学习相关: ","updated":"T07:17:31.000Z","canComment":false,"commentPermission":"anyone","commentCount":12,"likeCount":210,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","titleImage":"/v2-c3eda6b26b87d9ee342f266_r.jpg","links":{"comments":"/api/posts//comments"},"topics":[{"url":"/topic/","id":"","name":"大数据"},{"url":"/topic/","id":"","name":"知乎专栏"},{"url":"/topic/","id":"","name":"书籍目录"}],"adminClosedComment":false,"href":"/api/posts/","excerptTitle":"","sourceUrl":"","pageCommentsCount":12,"snapshotUrl":"","publishedTime":"T15:17:31+08:00","url":"/p/","summary":"大数据行业相关:","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"commentsCount":12,"likesCount":210},"":{"title":"揭开财务模型的神秘面纱","author":"he-ming-ke","content":"此Model,非彼Model如果你约一个做投行咨询或者投资圈(不包含VC)的好朋友来撸啊撸,他一定会常常答复你,因为要搞model而没空。在留着哈喇子艳羡而独自撸啊撸的时候,请不要着急,因为他八成是在搞一个假的model,而实际上搞的是Financial Model。投行咨询或者投资界常说的Financial Model,俗称财务模型,听起来高大上白富美,实际上数学原理不超过四则运算,顶多加上开方和乘法。而且制作工具也非常简单,基本都是Excel。这个领域的Financial Model的复杂性不是体现在理论,而是体现在:商业逻辑清晰:找出核心的假设灵活性强:根据客户或老板需求快速调整,有时候真的是先有结论后有推论胆子大:针对众多不可测的变量敢于进行有量级精度的假设或者瞎猜,物理界有海森堡测不准原理,商业界有鲁智深测不怕原理基本可以这么说,几乎所有的财务模型都是拿Excel做出来的。包括但不限于:偏会计或财务方面:财务三张报表的历史及预测偏项目投资或项目管理方面:NPV/IRR等模型偏股权及债券投资方面:市场规模预测、投资价值预测(DCF及Comparable等等)等等、针对各种股权的回报预测偏交易方面:针对各类金融产品(FX、衍生品等等)的模型估算和执行策略等等。如何搞好Model因为Financial Model基本成为这几个高薪行业的基本功,不少人私信我要求开一个关于如何做财务模型的Live,因为犯懒就利用这个专栏文章好好满足大家的需求。下图展现的是一个经典Financial Model的架构,选择这个模型来作为范例,因为它基本涉及到了金融和投资领域大部分需要建模的可能性:三张财务报表的预测、资产注入、投资回报及敏感性分析、LBO以及股份计算等等。接下来讲述按照怎么样的顺序和思路来构建如此复杂的财务模型。我将这套方法称之为“逐步推进法”,核心主线是按照信息或数据的确定性,从强到弱,从常数、到历史数据、到假设、到商业条件逐步罗列出模型的已知数据,然后构建各类公式,把已知数据推导到目标数据,最后完成最核心的分析并展现最核心的输出。第一步,设置核心常量。这一般都是些在该模型中不变动而且会高频反复用到的常量,比如:所得税率、汇率(当然在某些模型中,汇率会成为变量或者敏感性分析中的场景变量)、市场调研报告对某类市场规模的历史数据总结及预估等等。建模型的最初可以梳理一遍,当然不可能尽善尽美,但是可以在构建过程中不断添加。第二步,输入历史的财务报表。将历史的财务数据(完整的三张报表,如果需要,有可能拆分到每个季度或者1H/2H),输入到适合此次建模需要的标准格式中,并进行一定的财务指标分析,许多数据在核心假设设定以及场景设定中都有可能作为变量来使用。在输入历史财务报表中的一个难点是,因为各报表的财务分类偶尔会发生变化或者季报和年报的财务分类会略有不同,如何将其形成延时间序列完美展开的统一格式,是输入历史财务报表中的难点。另外财务模型的核心是做出预测的三张财务报表,配平Cash Flow永远是一个蛋疼的点。这里有一个诀窍可以分享,就是对历史Balance Sheet中的各项按照Cash Flow的财务项进行归类并确定-/+,这样在预测财务报表的时候,搞定了另外两张表,七七八八就可以利用统一的公式自动生成Cash Flow。第三步,设置核心假设。对于一些核心的假设提前列出来便于反复修改,比如:收入的逐年增长率、营销成本的占比以及毛利率等等,这一步的不少数据来自于第二步的财务分析。这一页的数字全是基于人肉假设,公司的一些财务指标会基本保持恒定(如:SG&A占比在商业模式很定的情况下保持不变)或者线性的可预期变化(如:市场份额的逐年增加,或者营销费用随着市场垄断地位的提升而逐年降低)。这些假设看起来简单粗暴直接低科技,然而就个人经验而言,这是财务模型中最核心的部分——对公司以及相关部分最深入的理解,从公司的内部因素(成本控制、变现效率以及商业模式),到外部因素(税收政策、汇率变动以及竞争格局)。同时把这些因素都转化成数字,这个定量化的过程不求绝对的精准,而只求量级符合基本商业规律。比如:市场份额在三年内从10%增长到15%还是16%谁也说不准,但是增长到50%就有点违背商业规律(互联网赢家通吃的模式另说)。在财务模型中,往往有巨多的假设数据,这也是财务模型经常被人诟病之处。所以最好还是按照一定的框架或者思路呈现这些假设的数据,比如:以财务三张报表的核心架构作为假设数据的呈现结构。(灰色区域遮挡的模块是该公司的不同产品线)第四步,设置各类商业条件。财务模型的另一大功效是验证那些核心的商业条件以及它们对于最后产出(比如:利润还是投资回报倍数等)的影响。一般来讲根据某种商业条件由多个假设参数来描述,对多个假设参数进行不同程度的调整之后形成某种商业条件(也可叫做场景,case),最后观察不同商业条件下产出的差异。对于真正的决策层来说,往往不是根据一个数来拍,而是根据一个范围以及概率来做博弈判断以及最后的决定。因此这种不同商业条件对结果影响的分析,颇为重要的。业界比较通行使用悲观、中性和乐观三种商业条件。然而这只是一维的,当然可以增加更多维度。下图就是两个维度的商业条件假设:不同的市场规模增长率(悲观、中性和乐观),不同的市场占有率变化(悲观、中性和乐观)以及毛利率变化(悲观、中性和乐观)。在本案例中,商业条件还要考虑资产注入的情况以及借债投资的情况。第五步,计算。这部分全是干货,根据上面提到的已知数据、假设数据或者选中场景中的数据,严格按照公式进行计算(看起来公式很多,但是不用恐慌,这里的计算很难超过四则运算)。一般来讲,首先需要推导出来的时候预测的三张财务报表,这是之后更负责计算的基础。当然财务模型的产出不可能仅仅是财务报表,投资人又不是会计。下图是在本案例中的核心产出,不同场景下的IRR和回报倍数计算。该产出依赖于之前的计算过程——三张财务报表预测以及PE倍数假设等等。下图以两个维度参数(EPS及PE)做敏感性分析。同时这个产出涉及到了LBO和资产注入两大类商业条件的组合,最后其实是一个4维度的敏感性分析。商业条件通过前面提到的那一页来控制各类输入组合。第六步,总结以及美观呈现核心产出。除去上面的计算过程不谈,最后需要把最核心的产出以美观形式呈现出来,便于讨论。到此,一个比较完整的模型就此完成。...更多回答请看...更多文章请到","updated":"T02:11:57.000Z","canComment":false,"commentPermission":"anyone","commentCount":49,"likeCount":951,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T10:11:57+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":49,"likesCount":951},"":{"title":"从线上数据看2017年上海车展","author":"shu-ju-bing-shan","content":"日,汽车行业的年度盛事——上海车展在国家会展中心(上海)正式开幕。本次车展延续10天,至28日圆满落幕。上海车展每两年举办一次,和北京车展一样,是全国顶级的车展活动,并正迈向世界A级车展行列。本年度的上海车展有千余家来自世界各地的汽车厂商参展,并吸引了大量的公众和媒体关注。据官方统计,本年度的参观人次达到101万次,有万余名记者参与了车展的报导。在移动互联网背景下,对车展的参与也远远超出了会场的范畴。除了传统媒体,互联网媒体、自媒体等新媒体也纷纷参与到对车展的报导中;广大网友也通过直播互动、论坛讨论等方式间接地参与到车展中。新媒体和线上参与所涉及的人数之广、互动之频繁也超过了以现场参观为主的传统参与方式。在本文中,我们试图从线上直播采集到的弹幕数据出发,来展现线上参与者对上海车展的期望与印象。从线下到线上:自媒体和直播崛起,线上受众远超线下除了传统媒体在现场的报导,互联网媒体纷纷发力,创建了自己的上海车展主页。例如,百度推出“车展温度计”,从百度指数角度反映车展期间的品牌热度变化;汽车之家、新浪汽车等也推出上海车展专页,提供信息查询、新闻报导等服务。但是,今年上海车展的最大变化来自于报导方式的变化:大量的自媒体和互联网媒体开始通过以直播的方式实时带领线上观众参观车展,并和观众互动。我们统计了新兴直播平台“一直播”下参与直播上海车展的主播,得到了综合影响力前五的主播:可以看到,排名第5的主播1天观看人次就超过车展现场10天的总参观人数,更不用提排名第一的王兮兮主播高达900万(3天)的观看人次。而一直播只是目前国内的主流直播平台之一,由此可见自媒体和直播在本次车展中的影响力之大。此外,我们也研究了“上海车展”百度搜索用户的画像。从搜索需求来看,大部分搜索用户以“时间”、“门票”、“官方网站”等为搜索需求;因而可以认为,“上海车展”的百度搜索用户基本上代表了线下观众或者有意去上海本地参加车展的观众。另外,我们以汽车之家对上海车展的直播报导的观众作为线上观众的代表,来比较线下和线上观众的画像。下图分别展示了“上海车展”百度搜索用户的地域分布及汽车之家直播观众的地域分布:可以看到,有意到现场参与上海车展的群众主要分布在上海本地和周边的江苏、浙江两地,江浙沪三地的群众构成了上海车展现场观众的主力;在这三地之外,只有北京和广东有较高的分布,其他省份的群众非常少。而视频直播的辐射范围则要广得多,几乎全国各省份都有一定程度的涵盖,而其中以广东、山东、江苏、云南等省份居多。由此看见,通过互联网和直播,上海车展的受众得到了极大的拓展。国别和类型:国产车占据半壁江山,SUV超越传统轿车汽车之家也在19日、20日两天对上海车展做了直播报导,主持人带领观众对主要的参展车辆都进行了较细致的介绍和镜头展示,总观看人次达到158万,弹幕总量达到30万。我们爬取了这场直播所有的弹幕,并通过对这些弹幕进行文本挖掘,通过计算不同国别、类别下的车型的提及次数,得出不同国别、类型的关注热度。首先是不同国别下的品牌关注总数:可以看到,国产自主品牌的总提及数占到所有参展品牌的一半以上,体现了国产自主品牌在近年来的逐步崛起。排在其后的是日本、德国、美国三大汽车生产国。而韩系车可能由于受到萨德事件的影响,提及数在本次车展中垫底,不仅远不如日德美这些竞争对手,甚至也比不过瑞典、捷克等国。轿车和SUV是本次车展的绝对主力,占到提及总数的90%以上。下图展示了不同大小类型下的轿车和SUV的提及总数:可以看到,近年来大受欢迎的SUV在本次车展上的关注度已经超越经典轿车了,尤其是在中型、紧凑型等型号上的关注度与传统轿车相比优势十分明显,可见SUV成长速度之快和受欢迎的程度之深。其中,首次亮相/上市的几款SUV更是获得了热烈关注,预示着今后SUV仍是大热。最受关注品牌与车型:领克01和WEY VV7竞争首席新车同样基于对弹幕数据的文本挖掘,我们提炼出观众对于各个参展品牌和车型的提及次数,并制作出最受关注品牌和车型榜单。首先是提及次数最高的品牌前20名:可以看到,排名最靠前的品牌是哈弗。哈弗是国内厂商长城旗下的品牌,其下的哈弗H6曾缔造了销量奇迹。第二是本田,除了本田已有的车型外,新款的本田CR-V也在本次车展格外得人眼球。第三和第四都是全新的品牌:领克是吉利汽车新推出的高端紧凑型SUV,领克01在本次车展中首次亮相;而WEY则是长城新推出的品牌,WEY VV7在本次车展中正式上市。在对车型的排名中,我们区分了已经上市/发布的车型和在本次车展中首次亮相/上市的车型。下图为已经上市/正式发布的车型提及最高的TOP10:其中,广汽传祺GS7位列已经上市/发布的车型中的第一位,跟在其后的是五菱宝骏310和大众CC。即便是对于已经上市/发布的车型,直播观众也更喜欢提及发布不久(如:广汽传祺GS7,2017年)和上市不久(如:大众CC,最近一款为2016款)的较新的车型。下图为本次车展首发车型(首次亮相/上市)的提及次数排名前十:最突出的是,领克01、WEY VV7和新本田CR-V以4000次以上的提及次数位列新车型前三甲。领克01和WEY VV7的领先,展现了这两款分别由吉利和长城力推的主打中高档价位的SUV在本次车展中获得了巨大的关注。紧接其后的新本田CR-V和新别克君威作为之前就广受欢迎的车型的改进版,也获得了较高的关注度。新车印象:总体不错,便宜、豪华、安全等成为关键词在车展上首次推出的车型往往引发汽车爱好者对于该车型的大量讨论,观众对于首次亮相的印象也往往对该车型日后的销量有所影响。我们爬取了上述最受关注的5款首发车型(领克01,WEY VV7,新本田CR-V,新别克君威,阿尔法罗密欧Stelvio)的汽车论坛在车展期间的所有评论,并针对每一条评论使用TF-IDF算法提取词性为形容词的关键词,并以此为基础,总结线上车友对这些车型的第一印象。在剔除掉和车本身无关的形容词后,在对这五款车的评论中,较多地使用了以下词语:可以看到,车友对于这五款车的评价大多为正面:除了“一般”这一中性词外,其他使用频率较高的均为正面词,例如“便宜”、‘豪华’、“舒适”、“安全”等。其中,“不错”一词使用频次最高,成为车友最常用的评价词。为了进一步了解这五款新车在不同方面的印象,我们将词语划分为“总体”、“价格”、“外观/设计”、“性能”等四类。下图展示了被划分为“总体”类型的词语的占比:在对这些车型的整体评价上,“不错”一词占到了73%;其后的是“厉害”、“完美”、“诚意”等更为正面的词语。而“及格”这一负面词的评论不足0.1%。其次是关于“价格”、“外观/设计”和“性能”三方面的词语的提及占比:在价格上,“便宜”以79%的绝对优势位列第一。这说明,即使是在有两款定位较高的车型(WEY VV7和领克01)在内的情况下,大多数车友仍然认为这几款车较为便宜。另外,在外观和设计上,“豪华”一词以44%的占比位列第一,而“豪华”的评论主要由领克01和WEY VV7两款车的论坛评论贡献,反映了近年来国产品牌越来越追求品牌的升级。“豪华”与“便宜”同在,反映了这两款车在中端的品牌定位和相对合适的市场价格上取得了较好的平衡。最后,在性能上,“安全”以近半数的占比位列第一,“舒适”和“舒服”也获得了较多的提及,“稳定”位列第三。新车展望:领克01和WEY VV7互打擂台,CR-V最受日系车迷关注为了对新车日后的发展做进一步的展望,我们通过挖掘不同车型之间的关联规则来探索几款新车的活力。在关联分析中,常用的两个指标为支持度计数(support count)和置信度(confidence)。以经典的“啤酒、尿布”关联的例子为例,“啤酒、尿布”这一集合的支持度计数是指同时购买“啤酒”和“尿布”的人的数量;而“啤酒、尿布”的置信度是指同时购买“啤酒”和“尿布”的人数和只购买“啤酒”的人数的比率(注:和统计上假设检验的“置信区间”并不相同)。支持度计数反映“啤酒、尿布”同时出现的绝对次数;而置信度剔除了“啤酒”本身的频次影响,反映购买“啤酒”的行为对购买“尿布”行为的预测强度。同时具备一定的支持度计数和置信度的集合中的项被认为具备较强的关联性。在弹幕数据中,我们将某个用户所发弹幕中提及的所有车型视为一个待挖掘的集合。我们选取了三款关注量最高的车型(领克01,WEY VV7,新本田CR-V),并使用Relim算法找到了这些新车的频繁项集(最低支持度计数定为5,最低置信度定为0.05)。对于某一款新车而言,如果存在较多的频繁项集,则意味着其他车的车迷也更多地关注这款车;这种普遍的关注,说明了这款车跨品牌、跨车型的吸引力,也会在一定程度上转化为更广泛的购买行为。对于领克01而言,我们找到了21个频繁项集:也就是说,图中除领克本身以外的21款车型的车迷都比较频繁地关注领克01。这意味着,领克01对众多的品牌、车系的车迷都有较强的吸引力,彰显出极强的活力。其中,同时关注WEY VV7和领克01的人数最多,支持度排到第一。另外,“领克01 + WEY VV7 + 其他车型” 也成为一种范式,这意味着其他车型的关注者也较多地同时关注领克01和WEY VV7,体现了二者的高度竞争性。下图展示了和领克01有较强关联的车型的支持度计数(横轴)和置信度(纵轴),点的大小代表了该款车关注人数的多寡:WEY VV7对领克01的支持度计数达到180,置信度也达到14.4%。这意味着有180位发弹幕的车友同时关注WEY VV7和领克01,而这一数字占到WEY VV7总关注人数的14%以上,进一步说明了二者的竞争性。“WEY VV7 + X”的范式具备超高的置信度(& 30%),体现了这一范式对领克01的关注者的高预测性。其他的车型的支持度计数大多介于5到30之间,置信度大多介于0.05之0.2之间。对于WEY VV7,我们找到了19个频繁项集:虽然稍逊于领克01,跟WEY VV7有较高关联的车型也呈现出百花齐放的特点,体现了其跨品牌、跨车型的强大吸引力。WEY VV7和领克01互为镜像:领克01也成为对WEY VV7支持度最高的车型;“WEY VV7 + 领克01 + 其他车型” 的范式对WEY VV7也成立。有关车型的支持度、置信度分布如下:领克01对WEY VV7的支持度计数也为180,置信度达到16.8%。除海马V70外,对WEY VV7置信度最高的也是“领克01+X”的项集,印证了二者的高度重合性和竞争性。领克01和WEY VV7不仅拥有相似数目的频繁项集(21 vs. 19),和这两款车关联度较高的车型重合度也很高(12款车型重合),说明了这两款车的潜在消费者十分类似。而且两款车互相之间的支持度和置信度也较高,说明了很多车友同时关注这两款车,购买时可能从中选择一款更中意的。最后,第三款新车——新本田CR-V有18个频繁项集:可以看到,在和新本田CR-V有强关联的车型中,丰田、本田、马自达等日系品牌占到6席,占比约三分之一。这说明了,新款本田CR-V最受日系车迷的关注,日系车友也更有希望成为新本田CR-V的消费者。从具体数值来看,支持度计数达到10以上、置信度达到0.1以上的强关联车型有丰田凯美瑞和丰田汉兰达两款,均为丰田品牌。从整体来看,新本田CR-V主要吸引日系车友,跨品牌和跨车型的活力逊于领克01和WEY VV7两款明星车。总结4月份的上海车展不仅吸引了大量的公众和媒体到现场参观,也吸引了数量更为庞大的线上观众通过直播、论坛讨论等方式参与到上海车展中。对于本次车展,自媒体和直播的影响力巨大,观看直播的观众远远超过到现场参观的公众,在地域上的分布也更为广泛。从线上数据来看,网络观众对国产品牌的提及量约占到总提及量的一半,对SUV的关注热度超越了传统轿车。就具体的品牌和车型来看,哈弗和本田获得的关注度最高;在首发车型中,领克01、WEY VV7和新本田CR-V位列前三甲。在车展期间,车友们对于关注度最高的五款首发车型的评价都较为正面,“不错”、“便宜”、“安全”、“漂亮”等词成为共用的频繁词。从不同车型之间的关联性上来看,WEY VV7和领克01之间体现出极高的相互竞争性,而第三名新本田CR-V则最受日系车迷偏爱。文: 可视化支持: 更多文章关注: ","updated":"T10:47:34.000Z","canComment":false,"commentPermission":"anyone","commentCount":8,"likeCount":109,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T18:47:34+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-b65f067f1ea932c1d7874_r.png","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":8,"likesCount":109},"":{"title":"用数据的方式来撕逼:LOL vs DOTA2","author":"shu-ju-bing-shan","content":"我写这篇文章的时候克服了两个困难:LOL和DOTA2撕了这么多年,读者是身经百战见的多了,很容易产生审美疲劳。——好在本文大规模使用了数据分析武器,目的就是打造一个全新的战场,让大家撕的痛快。作者往往带有明显的偏向性,喜欢根据自己的游戏理解来说事,不够公正。——在这里,本文大部分观点来自屏幕前的每一个你,这也是数据分析的意义。同时我也希望你读这篇文章的时候能够克服一个困难:不管你多爱某款游戏(或者多恨另一款游戏),请暂时忘掉自己的阵营,十五分钟就好。如果带着立场,读文章时就容易出现「证实性偏见」:对友军,自动放大优点,忽略缺点;对敌军则反过来。就像看下面的图,如果心中已有定论,往往只能看到“想看的那张脸”。但是如果有人告诉你:“年轻女孩的下巴是老妇人的鼻子”或者“老妇人的眼睛是年轻女孩的耳朵”,你就会豁然开朗,可以在两张脸之间自由切换了。我花了一个多月的时间收集、整理、分析两款游戏的一些数据,就是试图告诉大家:如果愿意换个角度,或许会发现另一张脸,消除心中的傲慢与偏见。(注:图片来自网络)女性玩家比例正式开始撕逼之前,先谈一个轻松的话题——女性玩家比例。很多玩家都想知道LOL和DOTA2的女性玩家比例,但很无奈,一方面官方不公布统计数据,另一方面,网络上又都是这样的帖子:“根据某次官方的不完全数据统计,LOL中女性玩家的比例大概在8-10%左右”。“黑色玫瑰女性玩家比例最高,高达30%!其他区大致在15%~20%”。“按照百分比来说其实我觉得还是DOTA2女生多一点。LOL连6%都不到。”每次看到这样的言论,都让我哭笑不得,这些作者怎么就能如此理直气壮又毫无根据的给出一堆数据呢?对于这种连来源都没有注明的数据,不管你们信不信,我反正是不信的。为了得到一个稍微靠谱的数据,我扒了LOL和DOTA2新浪微博粉丝最多的两个帐号近2个月的所有评论,通过统计评论中粉丝的性别来近似计算两款游戏的女性玩家比例。计算得到DOTA2女性玩家占比为6.1%,LOL为25.6%。结合之前掌握的数据(OB战队几兄弟中,除了820,其他人女粉比例低于5%),“DOTA2女玩家占6%”这个结论基本可信。但LOL也高的过分了吧!怎么可能有这么多妹子!一定是哪里出了问题。仔细查看之后终于发现了真相——LOL博主经常发一些恶意钓妹的微博,导致评论中女粉比例虚高。(玩LOL居然也是约妹子的一种手段···不知道DOTA2玩家哭了没有。)为了减小误差,我又找来了DOTA圈的Pis(传说女粉比较多,实际为6.9%)和LOL圈的若风(女粉占比13.5%)作为样本,计算之后得出粗略结论:DOTA2女性玩家比例较低,在6%左右;LOL女性玩家比例可能在15%左右。(注:这仅是一个估算的数据,两款游戏准确的女玩家比例,就不得而知了。)两款游戏女玩家数量虽然不多,但质量却很高。本文比较长,为了缓解视疲劳,我把这些漂亮小姐姐们的照片放在这里,先给大家养养眼。英雄幸福指数一个英雄存在的意义是什么?——当然是上场比赛!如果能在高水平的职业比赛中一展身手,英雄们肯定会感到幸福。但很可惜,并不是每一个英雄都有这样的机会。无论哪个版本,总有一些英雄被设计师针对的太惨,“能力不强”,被BP手打入冷宫,甚至完全没有上场的机会。那么LOL和DOTA2,究竟哪一款游戏的英雄更幸福?先说LOL。上面的文字云展示了刚刚结束的LPL春季赛中各英雄的出场频次(名字越大,出场越多),其中仙灵女巫出场116次,成为春季赛最幸福(累)的英雄。整体来看,LPL春季赛从1月19日开打,到4月29日WE夺冠,一共进行了263场比赛,总共有80名英雄出场,LOL当前有136名英雄,英雄登场率为58.8%。也就是说,有近一半的英雄完全没有上场的机会,这种憋屈的心情,从小到大打篮球给大佬们替补的我真的很能体会。如果把时间尺度拉长一点看这个问题,会发现从S1到S6,LOL的英雄登场率始终维持在42.8%~60.7%之间,其中以去年进行的S6最惨,当时LOL有133名英雄,但仅仅只有57名英雄有上场的机会,英雄登场率42.8%成为历史新低。再看DOTA2。刚刚结束的基辅特锦赛从4月24日开打,到4月30日OG夺冠,一共进行了116场比赛,总共有99名英雄出场,DOTA2当前有113名英雄,英雄登场率为87.6%。长期来看,87.6%还是偏低的数据,代表DOTA2最高水平的TI赛事英雄登场率基本在90%以上。只要冰蛙妥善解决好炸弹人等英雄的问题,只要Random战队还能齐心协力,DOTA2很可能在不远的将来迎来一届全英雄TI。这一轮比拼的结论很明显:比起LOL,DOTA2英雄要幸福很多。部分LOL英雄为什么不幸福“部分LOL英雄为什么不幸福”,这个话题就有点大了。要把这个事情说清楚,需要对游戏设计有深刻的理解,而我并不擅长。——幸运的是,作为一名数据分析师,我只需要收集、整理、分析群众的观点,再把结论交还给群众,就可以成为一名“从群众中来,到群众中去”的好同志!知乎上有一篇讨论LOL游戏更新的高赞回答。答主是一名打第一局DOTA就被队员狂喷,弃坑后玩了6000多场LOL的游戏制作人 。结合数年的游戏经历,答主提出了以下观点:LOL设计团队中,部分设计师缺乏对用户的尊重,强行为玩家设计套路、玩法,对游戏的干预过多,缺乏耐心。极少数LOL设计师,不经脑子、欠缺考虑的随意更新游戏规则,无视玩家曾经付出的学习成本。往往是说改就改、说重做就重做,缺少一套稳定的、让人信服的游戏规则。虽然这篇回答写的有理有据,但毕竟是一家之言。为了搞清楚LOL的版本更新是否真的出了问题,我们重点分析一下群众留下的2100条评论。词频统计得到评论中提及次数前三关键词为:改动、刺客、拳头。199条评论提到改动,其中89条表达了对LOL版本改动的不满,主要论据是改动反复无常、太过随意;70条评论认为LOL的改动中规中矩,没什么大问题;剩下40条评论则认为LOL的改动很棒,同时奉劝(怒怼)答主不要强行装自己比设计师聪明。提及刺客的140条评论中,73条评论(占比50.7%)认为对刺客的改动太失败,改版之后的刺客已经没法玩了;45条评论(占比31.3%)则坚决表示刺客改的好,没改之前ADC没法玩。双方再次吵成一团,一大波吃瓜群众强势围观。然而在提及拳头(拳头公司)的131条评论中,大家意见变得一致:70.1%的发言表达了对拳头公司的不满。综合来看,部分玩家对LOL的版本更新颇有微词,值得拳头公司重视。这大概就是LOL幸福的苦恼吧——LOL的月活跃用户超过一亿,众口难调,设计师既要保证头部职业赛事的平衡性、观赏性,又得想办法降低新人玩家的游戏门槛、提升游戏体验,难度太大,任重道远。另外,评论中也多次提到了冰蛙,提及冰蛙的所有发言只有一个态度:冰蛙大仙,法力无边。确实,DOTA2英雄能这么幸福很大程度上要归功于低调又神秘的IceFrog。这个喜欢逛胡同、爬长城、中文特别溜的美国人,经常在微博与DOTA玩家互动,倾听玩家的声音。当DOTA2玩家发现新英雄齐天大圣居然真的会七十二变,并且和83版西游记美猴王是同一个配音的时候,他们会毫不犹豫的剁手买一套至宝,变身“刀斯林”,然后抓住人就开始安利:这个游戏真好玩!Dead Game看到这里,肯定有不少DOTA2死忠粉乐开了花:这款游戏发展了十年,还能不断给人惊喜,这是要千秋万代一统江湖的节奏?但很可惜,这款游戏正在dying...(注:数据来源)2016年2月~2017年3月,DOTA2日活跃人数持续下降,一年减少了15万玩家!WTF?为什么游戏越来越好玩,但人却越来越少了呢?第一,老玩家在流失。笔者作为一名27岁的中年人,已经有半年没玩DOTA2(LOL)了,同时我也注意到我的王者荣耀好友排行榜前几名几乎都是以前一起开黑的老玩家(甚至有人在朋友圈晒「最强王者」)。这些人当然知道DOTA2好玩,但生活已经剥夺了他们继续DOTA的权利——工作非常辛苦,有些人下班了还得带娃,早已没有时间和精力来操作一把需要全神贯注1小时的DOTA2。有些人会说:老玩家虽然不打游戏了,但还是会继续关注比赛,而且老玩家消费能力强,买本子、开箱子也挺积极,影响不大。但现实却是,在熊猫直播看基辅特锦赛的观众数还比不上同期09带4个妹子打王者荣耀。连看都不看了,消费还能维持多久?第二,新鲜血液不足。抛开圈子因素不谈(身边的人大多都在玩LOL等其他游戏),DOTA2陡峭的学习曲线便足以让人望而却步。113名独具特色的英雄,159件功能各异的道具,对部分玩家来说,入门DOTA2可能比学好高等数学更困难。在漫长的入门旅途中,当你被少数素质低下的队友喷得生活不能自理的时候,人家雪姨已经飞速成长为王者荣耀的一代大神了啊!就是小时候你和你妈一起看的《情深深雨濛濛》里面的那个雪姨啊!另外,电子游戏容易Dead的特征是写在基因里的。篮球、足球能风靡几百年甚至上千年,很大的原因在于这些活动依赖的物质世界并没有发生大的变化——人、球、场地的变化都不大。而电子游戏是高科技产物,和当前普世的个人计算设备是捆绑在一起的。往前看,过去的十年摩尔定律已经让红白机游戏、三国战记、红警、热血传奇等名噪一时的游戏死掉了;往后看,在下一次科技浪潮到来的时候,如果LOL和DOTA2这两款游戏还没有完成从游戏到职业竞技体育的正式转变,极有可能会手牵手一起Dead。我为什么写这篇文章有人就要问了,你写LOL和DOTA2,为什么放一张乒乓球运动员抱赵丽颖的照片?因为我观察到“电子竞技将成为2022年杭州亚运会正式项目”的新闻刚放出来,一部分LOL和DOTA2玩家就有了开战争天下的意思。在他们的眼中,仿佛电子竞技就是整个世界,干掉对面就可以称王了。所以我得放照片提醒大家:仅仅在双方都想进入的体育圈,两款游戏的声音都不大,聚光灯并没有往我们身上打。仍然觉得自己支持的游戏无敌的朋友,我们不妨一起回顾一下LOL和DOTA2取得的成就:我们DOTA2有成绩,6届TI夺冠3次,每次夺冠央视都会小小的报道一下!——人家乒乓球成绩更好,央视比赛播到你想吐。我们DOTA2战队提名了中国体坛最高奖(中国十佳劳伦斯冠军奖最佳非奥运动员奖),得票最高,差点得奖!——人家邹市明微微一笑,派老婆把奖领走了。我们LOL游戏火,影响力大,不信你去网咖看看,80%都在打LOL。——十年之前网吧都在砍传奇,十年之后呢?我们LOL游戏周边很丰富,有各种各样的网剧、动漫。——那能不能拍一部比肩《魔兽》品质和影响力的电影?我们现在拥有的其实不多。看到这里,相信很多人猜到了我写这篇文章的目的——我虽然用“数据的方式来撕逼”,其实是希望“撕逼能终结”。原因有二:撕逼意义有限,也很无聊。“LOL玩法单一、战术单调,是小学生联盟;DOTA2操作简单、恶意装逼,是信仰刀斯林”。这些年来,两边的文豪们写了大量文章强行对比两款游戏的地图、玩法、对线分路、树林草丛、技能装备等游戏特性,吸引了一大波吃瓜群众。但这些文章几乎没作用:大部分玩家仅深入体验过一款游戏,文章写的再生动,也很难让读者短时间内迅速理解需要几百个小时才能体会的游戏机制。另外,玩游戏如同吃水果,很难体会别人的需求和感受。因为自己喜欢榴莲,就攻击别人手中的苹果非要分个高低,也实在太无聊了。你死我活的竞争关系已成历史,未来可能需要携手前行。在之前的抢用户阶段,LOL和DOTA2的确是你死我活的竞争关系;但是,在之后的职业体育化进程中,两款游戏其实在同一条船上,很多事情可以一起努力(比如共建电竞馆、携手拿下主流媒体等)。最近看《文明之光》,越来越能体会广大的人民群众对某一项活动、某一件事物的决定性推动作用。希望大家能更理智、更开放的支持自己喜欢的游戏,不要让电竞圈充满戾气。因为我坚信,电子竞技的明天会不会更好,取决于屏幕前的每一个你。文:
可视化支持:更多文章关注:","updated":"T01:13:22.000Z","canComment":false,"commentPermission":"anyone","commentCount":480,"likeCount":2030,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T09:13:22+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-d8f49d9dcbeb0_r.png","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":480,"likesCount":2030},"":{"title":"我好像看到了假的数据分析?","author":"he-ming-ke","content":"作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。1、可视化的误导一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)下图的作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。2、使用孤证或者不靠谱的绝对值“林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。所以为了印象深刻,参考“奶子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。3、推理逻辑混乱许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?4、扶不上墙的小规模测试产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。辛普森偏差。下图是从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。5、乱配因果关系据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了()。在面对冷门问答()时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站()已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。(1)尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。(2)被床单缠死的人数和人均奶酪消耗量,高度相关。(3)美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。...更多回答请看...更多文章请到","updated":"T02:18:45.000Z","canComment":false,"commentPermission":"anyone","commentCount":53,"likeCount":565,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T10:18:45+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":53,"likesCount":565},"":{"title":"转化率不到千分之0.08,百雀羚“神广告”到底转化了谁?","author":"shu-ju-bing-shan","content":"刷屏的“神广告”你看了吗?微信公众号《局部气候调查组》为百雀羚母亲节特别定制款产品“月光宝盒”设计了一则名为《一九三一》的广告,该广告自5月7日开始投放,在5月8日陆续由若干广告号带头转发引起朋友圈现象级的刷屏。《一九三一》到底有多火?这则广告以\"杀死时间\"为核心概念,以一幅427厘米长卷叙事的方式率先在微信上投放,该广告因整体感受和百雀羚品牌形象十分契合,故事情节又充满悬疑,快速引发了朋友圈的热潮,很快就拿到了10万+的阅读量,公众号下面的评论区也集中在对故事情节的热烈讨论之中:随后“4A广告门”等微信大号也开始陆续转发,也先后拿到了10万+的阅读量,评论区更是惊艳连连:接下来的几天,在网友自发的转发下,百雀羚这则“一九三一”的广告可谓引爆了朋友圈。百雀羚一时风头无二,无论是营销从业人员还是围观路人都沉浸在这场狂欢之中。转化率不到0.00008!销量打脸“神广告”?然而“良辰美景”没持续几天,剧情突然反转:5月11日微信号《公关界的007》发文《哭了!百雀羚3000万+阅读转化不到0.00008》将故事的发展推向了另一个极端。该文思路十分简单,就一条:“既然是为月光宝盒这款产品做的营销,产品销量惨淡也能算成功广告”?结合文章和笔者自己收集的材料,简单为百雀羚算一笔账:微信关于“百雀羚广告”的相关文章大约2400多篇,获得10万+阅读的文章也有10多个,估计本次“神广告”光在微信平台上的总阅读量就达到了3000万+,有自媒体估计,在百雀羚本次总量过亿的曝光背后,是300万左右的投放预算,这还不包括广告制作的成本,那么号称惨淡的销量到底有多惨?自己动手丰衣足食,笔者抓取了百雀羚天猫旗舰店的销售数据观察“月光宝盒”这款产品的实际销售表现。数据显示该款产品于4/29上线,5/13下线,累计总销量2805款,按单款366元计算,总销售额大约在100万左右(买家可使用20元抵价券,则实际售价346元,总销售额为97万)。关于“月光宝盒”销量不够理想的原因已经被各大自媒体“鞭尸”无数次了,本文不再具体展开,简单的说广告和产品本身联系不紧是一个方面, 另外一份长427厘米的画卷讲述了一个需要6分钟看完的故事,而产品的信息出现在画面的最底端,需要兑换优惠券的话需要倒回去再看一遍。。。这其中每一步都流失了大量潜在买家:看来“入不敷出”已成既定事实,百雀羚这次的“神广告”其实是一败涂地?且慢盖棺定论!让数据飞一会儿要评价这次”神广告”的成败,除了“月光宝盒”这款SKU的销量,我们还可以看哪些数据?首先我们可以观察各大指数的变化,微信指数在刷屏期间暴增80倍,既然微信都刷屏了,指数暴涨也是情理之中;再看百度指数,相比去年同期翻了整整一倍,显示了用户搜索的升量。进一步观察百度指数的需求图谱,发现这段时间“百雀羚”搜索指数的上涨和本次“一九三一”神广告高度相关,“来源检测词”反映用户在搜索中心词之前还有哪些搜索需求,“去向检测词”反映用户在搜索中心词之后还有哪些搜索需求,可以发现无论是来源还是去向,用户对百雀羚的搜索行为都集中在“神广告”之上。用户这背后的用户行为逻辑大致可以概括为:“我被百雀羚刷屏了,这玩意到底干嘛的?”,“啥神广告这么厉害?”,”百雀羚又搞大新闻”。。。诸如此类。所谓“买不买是你们的事,知不知道就是我们的事了”,在提升品牌知名度上,“神广告”可谓物尽其值。所以“围观”、\"吐槽”,“搜索”品牌的人多了,百雀羚有啥好处没?我们换个角度对旗舰店的销售数据进行进一步观察,如果去除“月光宝盒”这款SKU,旗舰店其他产品的销量有没有什么变化呢?数据显示自5月8日开始刷屏至5月14日完整的一周,百雀羚旗舰店整体销量有一个明显的提升,整体涨幅是过去一周的33%。时间范围比较短,无从证明这些销量的涨幅就是归功于“神广告”的影响力,不过笔者大胆猜测本次“神广告”触及到了相当一部分原来不是百雀羚的目标客户或是忠诚用户,而对于刚刚触及百雀羚的新用户而言,一款300+的套装显得价格不菲,不如买一款单品试试效果?可以说“神广告”的刷屏现象虽然没有带来直接转化率,但间接为百雀羚积累了一大批潜在客户。那么除了销量、指数这些常见的指标,还有哪些数据可以加以利用?当我们谈论百雀羚的时候,我们都在聊些啥?笔者在分析“月光宝盒”销售情况的时候,将评论区700+的评论逐条都阅读了一遍,发现诸如“支持国货”、“送给妈妈”这些话语出现的频率比较高,不由想起之前数据冰山曾抓取并分析了2017上海车展直播视频中的弹幕,从弹幕的文本挖掘中分析国货汽车的崛起。笔者不由灵机一动,采用自然语言处理的方式,对百雀羚旗舰店评论区的文本进行抓取和分析。要分析国货崛起,单一品牌还不够,索性将天猫美妆护肤类产品中销量靠前的欧莱雅、Olay、相宜草本3个品牌一起拉了进来,正好两国货两世界知名品牌,2017年大约1000万+的评论,样本量也足够了。剔除无实际意义的评论,并将剩下的评论分成7大类进行NLP(自然语言处理),绿色部分表示正面评论百分比,蓝色为中性,红色则代表负面评论:结果倒是有些出乎笔者的意料,百雀羚在天猫评论上的表现可谓全方位“吊打”国际知名品牌欧莱雅的“Skincare”系列,即使是表现略显糟糕的“包装“层面,依然整体优于欧莱雅,“品牌”层面更是领先一大截。不甘心的笔者在此基础上进一步将评论数量最多的“产品”维度进行细分,在“用户体验”、“产品忠诚”、“气味”、“功效”这些体现产品综合能力的方面,百雀羚依然表现强势:分析的结果表明,站在买家的角度,作为“国货”的百雀羚在任何方面都不输国际大牌,虽然相对较低的价格也许让买家期望值不会太高,也有可能更加容易满足,但既然评论满意度这么高,价格又低廉,国产品牌通过“神广告”自信展示品牌的方式应该得到支撑和认可。在百雀羚旗舰店的评论中,笔者将所有和“送礼”或“送人”相关的关键词都提取出来,观察诸如“送给妈妈”,“母亲节”等任何带有和妈妈相关的评论,以及和男女朋友相关的评论,数据显示此次百雀羚关于母亲节的营销活动可谓很好的联系了买家诉求,在百雀羚关于送礼的评论中,接近20%评论都是关于送给母亲的,比例较高。至少从用户的评论上看,作为国货的百雀羚在各个维度上的好评率都是比较高的。与世界品牌的竞争中,优质国货也许在产品质量上不遑多让,但需要让更多的人相信“我们自己的牌子也很棒”的理念,而作为“奶奶级”品牌的百雀羚,用一卷“一九三一”的实际行动诠释了这一点。销量一时江湖,风格万古流芳在这个浮躁的年代,“销量为王”是广告界,营销界最重要的指标之一,投了那么多的钱,没有与之相配的转化率就什么也不是依然是为行业认同的理念。笔者在这里并不反对这种观点,毕竟商家不是慈善家,不是花大笔钱做广告拿来玩的,不过在盯紧转化和销量的同时,不妨思考下广告“广而告之”最本质的含义。潘婷曾在泰国和俄罗斯先后推出了以“You can Shine”为主题的励志广告,内容令人潸然泪下,其含义已经超脱了宣称产品的概念,成为了无数女孩为之借鉴的励志故事;索尼则用诙谐恶搞的形式创作了PS4 Station的降价之歌,引发网友山呼海啸般的吐槽和捧腹。如果这时候再去评判潘婷和索尼的产品到底销量如何是否“大煞风景”?百雀羚曾在去年“双十一”推出创意广告 “四美不开心”,引发网络轰动效应,成为“双十一”天猫美妆类产品销量 冠军,所以百雀羚成功了?这次“一九三一”只卖出了不到3000款,所以百雀羚失败了?当我们谈论百雀羚“一九三一”神广告的时候,不管我们是赞赏、吐槽还是批判,至少这个已经“80高龄”的品牌在自信的创造和彰显自己的风格。“销量一时江湖,风格万古流芳”,若是通过一次又一次的尝试,将国货品牌的风格植入人心,这样的尝试就值得支持和鼓励。文:
微信公众号:数据冰山可视化支持: 更多文章关注:","updated":"T00:07:39.000Z","canComment":false,"commentPermission":"anyone","commentCount":124,"likeCount":728,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T08:07:39+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-f19ffc558b4cf31dae4e76b90c3e0e5e_r.gif","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":124,"likesCount":728},"":{"title":"长城WEY VV7上市前后舆情分析","author":"shu-ju-bing-shan","content":"自去年11月首次在广州车展上亮相,车友们期望已久的长城WEY VV7终于在今年4月的上海车展上正式宣布上市。此外,长城WEY VV7也是国产车冲击中高端SUV市场的重要种子选手。本文从数据的角度出发,对长城WEY VV7上市前的舆情、潜在车主的特征予以分析,并对WEY VV7上市后的销量表现做一些预测。1.
关注热度趋势:两次车展推动两次高峰百度指数反映某个名词在百度上搜索的热度。为了解车友对于WEY VV7的关注热度,我们截取了2016年11月至2017年5月 “WEY” 的百度指数:由图可以看到,WEY的百度指数自去年11月一直保持在2000以上;在至18日达到了10000以上的高峰,又在4月7日起逐渐升温,在4月19日至28日上海车展期间出现两个峰值,均在8000以上。两次高峰分别对应2016年11月的广州车展的首次亮相和2017年4月的上海车展及正式上市。值得注意的是,在车展结束后的5月份,WEY仍然维持了较高的搜索热度,这对于WEY上市后的销量表现而言是一个不错的信号。为进一步了解关注热度的时间变化,我们选取了汽车之家的WEY VV7论坛的数据做进一步的分析。下图展示了同一时间段内该论坛的发帖总数(红线)和参与讨论的人数(橙线):发帖总数随着4月份上海车展的到来迎来高峰;而参与讨论的人数变化趋势基本和百度指数的变化趋势相似:在11月16日左右达到第一个峰值,在4月上海车展期间达到最高峰。从论坛数据来看,上海车展中WEY VV7的亮相引发了广泛的参与和热烈的讨论。另外,我们通过发掘汽车之家关于上海车展的弹幕数据,提取了各个车型在车展期间的提及量。在所有车型中,WEY VV7的提及量排到了第二,仅略少于吉利汽车推出的新品领克01。详见: WEY VV7在车展期间的关注热度可见一斑。2.
舆情分析:外观、价格、动力、内饰最受关注,整体评价正面通过对汽车论坛的评论进行文本挖掘,我们提取了用户对于VV7在价格、内饰、动力性、外观、安全性、操控性、油耗、空间、舒适性等九个维度的提及量,并且运用情感分析技术对每一次提及的语句进行了情感评分(1为正面,0为中性,-1为负面)。下图为在这九个维度上,用户的总提及量和评分分布:外观、价格、动力性、内饰是论坛用户最关注的四个方面,合计占到总提及量的64%;其中以动力性和外观的提及量最大。在情感评分上,九个维度除油耗外,正面评价的占比基本在一半及以上,意味着车友对于VV7的大部分方面满意;其中对安全性、操控性、动力性的评价最为正面。为了解用户对于这九个维度的关注随时间的变化情况,我们制作了以月为单位的提及量占比:可以看到,在车展前,外观、价格、动力性、内饰依然主导了用户的讨论(占比在80%以上);更进一步地,外观和价格的占比比较稳定,而内饰和动力性的占比随月份变化幅度较大。这说明了,外观和价格是论坛用户最稳定、最持久的关注点。进入车展期间,随着披露的车辆信息增多,这四大方面的占比下降,用户的讨论面变得更广泛。在最受关注的四个维度上,感情评价变化如下:可以看到,在这四个维度上,论坛用户的评价都较为正面;其中,对于价格的评价波动较大,其余三者比较稳定。3.
潜在车主画像:中青年男性,长城粉居多借助于汽车论坛、百度搜索用户以及一面内部数据,我们统计了VV7潜在车主在年龄、性别、爱好、地域等方面的特征。下左图为WEY VV7论坛用户的年龄分布,右图为\"WEY”的百度搜索用户的年龄分布:二者的分布基本一致:WEY VV7的潜在车主大多为年龄介于20-39岁之间的中青年人。在性别的分布上,左下图为VV7汽车论坛用户的性别分布,右下图为汽车论坛整体用户的性别分布:汽车论坛用户中关注WEY VV7的用户男女比例十分夸张:男性占绝对主力,女性占比不足百分之一。这和论坛整体用户性别结构(女性占到3.3%)相比,男性更为主导;这可能和这款车的高定位更吸引男性车友有关。总之,WEY VV7的潜在车主以男性为绝对主力。在地域分布上,WEY VV7论坛的用户省份关注度(某省VV7的用户数/该省所有论坛的总用户数)分布如下:可以看到,对于VV7的相对关注度最高的是河北省,即长城汽车总部所在地;其次为湖北、湖南、广西三省。通过一面数据内部汽车测评SAAS平台,我们获取了WEY VV7的用户的兴趣爱好:可以看到,电子游戏、体育赛事、音乐及泡吧/夜店是WEY VV7用户最常见的四个兴趣爱好,可见VV7潜在车主比较喜欢有刺激感的竞技类活动。为了解WEY VV7潜在车主的来源,我们统计了WEY VV7论坛的用户所注册的已认证的车主信息。这些车主所拥有的车型分布如下:除吉利汽车的博越及广汽传祺的GS8车系以外,出现频次较高的车系都以长城汽车的哈弗系列为主。这说明,长城系的车主对于VV7的关注很高,可能是VV7最大的潜在车主。另外,基于车展期间的直播弹幕数据,我们通过挖掘VV7的频繁项集,找到了关注VV7的车友同时最频繁关注的车型:大量的其他品牌和车型的关注者同时也关注WEY VV7,这些品牌和车系的都可能为VV7贡献新的车主。这意味着WEY VV7受众面较广,跨品牌和车型的活力大。4.
潜在车主分类:多数用户为中等或高期待用户为了量化论坛用户在对VV7的提及量和感情评分上的差异,我们尝试在提及次数(活跃度)和平均感情评分(平均期待值)两个维度上对论坛用户进行聚类,以对用户做出合理的分类。我们运用了k-means聚类算法对论坛的用户进行了聚类,并且根据组内方差的变化确定聚类的类别数为四类。下图为四类用户在两个维度上的分布:其中,四种颜色分别对应四类用户,四个橙色十字为四个类别的中心点。这四类用户的特征和典型评论如下:第1类:蓝色,提及数在0到30之间,大多数评价为负面,可以归纳为“中低活跃低期待用户”;-- “魏派我个人觉得很难成功,换壳H6?换壳H7?现在消费者不是那么容易忽悠的!魏派想成功必须要有全新的发动机去搭载他的心脏,不仅仅外观要与哈弗隔开,内在更是需要!”第2类:黑色,提及数在0到30之间,大多数评价在0-0.2之间,可以归纳为“中低活跃中等期待用户”;-- \"感觉应该比博越好看啊。博越的外观和地盘不喜欢\"。第3类:绿色,提及数在0到40之间,大多数评价在0.2以上,可以归纳为“中低活跃高期待用户”;-- “总体而言,WEY01给人的感觉主要是靓丽、运动和时尚,豪华并不是重点”。第4类:红色,提及数在50以上,大多数评价为正面,可以归纳为“高活跃高期待用户”;-- “实车是非常漂亮的,但不是那种直接的豪华感,而是相当简约独特的设计风格,全车很少有镀铬亮条装饰,而完全使用车体折线塑造造型。内饰上来说,最豪华的地方是车后门,最简约的倒是中控。做工没的说,但中控和车门风格有差异。”以下为四类用户中心点(代表性用户)的活跃度和平均期待值:在这四类用户中,高活跃高期待用户对VV7有正面的评价,也愿意发帖为VV7发声,属于对VV7最忠实的潜在车主;中低活跃高期待用户虽然提及次数不算多,但对VV7的评价很正面,转化为VV7车主的概率也较高;中低活跃中等期待用户整体上对W01持偏正面的态度(0-0.2),也有一定机会转化为VV7车主;最后,中低活跃低期待用户对VV7提及较少、态度较为负面,很难转化为VV7车主。以下为四类车主在论坛用户中的占比:可以看到,中低活跃中等期待用户占到总用户数的一般以上;中低活跃高期待用户和高活跃高期待用户合计占到20%左右;另外四分之一的用户为中低活跃低期待用户。换言之,有四分之三的用户对VV7抱有中等或者高度期待,这部分用户有较大的机会转换为VV7的车主。5.
上市后销量预测:估计首月销量在辆之间我们主要采用两种算法对WEY VV7的首月销量进行预测:线性回归和kNN(k近邻)算法。在算法中,我们不考虑产能限制带来的影响。在线性回归中,我们采用了品牌、上市年份(反映大的变化趋势)、上市月份(反映季节性波动)、上市前一个月百度指数的均值(反映关注热度)、官方指导价中间数作为特征,收集了所有在2012年1月至2017年1月上市的SUV,共计157个车型的上述特征。使用该线性模型可预测到WEY VV7上市首月销量为4076辆。由于涉及到的品牌数量众多,而样本量过少,上述回归模型存在过拟合的风险。为了更好地预测首月销量,我们使用了另外一种算法:kNN算法。该算法计算一定数量的和目标车型(VV7)在以上特征中最接近的其他车型,然后按照这些临近车型的首月销量的均值估计VV7的首月销量。在对特征做标准化处理后,使用kNN算法得到的前10个最接近的车型。下图为这些车型的特征及各自的首月销量:综合这10个车型得到的首月平均销售量为3645辆。因而,综合线性回归和kNN算法,在不考虑产能的影响下,我们估计WEY VV7上市后的首月销售量在辆之间。6.
总结通过上述对WEY VV7上市前的数据分析,特别是对汽车论坛和百度指数的分析,我们得出以下结论:1. WEY VV7关注热度主要有两个高峰,分别对应2016年11月的广州车展首次亮相和2017年4月上海车展正式上市,并在上海车展期间引人注目。2. VV7的论坛用户对于外观、价格、动力性、内饰等4个方面关注最多,其中以外观和价格最为稳定和持久;对于这四个维度,论坛用户评价均为正面。3. 关注VV7的用户以中青年男性为主力,在地域上关注度最高的是河北、湖北、湖南、广西四省,其中长城系列品牌的忠实用户是不可忽略的一股力量。4. VV7汽车论坛的用户可以聚类为4类用户,其中四分之三左右的用户对VV7持正面的看法,有中等或者高度的期望值。5. 综合线性回归模型和kNN算法,在不考虑产能的影响下,我们对VV7上市后首月的销售量看好,估计销量在之间。文:
微信公众号:数据冰山可视化支持: 更多文章关注:","updated":"T00:10:47.000Z","canComment":false,"commentPermission":"anyone","commentCount":27,"likeCount":106,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T08:10:47+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-bce5da53bdad47b067b532a6a64c376c_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":27,"likesCount":106},"":{"title":"别开枪,我不是狗仔——数据剖析明星关系","author":"shu-ju-bing-shan","content":"第一狗仔卓伟被封,谁来填补业界真空?我们决定开辟一个明星关系网剖析系列。明星的私生活已成为禁止讨论的话题,咱们不妨将眼光聚焦于明星的事业,从明星的工作关系上发掘信 息。我们参考「」,提取了一份包含 102 位明星的名单,再根据豆瓣上公开的影视作品和综艺节目信息,描绘了这些明星的合作关系网。本文试图探索:明星合作关系网络中有哪些小帮派谁是明星合作关系网络中的交际花不同明星的合作模式有什么不同先祭出合作关系网络图如下。图中圆圈代表明星,连线代表合作关系。圆圈越大,代表越多明星与该明星有合作;连线的粗细表示合作次数的多少。102 人中,除开自成一派的模特刘雯,其他明星都可以通过同一张网络连接起来,每两个明星最多经过 3 个中间人、平均经过 0.85 个中间人就可以形成连接,比常说的“六度空间”紧密多了。合作关系网中有哪些帮派不难从图中用肉眼辨认出一些小团体:1.《极限挑战》的男人帮黄渤、孙红雷、黄磊、罗志祥、张艺兴,跑男成员邓超、杨颖、郑恺、李晨、陈赫、鹿晗;2.左上方的香港团,包括刘嘉玲、梁朝伟、张学友、刘德华、古天乐、莫文蔚、陈奕迅、郭富城、谢霆锋、成龙,都是抬头不见低头见的天王天后;3.右下方的汪涵、何炅和谢娜,湖南卫视的台柱子;4.TFBoys 组合的三位成员,紧贴以上芒果台三大王牌,难怪被视为湖南卫视的自家人;5.冯小刚冯导与御用演员张国立、张涵予、王宝强;6.经典荧幕拍档:陈坤—周迅、黄晓明—佟大为、佟大为—赵薇、吴秀波—海清;7.还有一对师徒冤家郭德纲—岳云鹏。如果不用肉眼呢?在众多节点中划分群体有两个目标,第一是团体内部联结紧密,第二是团体之间边缘清晰。这样的优化目标有一个专门的指标来描述,叫做模块度(Modularity)。 就是最优化模块度的一种算法,用这个算法我们把网络中所有明星分成若干个群体,不代入任何人类立场。上图就是机器乱点的鸳鸯谱,我们本想逐一为群体命名但是失败了,这个任务还是交给读者你吧。谁是圈中的核心人物如果你想认识圈中尽可能多的明星,现在有机会让你选择一个明星,他/她会介绍所有合作伙伴给你,那么你应该选择谁?这个问题等同于考察网络图中哪个节点的度(degree)最大,换句话说也就是找出哪个节点直接连接的节点数最多。以下是这个指标的前十名。排名第一的是邓超,他的交际花属性暴露无遗。除了邓超,李晨、黄晓明、佟大为合作过的人都超过总人数的一半,也就是说,如果你在圈中而没有跟他们合作过,你就是少数派。不过你也许会说,认识人多就了不起吗,也许我特别想认识的爱豆,通过他介绍还不一定方便呢。不错,连接数不能完全衡量一个人物在网络中的核心程度。网络分析中还有一个指标叫 Betweeness Centrality(介数中心性),衡量某个节点在两点之间的最短路径中有多重要。Betweeness Centrality 的前四还是邓超、李晨、黄晓明和佟大为。值得注意的是,周杰伦、成龙和贾乃亮的连接数没有排在前十,但是 Betweeness Centrality 在前十,说明他们事业的跨界性比较强,工作伙伴数量不是最多的,但在不同领域和群体都有关键联系。电影圈、电视圈和综艺圈中,明星合作模式的不同我们根据电影、电视剧和综艺三种类型,将合作关系网络拆成三张图如下:电影:电视剧:综艺:可以看出,电影圈的关系网络是以明星尤其是大牌明星为主导的,大咖身上连接数特别集中,而且常常出现两三个大咖之间特别强的组合。综艺圈则是节目强势,天天向上、跑男、极限挑战等少数节目促成的团体内部特别紧密。如果去掉这些节目带来的关系,则明星个人在网络图中并没有什么个性可言,谁与谁都有可能搭上一条线。电视圈中明星之间的合作模式某种程度上介于电影圈和综艺圈之间——在拍档的选择方面,电视圈不如电影圈中那么稳固,除 TFBoys 内部之外,没有合作超过 5 次的拍档;另一方面,电视圈的工作关系也不会像综艺圈一样被少数强势作品主导。作者:
微信公众号:数据冰山相关文章:更多文章关注:","updated":"T05:28:58.000Z","canComment":false,"commentPermission":"anyone","commentCount":101,"likeCount":1090,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T13:28:58+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-28b05eee7e753cff3ec4a_r.png","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":101,"likesCount":1090},"":{"title":"为什么这部电影的豆瓣评分我不认可?—— 一点数据分析的视角","author":"shu-ju-bing-shan","content":"源代码: 文中涉及的交互式散点图: -------------------------------------------------------------------------------------------------------------------不知道大家有没有这样的经历 —— 看了一部电影,但对豆瓣的评分并不认可比如,之前看西游伏妖篇,我就很疑惑,为什么分数这么低?毕竟,周星驰是我很喜欢的导演而且,评论区也出现了截然相反的评价 再比如最近的神奇女侠 Wonder Woman,虽然分数不错,但我并不觉得很好看此外,一直以来也有“爱乐之城/摔跤吧爸爸评分偏高了吗?”等类似的问题。所以,会想问 ——
为什么有的电影分数高/低,但是我们并不认同?是不是豆瓣电影的分数有问题?之前,从的角度分析过,比如赤壁/让子弹飞,国内外的评价并不一致,但还有没有别的原因?1. 数据概况选取, 的电影。限制豆瓣评分人数在2W以上,一方面讨论大家较为熟悉、主流的电影,另一方面也尽量减少水军等的影响。总共815部电影,评分分布如图包括了很多大家熟悉的电影2. 评分的差异2.1 西游 vs. 杜拉拉仔细观察西游的评分,会发现和相同评分的电影(杜拉拉升职记)的分布差别很大。两者评分相同,评价人数也很多(20W, 17W),但5星和1星的比例差别很大[1]。什么意思呢?● 杜拉拉升职记:大家都觉得很一般,所以评分集中在了3星● 西游伏妖篇:同时有不少人觉得不错/较差,在1星和5星有不少的分布。也就是说,尽管两者(平均)分数相同,但是背后的看法非常不同,评分差异很大,这也正好对应了上面,西游出现两种截然相反的热评的情况。2.2 怎么衡量评分差异评分分布的差异,可以用方差来衡量,计算方法如下也就是计算 评分偏离平均分的程度 [2]。下文使用标准差(STD),方差开方即可。可以做出标准差(STD) - 豆瓣评分(Rating )散点分布图[3]。为了便于比较,做标准差97%范围线。可以看到西游和杜拉拉升职记的STD差别确实很大,西游的标准差排在前3% ,争议性是巨大的,而杜拉拉则小很多。 另外,还发现散点图的有两个特点● 收敛:分数越高(比如从6分到10分),STD分布的范围越来越窄,值越来越小● 不对称: 理论上来说,这张图应该是关于6分对称的,因为颠倒一下评星的顺序(e.g. 5星 -& 1星, 4星 -& 2星),就能得到对称的STD值,但实际并不对称。对于收敛,可以从平均分怎么计算出来的角度理解:平均分越高,占高分的比例越大,因此评分差异较小。至于不对称,后面再说。2.3
典型电影这里,可以看到很多典型评价差异很大的电影,比如刺客聂隐娘,一步之遥 等等都在这张图的上方,STD很高交互式图表地址: 可以拿他们和STD较低的电影比较这里可以问一个问题 —— 这些电影的分数相同,但同样好看/不好看吗?比如,刺客聂隐娘和我11的分数一样,但他们一样好看吗? 显然不是和前面的比较类似,刺客聂隐娘虽然评分较高,但其5星/1星和我11差别很大。为什么呢?大家可能早有耳闻,看评论,也能看到可能的原因,是刺客聂隐娘画面极具美感,但另一方面,剧情却让人看不懂。所以评分上出现了较大的分歧。一步之遥也是类似,算是比较有名的例子了。 而爸爸去哪儿,也能从评论中看到一些端倪可能的原因是,一方面是娱乐性优秀,带着小孩看电影的家长观众们觉得很好,另一方面,有人觉得这不是电影,纯属圈钱。通常,我们总是在讨论一部电影评分的高低,但这只是平均分,当大家看法一致的时候,这个分数会很有参考价值。但当评分差异很大(STD很大)的时候,这个分数的作用就有限了。3. 电影评分的形状3.1 总共有几种形状? 从评分的分布,很容易想到关于评分形状的 那么,电影的评分,会有多少种形状呢?可以用K-Means来做,输入数据为5个评分等级的比例。实际可以把类别分得很细,这里简单分成6种,比较有代表性,结果如下图交互式图表地址: 这些分布,相当于电影评分的典型形状,两头和中间对应了大家熟知的P, b和钟形分布[4]。需要注意的是,高STD的电影因为其形状差异很大,并不适用于这个分类。这可以部分解释,为什么散点图是非对称的 —— 因为有很多4星为主的电影,但很少有2星为主的电影。毕竟,大多时候给的评价都是一般(3星),或烂片(1星),很少会有电影“精确烂到2星”。每个形状下,也能看到STD高/低的电影,比如魔兽,爱乐之城等等。依然可以问这个问题 —— 这些电影分数相同,但是同样好看吗?像爱乐之城, 虽然评分和萨利机长一样,都算典型的好电影了,但是打5星的明显比萨利机长多,也侧面说明了为什么有人疑惑其分数“是否偏高”。魔兽,则可能有粉丝加成的影响。其他电影不再具体讨论,大家可以自己分析~3.2 奇怪的形状还有一些奇怪形状的电影,比如人间·小团圆,小时代4, 长城,并不属于上述任何一种典型分布这是为什么?具体原因不得而知。但实际上,这是典型的混合分布的特征,也就是说,由几个分布叠加得到。如果把最差评分和中等评分混合起来(各按50%算),可以得到和上面非常相似的形状那么,有没有可能真的是混合分布呢?查看评论,不难发现,对于人间·小团圆,是ZZ因素导致了对其评分的极大差别。小时代可能也是类似。有人看到郭小四就要打一星,另一方面,原著粉们则表示还算不错。那么长城呢?可以查看近期的评价。需要注意的是,这时不太可能有水军了,因为这时候的分数对票房毫无意义。简单看一下前两页,发现2-3星居多和当初的差评还是有差距的。更靠谱的当然是抓数据,不过豆瓣官方并没有公开相关的数据,这个以后有机会再补吧~ 延伸出来的问题是,恶评如流的电影,在下映之后,还会有那么多差评吗?4. 总结本文主要做了两件微小的工作● 用标准差(STD)展示了电影评分的差异情况,能看到不少评价差异很大的电影● 对评分的形状,用K-Means分类,可以看到评分形状的几大类型回到我们最开始的问题 —— 为什么有的电影分数高/低,但是我们并不觉得如此?是分数有问题吗 ?原因在于,那只是个平均分而已而有意思的也在于此
—— 大多数人在谈论豆瓣的评分的时候,都知道这是平均分,也都能看到分数的分布情况。而且大多数时候,这个平均分是有效的,因为大家的评价较为接近(STD较小)但是,很少有人注意到评分的分歧大小(即STD的大小)。所以,当看到一部STD很大的电影,平均分和我们感受不符时,我们疑惑了,进而觉得豆瓣的评分有问题。实际上,只是因为人们的评价差异太大(STD太大),使平均分的意义变得比较有限了而已。-------------------------------------------------------------------------------------------------------------------最后,我在想,有没有可能给豆瓣评分旁边加上一个小标签?比如,对STD特别大的电影,在旁边加个“分歧警告”标签,注明 “这部电影的评价差异水平达到了前3%,平均分的参考意义较为有限”,进一步还可以分开展示好评/差评,向用户解释评价差异具体如何。这样或许能减少一些人们对(平均)评分的疑虑。然后,分析有什么疏漏或者没讲清楚的地方,也欢迎大家指出~[1] 这里采用的是豆瓣的评分柱状图,画法并不标准(占比最大为定宽),但适用于基本的比较[2] 理论上,ordinal data不适于计算均值、方差,可见
。不过,算均值固然不严谨,但是更好的做法,应该是转换成一个可以量化的值,比如考虑每个值之间不同的distance, 而不是全盘否定。简单起见,本文直接当作离散值计算均值、方差。另外,豆瓣/IMDB的分数并不是简单的平均值,不过实际区别很小。但无论是众数/中位数/加权平均,都没有太大影响。因为本文讨论的是,“当用一个分数来代表电影的水平时,什么时候这个分数是有效的,什么时候是无效的?”
无论这个分数的算法如何,都会存在失效的时候(即分歧较大时)。[3] 实际STD的尺度没有这么大。这样画图类似于把STD做规整化,更方便于比较。[4] 理论上可构成的形状要更多,比如5星/1星各占50%的凹形,但这些形状在实际数据中并不存在,所以得到的聚类结果中也没有这些形状。 文:
微信公众号:数据冰山更多文章关注:","updated":"T00:01:41.000Z","canComment":false,"commentPermission":"anyone","commentCount":173,"likeCount":954,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T08:01:41+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-9a7f61c281a98cf9804c49fcfba21680_r.jpg","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":173,"likesCount":954},"":{"title":"WEY VV7油耗测评事件影响评估","author":"shu-ju-bing-shan","content":"38号车评于6月5日下午发布了WEY VV7的测评视频;在视频中,38号车评员指出,VV7怠速时的油耗不计入表显油耗,存在实际油耗和表显油耗不一致的情况。这一车评结果引发了网友对VV7油耗造假的质疑,在网络上引起大量讨论。我们尝试通过互联网上用户的讨论对此次事件的影响力做一下评估。事件影响大小评估下图为2017年1月至6月 “WEY” “VV7” 及 “38号车评中心” 作为关键字的百度搜索指数变化:“WEY” 作为关键字的搜索热度(橙色线)并未受到此次事件的显著影响:在6月5日当天,“WEY”的搜索热度并未有峰值,反而在之前的5月21日(G点)和6月4日(H点)有较明显的峰值。这说明,在油耗测评事件中,关注者并不倾向于使用 “WEY” 作为搜索关键字,但并不能因此得出WEY这一品牌几乎不受事件影响的结论。此次事件主要影响了38号车评中心和VV7的搜索热度:6月5日当天,38号车评中心的百度搜索指数(绿色线)约相当于事件前一个月平均值的3倍,而VV7的百度搜索指数(蓝色线)虽然也在6月5日出现高峰,但是峰值约为事件前一个月的1.5倍。这说明,百度用户更多地使用 “38号车评中心” 相关词作为此次事件的搜索关键字。虽然,“VV7” 的搜索热度增长幅度相对较低,但考虑到 “38号车评中心” 搜索热度的暴涨,这一事件在普通网民中的关注热度,及其对VV7品牌的影响不容忽视。为进一步了解此次事件在活跃的车友中的影响,我们通过 “油耗”、“38车评”、“造假”等关键词识别出了在汽车之家等国内四大汽车论坛中的“VV7论坛”有关油耗及此次事件的讨论的帖子。1月至6月,VV7论坛的总发帖数和涉及油耗问题的发帖数如下:VV7论坛的发帖总数在6月6日达到峰值,为事件前一个月平均发帖数量的4倍左右。其中,和油耗有关的发帖数也在6月6日达到峰值,占到总发帖量的44%;6月6日至9日,油耗相关发帖数占比保持在40%以上;6月10日起,这一占比在20%和40%之间徘徊。这说明,事件的讨论高峰在6月6日至6月9日,在之后也维持一定的热度。参与讨论油耗的人数是反映事件热度的另一个指标;这一指标能剔除个别用户发言较多的影响。2017年1月至6月,VV7论坛的发帖总人数和谈及油耗问题的人数变化如下:自6月5日起,参与讨论油耗的人数就超过60%,6月6日达到峰值73%;也就是说,在油耗事件讨论最热烈的6月6日,有73%的当日活跃的VV7论坛用户都参与讨论了VV7的油耗问题。6月7日至20日,参与讨论油耗问题的人数占比在40%和70%之间波动。总结而言,38号车评油耗测评事件引发了汽车论坛的极大关注,论坛活跃度达到事件前的3到4倍;其中,6月6日至9日讨论最为热烈,10日至20日仍保持很高的热度。相较于论坛的积极关注用户,代表更普遍网民态度的百度搜索指数的反响相对较小,但是从“38号车评中心”暴涨的搜索需求来看,事件在一般网民中引起的反响也不容忽视。用户对事件的立场评估为评估汽车论坛用户对此次事件的态度,我们为此开发了一套针对此次事件立场的算法,用来判定每个用户及每条评论对长城或长城的做法的立场(支持/观望/谴责)。算法使用机器学习模型对评论客体(长城/VV7,38号车评,事件本身)进行分类,并基于事件词典、情感词典、语义分析,考虑到用户态度一致性、主帖和回复关系等,对相对应的评论客体进行立场判定。总体而言,6月5日至20日,在参与讨论此次事件的用户及相关评论中,支持长城、谴责长城和观望/未表态的占比如下:从用户立场来看,支持长城本身或者支持长城在事件中的做法的用户占比约7%,而谴责长城的用户占比为36%。从评论的立场来看,谴责长城的评论仍然超过支持长城的用户,但谴责长城的占比优势缩小,说明支持长城的用户相对于谴责长城的用户发言更多。进一步将评论客体划分为事件本身、长城汽车及38号车评,则用户的立场占比为:针对事件本身,持谴责态度的用户占比相对较高,说明用户对事件中长城的做法(怠速不显示油耗、危机公关等)不认可的比例较高。用户对长城汽车这一企业的立场中,持谴责态度的占比相对低一些,说明用户更多地迁怒于长城在事件中的行为;但谴责的比例仍然超过支持的比例。用户对38车评的立场则是支持占比大过谴责占比。总体而言,在事件中,对长城持谴责态度的用户占比明显多过持支持态度的用户占比。相对于长城汽车本身,用户更多地谴责其在事件中的行为。事件对事后VV7形象的影响评估下图为6月5日至20日论坛用户对于长城/长城在事件中的行为的立场变化:可以看到,对长城或长城在事件中的行为持谴责态度的用户占比在6月5日至8日最高,6、7、8日三天的谴责态度的用户占比均超过40%。6月9日之后,持谴责态度的用户占比降低,但仍在30%上下浮动。另外,用户对VV7油耗及整体的情感评分在事件前一周(5月29日-6月4日)、事件发生的当周(6月5日-11日)及事件后一周(6月12日-18日)的变化如下:用户对VV7油耗的评价的负面占比由事件前的34%上升到事件发生当周的41%,并在之后一周保持在41%;正面占比则由42%缩减到38%和39%。油耗评分的降低也拖累了VV7的整体评分:对VV7的负面评价占比由事件前的22%上升到事件当周的28%,以及事件后一周的30%;正面评价占比也由事件前的46%下降到事件后的39%。总而言之,此次油耗事件增加了用户对VV7的负面印象;从用户对事件的态度和对VV7的情感评分来看,用户对事件中长城汽车的印象和对VV7的负面评价在事件发生后的一到两周仍然维持在较高水平。文:
微信公众号:数据冰山可视化支持: 更多文章关注:","updated":"T00:00:18.000Z","canComment":false,"commentPermission":"anyone","commentCount":41,"likeCount":131,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T08:00:18+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"/v2-fecbece577c80a05bb182_r.png","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":41,"likesCount":131},"":{"title":"关于乐视问题的统一回复","author":"he-ming-ke","content":"因为在1年半前就写过乐视:一篇是(),而另一篇是()。两篇文章都大火过,以至于不少公关公司上门:一派是要求删稿,一派是要求授权去传播甚至要求写得再狠一些。目前恰逢乐视深陷危机的风口浪尖,又有不少人要求我再写几句。然而,把之前的两篇文章翻出来再看了一下,发现大部分结论依然适用于现状而且也代表最想说的一些话:“至于是不是庞氏骗局,成王败寇,唯有最后的成败是检验这一切的基础。你成功了,你的一切SB将成为NB;你失败了,你的一切NB将成为SB。”债主或者股东,各自讨债理所应当,赶紧赶快。其余大部分吃瓜群众的嘲讽其实并没有太多资格,因为大部分在别人最风光的时候为啥不站出来泼冷水警示世人;而且大部分的精准预言也没啥可骄傲的,创业99%都是以失败为结局。况且人性总是自私的,许多人包括我自己乐见别人失败,主要还是为自己一贯以来的庸庸碌碌找到一针安慰剂。(文章发表后,恰好看到孙正义向乐视投资200亿美元的新闻,不得不想起乐视之前传言收购亚马逊中国的事情以及一系列炒作。个人认为可能性不大,坐等打脸。即使这样,也保持对乐视的观点。后来的事实证明这果然又是一次炒作,不用被打脸了,乐视的PR确实需要提高水平和别滥用某些技能。)...更多回答请看...更多文章请到","updated":"T06:19:39.000Z","canComment":false,"commentPermission":"anyone","commentCount":54,"likeCount":278,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","sourceUrl":"","publishedTime":"T14:19:39+08:00","links":{"comments":"/api/posts//comments"},"url":"/p/","titleImage":"","summary":"","href":"/api/posts/","meta":{"previous":null,"next":null},"snapshotUrl":"","commentsCount":54,"likesCount":278},"":{"title":"互联网并购之整合风大盘点(I)","author":"he-ming-ke","content":"中国互联网在经过年发生的一系列兼并收购案的教育和铺垫之后,年迸发出若干惊天并购案。之前的百度收购91以及PPS属于大吃小;易迅入赘京东以及搜搜下嫁搜狗属于生态链布局的嫁妆;唯一有点类似的是优酷收购土豆,这有点乘人之危的感觉。与上述这些不同,新时代的并购案最大特点莫过于:本是模式基本完全一致而相杀多年的对手,面对地主家也没有余量而投不起的情况,在资本的胁迫下走到一起相爱。体量相当的对手在并购之后往往会带来数量更多难度更大的整合挑战,包括:核心团队的选择、人员安排、组织调整或分拆、产品差异化及定位等等。在人情方面,之前已经出现不少黯然立场、相拥洒泪祝福或者扶上马踏新征程的场景及随后的故事会揭秘,然而本着一贯的数据风格,不会在此类琼瑶大戏上着更多笔墨。本文的核心在于用数据的方式完成如下盘点:各家互联网公司在完成兼并收购之后,如何处理两个产品和品牌之间的关系以及如何寻找协同。重点使用两大类指标:用户数据,包括DAU和平均使用时长的绝对值和相对值,主要显示产品在整合之后的表现以及公司投入的情况。特别这两年整合的公司基本都属于Two-sided market-place(双边市场),越集中的市场能够带来用户体验的提升。品牌数据,使用百度指数,主要显示品牌在整合之后的表现以及公司投入的情况。1、 滴滴和快的整合,2015年2月滴滴作为新公司的主导,无论是用户量还是品牌,滴滴用最快的速度(不到6个月)完成了整合以及对快的品牌的彻底消亡。从数据也可以发现,在完成整合之后,滴滴App的DAU和平均用户时长都有明显的提升。不妙的是,滴滴的DAU和用户时长从2017年初开始出现明显的下跌,猜测和网约车新政的严格实施以及共享单车冲击短途市场或有关系。(对比为整合中的附属方数据比上主导方数据,即快的数据/滴滴数据)2、滴滴整合优步中国,2016年8月滴滴保持了一贯的凶狠风格,在宣布整合后不到半年把优步App的用户量几乎完全消灭掉,品牌的消亡速度甚至比用户量更快。不过考虑到当时滴滴已经占据绝大多数的市场份额,在整合后,DAU有缓步的上升,但是用户时长并没有太多增长,司机在供给端能够提供的价值提升已经很微小。(对比为整合中的附属方数据比上主导方数据,即优步数据/滴滴数据)3、(这里是马赛克)4、蘑菇街和美丽说的整合,2016年1月蘑菇街和美丽说的整合采取了柔和路线。用户侧,蘑菇街依靠整合,部分挽回了DAU下跌的颓势,但是在近期的流量枯竭危机中仍然遭遇天花板而无法持续增长;而美丽说的DAU则是持续下滑(其实,美丽说DAU在2015年初被蘑菇街反超之后并大幅下滑,就为日后的被收购埋下种子),目前美丽说DAU只有蘑菇街相应数据的15%左右。同时因为两者在电商卖家的地位都不如淘宝和京东强势,远没达到垄断或者绝对地位,因此卖家端整合后优势释放较小,估计也部分造成整合之后没能挽回用户时长下跌的颓势。品牌方面,两家在淘宝及京东的凶猛进攻下,百度指数都出现较大幅度下滑。就相对值而言,蘑菇街对美丽说的替代仍然比较缓慢,整合一年半之后的今天,百度指数的比例下降到20%。(对比为整合中

我要回帖

更多关于 百度推广数据分析 的文章

 

随机推荐