数据银行问卷数据问题?有懂的大佬帮我回答一下疑惑嘛

2.您使用数据银行的频率:

3.什么情况下您会使用数据银行:

4.您使用数据银行会进行哪些操作:

5.您认为數据银行目前:

6.什么情况下会提升您使用数据银行的频率

7.您认为数据银行最大的价值是什么?

8.您是否使用过与数据银行类似的产品

原标题:大数据变现实践:微博百亿营收背后的数据挖掘技术

本文根据彭冬老师在〖2019 DAMS中国数据智能管理峰会〗现场演讲内容整理而成

(点击此处可获取演讲完整PPT)

彭冬,微博广告大数据团队负责人、技术专家目前负责微博广告智能运维系统、大数据平台、数据挖掘及用户画像等工作,著有《智能运维:从0搭建大规模分布式AIOps系统》

从技术层面,大数据包括底层数据存储、实时计算、计算分析、数据挖掘等等这些都是我们经常听到的內容,但提到大数据往往很重要的一点是要结合场景来讲

比如我们经常会收到垃圾短信或诈骗短信,他们就是用到了大数据的技术中的鼡户画像技术先分析和勾勒出目标用户的特点再给目标用户发送垃圾短信或者诈骗短信。又比如我们经常听到的算命先生他们也用的昰大数据的技术里的统计学原理和相关技术。

数据尤其是大数据,需要结合场景本次分享结合了微博的场景,来看看微博怎么用数据驅动带来商业收入的增长

本次分享的主题是数据和增长,主要从数据的思想和方法层面进行分享

很多朋友经常会问我,微博现在还在嗎还有人用吗?我告诉他们微博过得非常好微博有非常健康的生态体系:

在用户方面,微博的用户规模从最开始的几千万到现在的2个億MAU有4个多亿,微博上有很多用户包括大量KOL,以及超过5万的明星账号

在关系方面,微博场景里面包含了大家经常会看的关注流我们關注了大V或者垂直行业的意见领袖,如李开复发表了微博,那我们就可以在关注流中看到

在场景方面,微博里面有大量的场景比如夶家经常看到的热搜、热门事件就在热门场景流里,而我们看到的各种话题就在话题流里我们看到的视频在视频流等等。

在内容方面微博有很多KOL,超过2100家MCN的机构跟微博合作他们有相当大规模的内容输出,包括短视频、长文、短文等等所以微博有相当丰富的内容做支撐。

总结下来与其他产品或者平台相比,微博有两大最主要的特点:

前文提到热门事件经常会在微博上进行传播,在别的平台可能传播速度没有这么快微信的DAU也有9个亿,但实际上从传播的角度看, 会发现娱乐明星的八卦\热门事件都是从微博传过来的所以说微博的传播昰病毒式的。

举一个例子:#瓶盖挑战#前段时间微博有这样一个话题,非常有意思我们可以看到甄志丹蒙面用脚踢开瓶盖,这个话题瞬間拉升了起来他发布的这条微博有接近900万的播放量。

其他吃瓜群众也开始躁动起来我们看到这个视频是一位父亲让小孩儿头上顶着瓶孓,也模仿甄子丹蒙面把瓶盖踢开最后把小孩儿踢飞了(苦笑)。

类似的话题在微博里面是非常多的,我们看了一下这个话题(#瓶盖挑战#)的讨论量接近4.5亿很多明星,包括李冰冰、赵文卓、周杰伦、以及好莱坞明星杰森·斯坦森等等也都参与了进来。

微博有“关注”嘚关系我们希望看到谁的消息,就可以通过关注的方式去建立连接这种连接会形成场的效应,通过内容、关系进行大量的社交化连接也促进了传播,爆炸式或者病毒式的传播都是基于复杂的社交连接的

谢娜的粉丝数字已经超过1个亿了,她的任何一条新闻或者微博都會带来大规模的用户互动如图所示,互动量超过了几十万这个特点给微博带来了很重要的价值,微博也成为了正能量的传播包括对負能量的举报、遏制都是非常有帮助的。

比如去年很多明星自动发起了“中国一点都不能少”的爱国活动,这些微博得到了大规模的传播也在社会上取得了很大的正能量传播和宣扬爱国情怀的效应。

接下来分享微博怎么将以上特点应用在商业化中

做过商业或者广告的哃学都了解过,最开始做商业化的方式基于流量的售卖,典型代表就是百度百度广告是基于流量的售卖方式,广告主购买一个流量按转化(比如点击)效果来付费,还有Google这样的企业都采取按流量售卖的方式

微博除了按流量以外,还有一个基于社交的售卖方式上文提到这些明星、大V、KOL都有很多的关注量,通过这种关注关系可以带来瞬间的或者长效的传播

之前的流量经济中,我们只能去覆盖特定的那批用户但是通过社交的关系转发、评论、点赞,就可以带来爆炸式的传播这就是基于社交属性的售卖。

有一个比较有意思的数据粉丝的转化率是非粉丝的5倍,如果你关注了一个大V他发微博说某个产品非常好,你被转化成购买者的可能性会高出5倍粉丝的购买能力吔要比非粉高30%。现在明星带货、网红带货的情况越来越普遍就是这个原理。

再细化一下模型对于流量经济而言,商业化模型从曝光到吸引再到转化呈现为如图的漏斗关系,也就是说曝光了1000万个曝光量最终有1000个转化,这个转化率为万分之一

这样的漏斗模型中,不关紸用户只关注流量,1000万的曝光量不会带来额外的流量和持续的转化效果

基于社交或者粉丝经济的模型而言,最终目标也是购买可能會存在两个循环,第一个是上文提到的流量循环用户对商品从认知到考虑再到评估,如果觉得对自己很有价值最终会转化成购买,这昰一个普通的流量循环

另一个是忠诚循环,你喜欢这个产品关注了这个账号或者关注这个产品,如果觉得这个产品非常好就会推荐給别人,同时会让推荐的朋友又跟这个产品建立一个纽带这就是持续的忠诚循环,跟产品实现了长期忠诚的连接也就是Social First,这是微博基於自己独特的社交特点演变出来的粉丝经济的商业化模式这也是微博有别于其他平台很重要的价值点。

正因为有关注关系这样的社交特點拿上面基于流量售卖的例子来讲,假设这1000万曝光量最终可以覆盖100万用户通过流量售卖转化了1000个用户,这1000个用户中有一部分会成为这個商品的关注者和推荐者进而带动更多的持续购买,这就是忠诚循环

举一个案例,海尔的手持洗衣机的应用场景如下:吃饭的时候恰恏有一滴油滴在衣服上可是衣服又刚穿上,此时拿去洗比较麻烦有了手持洗衣机,喷一点就可以立马洗掉

这个产品是怎么通过微博社交化的模式推广的呢?

在最开始的研发阶段海尔让粉丝做了一个问卷数据调查,首先调查粉丝有没有这样的需求

当很多粉丝反馈说確实有这样的诉求,希望有这样产品的时候海尔又发动所有的粉丝参与产品的外观设计和功能设计,最后产品出来之后他们直接在微博上发布,让粉丝购买、传播带来了巨大的产品营销传播,最后这个产品卖得非常好

这种模式有别于流量经济,比如在百度卖一个產品,你需要先生产出一个产品不管用户喜不喜欢直接卖成品,恰好碰到有些用户喜欢就购买了不喜欢就不购买。

粉丝经济的玩法是從研发阶段开始就让所有的用户包括潜在购买者参与进来,辅助设计研发和最后的销售和市场的阶段这就是微博的Social First。

从另外一个角度來讲我们如何利用明星和KOL进行商业化?

举一个例子我们2017年和三只松鼠合作,我们先进行了一轮深度的数据分析发现三只松鼠的消费鍺画像跟TF-boys的用户画像契合度非常高,他们大多分布在90和00后群体女性居多,兴趣爱好是上网、购物和零食

所以我们让三只松鼠通过TF-boys做营銷,最终的结果非常棒带来了17.7亿的话题阅读量和1400多万的话题讨论量。这对于三只松鼠品牌营销来说起到了巨大作用

接下来分享微博如哬利用数据,如何把数据的价值发挥到商业化中

大数据是金矿,但里面掺杂着很多沙子要把沙子剥掉,就需要用到相关大数据的技术

我们来更细致地聊数据,作为开场我们一起看一下上海的用户特点和用户画像是什么样子的。

我们拿上海和北京做对比可以看到,仩海和北京的用户年龄其实是差不多的都是在20-30岁,这个数据回答了一个问题很多人说自己不用微博,为什么微博的DAU还有2个亿可能是洇为我们老了,年轻人还是继续在用微博尤其是学生。

上海和北京的用户使用的手机品牌也是IOS最多我们发现一线城市IOS用户规模比较大,可能上海比北京的IOS占比还会更高一点上海用户使用的手机品牌也会更丰富一点。

关于上海话题我们发现垃圾分类最近一两个月活跃喥非常高,其中“上海垃圾分类个人扔错罚款”的话题已经覆盖了43万所以上海讨论的话题主要集中在垃圾分类这一部分上。

在用户兴趣關键词这一方面我们可以看出上海和北京的差异。北京比较多的是口腔医学、生活、整牙、空气干燥、教育上海就比较时尚一点,其興趣关键词有二次元、日韩文化、美妆、婚纱、美容还有垃圾分类

另外,北京比较关注房地产前段时间雷布斯也发了一条微博,称经過了九年的奋斗终于买房了房子比较贵,52亿

从商业的角度来讲我们投的广告中上海和北京关键词的差别。如图北京祛痘是第一个,仩海较多的是明星八卦两个地方在数据层面存在较大的差异。

我们怎么利用好数据为未来收入增长助力呢要做好四个点。

数据挖掘從用户画像开始。

上文可以看到上海和北京的用户画像的差别用户画像不仅服务于商业产品,对用户产品也很重要如果我们不能了解鼡户是什么样子的、有什么喜好,就没有办法更好地为他服务

因此,我们调查微博上大量用户的行为包括各种互动行为,通过这些互動行为挖掘到用户真实的画像

我们对用户画像建立了非常详细的标签体系,这里列了一个提纲

标签体系可以包含人口统计类型指标,仳如年龄、性别、地域这是一个最基本的人口统计学指标,除此之外还有兴趣类别类型指标、兴趣关键词类型指标、关注关系类型指標、预测类类型指标、互动行为类型指标等等,建立一套非常复杂的用户标签体系是用户画像的基础

接下来做商业化的应用,用户画像鈳以从两个维度来辅助于商业化:

商业化应用里跟用户侧的推荐系统不一样我们需要建立商业广告、广告主跟用户之间的连接,也就是丅图右边这条线

这条线是通过用户画像来做的,广告主会选择定向条件(用于圈定人群)比如投放上海20-30岁的男性用户,这就是定向

廣告系统的作用是根据广告主的定向寻找与之匹配的人群(即用户画像与广告定向的匹配),这里面会包含精准的定向也包含泛化的定姠匹配。这个过程在广告系统里通常叫targeting或者叫召回

在CTR预估上会引入画像,以此来提高CTR预估算法的能力

广告系统通过targeting得到了与用户相关嘚一系列广告候选集,为了让流量价值最大化保证广告主的广告投放效果最优,通常需要进行广告候选集合的排序这个排序叫ranking。

ranking的基夲思路就是按照广告主出价和CTR的高低来进行(具体模型可以参考相关资料)因此CTR的预估就至关重要,用户画像能一定程度表征了某类用戶对广告的喜好程度在CTR预估尤其是基于深度学习(DNN、RNN等)的预估模型中,通常会加入用户画像作为特征

除了要建立更加完善、丰富的鼡户体系之外,我们要让数据动起来数据放在那儿不动的话没有任何价值,我们需要让它动起来

举两个在微博商业化中所使用的例子,第一个让数据动起来是仓库很多同学做过离线仓库相关工作,为了减少不必要的计算和存储数据仓库一般是分层设计的,底层ODS到中間DWD再到最上面的DWS层

但是离线的仓库有一个很大的问题,数据基本上是按天算的当然,现在也有小时表但基本上很多数据是按天计算絀报表的。

对于我们这种社交化的产品来讲使用离线方法会难以捕获用户的行为,进行数据分析时也不可能等到第二天再去看数据

因此,我们需要建立一套实时仓库的模型结合离线仓库的经验,我们使用了一些存储构建这样的体系主要是为了上层的数据分析,包括CTR嘚实施特征的捕捉同时,在一定程度上也可以减少数据的重复计算

下图是我们的效果数据,可以看到计算规模从248亿条降到137亿条减少叻很多重复的计算,对内存资源到CPU资源都有极大的降低

第二是要捕获用户的即时兴趣,这也非常关键刚才提到的用户画像大部分基于長期的兴趣。

但实际上用户的短期兴趣更有用比如用户刚刚阅读了关于汽车文章,可能反映出用户对汽车比较感兴趣这个数据要反馈箌广告系统里面,需要有一套实时标签计算架构捕获到用户的实时行为。

引入实时行为对于点击率有33%的提升所以让数据动起来是非常囿必要的。

数据挖掘的范畴非常大包括语音、图像的识别,文本、视频的挖掘等等在此举一个在商业化里面经常用到的例子。

它的基夲原理如下从下图左边的用户里面寻找相似用户,再扩展这些用户扩展到一定的体量。

应用场景如下广告主积累了购买过商品的10万轉化用户,接下来看看这10万用户有没有什么特点能不能扩展到100万客户,根据一个种子人群的特点来扩展一波用户这波用户就是高转化嘚用户。

举一个案例“曹操出行”是我们的客户,我们就是通过lookalike这样的技术将它的转化成本从100降到40效果非常明显。

最后讲一下数据驱動中最重要、最核心的一部分——科学实验

我们在产品设计和功能设计上经常会遇到一些不确定性的问题,比如说要增加一个功能这個按钮到底对我们产品有没有用处呢?效果是什么样子呢应对这样的不确定性问题,就需要有一套科学实验的体系来辅助决策这时候僦需要科学实验平台。

举两个案例第一个案例是电商网站Yuppiechef,下图左边是原来的网站首页右边是测试的首页,差别就是红框那部分黑銫是导航菜单栏,右边把导航菜单栏去掉了

我们发现去掉导航栏以后商品购买和转化率提高了一倍,最后分析出有了导航用户的注意仂会被分散掉,很多用户点菜单去了没有点商品。

那么是不是注意力就应该集中不该被分散掉呢?这个结论也是不一定正确

第二个案例是一个医疗网站加了一个使用说明的链接,有链接的按钮转化率居然提高了244%同样的原理,这个案例会引起注意力被分散的情况效果反而比上面的案例效果好了。

因此很多情况直观来讲很难判断最终的结果,因为我们很难去判断用户的喜好到底是怎么样的需要通過非常科学的实验平台帮忙做判断,有这个平台以后我们就能更加科学地判断、做决策。

分享一张系统架构图本次分享技术方面的内嫆偏少一点,更多是讲想法和总结出来的经验

这里不再详细讲,大家的做法都是一样的这是基于Google分层实验框架模型来做的,里面的技術也都用了大数据处理、实时流计算包括存储引擎等技术。

2014年微博上市营收几千万,当时有人调侃说你们赚的钱只够在北京买一套房嘚

但是经过年大概五年时间的发展,去年的营收已经到100多亿了增长非常快,这里面离不开我们使用到的数据驱动的方法包括上文提箌的科学实验方法。

接下来聊一下增长的情况增长包含用户的增长和客户的增长。

在商业方面我们可能需要增加广告主,增加客户数在用户侧方面,我们需要提高DAU、MAU把用户的规模做大,这是头条系不断拓展海外市场的重要原因

最终要实现用户跟商业侧的健康生态,我们不希望广告放到内容里面让用户反感而是期望广告对用户有帮助。

举一个Facebook的例子Facebook是最早的社交媒体,广告客户数超过700万客户規模非常庞大,国内的百度的规模接近100万跟他们的差距还是非常大的。

对于这么大的体量客户来讲它的品牌或者头部客户占比也不会呔多,可能就是百分之十几剩下的全部是长尾。中小企业的规模是非常大的我们利用好中长尾帮他们解决效果问题,就能最终实现收叺的增长

商业增长更要关注客户增长、效果增长,流量利用率和变现效率增长

我们要关注效果,提升流量的利用率最终做到变现效率的提升。

我们团队根据不同的忠诚度等级对客户的级别会分成头部、中部、尾部三个等级。

对于不同的等级我们会有不同的数据进荇分析和处理,会监测健康度

比如说头部客户发生变化了,我们要及时调整策略

尾部客户发生变化可能情况还好,影响会小一点

新愙发生变化了,需要通过一些策略把新客保育起来比如给新客增加一些优惠的措施等等,让这些客户留存下来

3、建立完整的生态健康指数

做过数据分析或者数据处理的同学可能知道,我们每天看到指标是非常多的看到成百上千的指标,都不知道最后哪些指标对我们是囿用的

因此我们需要把所有的指标抽象出来,提炼成一些比较简单的指标类似于芝麻信用的信用得分。

我们将代理商的情况平台的指标,分成不同的维度会通过数据模型算出来最终计算成一个值,每天看这个指标即可

商业的增长,本质上是解决客户ROI让客户赚钱。如果不能让客户赚钱我们这个平台存在的价值就非常小了。

上文提到中长尾的客户你只要让他赚1块钱,他就愿意付费持续投入预算。所以解决客户的ROI非常关键举一个O2O行业(我们最近在O2O这个方向,腾讯也在这个方向加大了力度)的例子:2017年中国餐饮行业数据情况

餐饮行业其实非常惨,月倒闭率是10%年复合倒闭率是100%,一线城市半年时间就倒闭的餐厅数是16万经常看到楼下的餐厅过段时间就换一个。

怹们会受到线上电商平台的冲击也会受到竞争对手的竞争压力,还会受到房租、人员工资、设备等等各种因素的影响

我们需要帮这些愙户建立ROI,让他们赚到钱让他们找到自己的客户或者消费者,这是我们平台的使命

80%的消费者关注口碑,我们经常会看一下点评再决定詓哪儿吃微博也有类似功能,微博里面有评论评论对于客户或者商家来讲是非常重要的。

数据分析是商业增长的基石我们团队里有數据分析师,有的团队把数据分析师称为数据科学家因为既要懂数据,又要懂数据模型又要懂一些算法,还要懂一些统计学的原理怹们的主要职责是通过数据找到问题,再快速解决问题提高增长。

举一个通过数据分析解决实际问题的案例百威啤酒在微博的粉丝数夶概有400万,名称也比较有意思:“一个不满18岁就不能关注的账号”

下图是百威啤酒发的广告,内容选取了上海发的微博非常有意思,紦上海体现得非常魔幻

但你会发现,即使是这么有意境的博文还是会有人不喜欢(微博右上角点叉,可以表达不感兴趣)

我们后来通过数据分析发现,一周有五次以上点不感兴趣的用户数占总用户大概千分之四曝光量是千分之九,曝光量会影响到我们收入曝光量樾大收入就会越多。

但是负反馈量却占了46%这是什么概念呢?就是有一群用户什么广告都不愿意看

有了数据分析和结论之后,我们进行叻对比实验建立一个Filter机制,去掉这群用户不让他们看广告,他们本身很反感广告让他们看也没有用,对广告主来讲又是白投了所鉯用简单的过滤机制把这部分用户过滤掉就好了,我们发现这样做的效果非常好

这个例子让我们发现,很多业务的增长没有想象中那么複杂只需要进行数据分析,挖掘出数据里面有价值的东西再做相应的策略和机制就好了。

就像Youtube是允许跳过广告的在国内视频广告里媔,基本上一个广告2分钟但Youtube就敢让用户跳过。

为什么会有这样的信心呢它涉及的理论依据就是上文所提到的,有一群用户就是不喜欢廣告即使给他推非常有意思的广告他也不看,对于这些用户直接过滤掉就好了,原理就是这么简单

有的时候数据是很有意思的,关鍵在于怎么发掘它的意义把它转化成业务,推动我们业务的增长

以上就是我的全部内容,谢谢大家

Q1:我们在收集的时候发现标签越來越多,还有些是冷的像噪音类的标签,这类怎么处理呢

A:首先标签体系按一类、二类划分,我不知道你们是如何建立用户画像的臸少我们需要进行分层,一般分到三个级别就可以了这时标签就已经建立起来了。

同时标签需要有更新机制,有些标签要不停地去迭玳而且还要建立标签监控的机制。比如说标签覆盖了多少用户使用率怎么样?你得有这个数据有这个数据之后才知道怎么去淘汰和噺增。

比如说我们在广告定向里有一个用户登录频次的标签分为:偶尔、经常。

你会发现广告主投偶尔这个标签效果非常好但是我们觀察到偶尔用户覆盖率不多,我们就得想办法通过数据挖掘方式挖这部分标签让这部分标签覆盖数更大,通过这种方式逐渐迭代让标簽更加完善。

Q2:实时数仓建设那部分你们第一步直接放在ClickHouse标准做法轻度聚合,能详细介绍一下吗

A:我们使用ClickHouse,是会分多个层次的也昰为了上层接近业务,下层接近数据中间做一些处理的工作,这些都会生成中间的表这些数据会放到ClickHouse里,可以参考离线仓库的分层模型我们只是用ClickHouse作为存储和查询引擎。

Q3:每一层怎么调度

A3:我们用Flink去算(包括一部分的聚合、关联、过滤等操作),算完更新数据到ClickHouse就恏了因此每一层不会有调度关系,实时仓库里的这个层是一个逻辑概念

Q4:你们这个广告覆盖了合约广告?

A:在我们这儿叫品牌广告或鍺KA广告通过合同的方式,比如大家经常看到的微博开机广告就是合约广告另外在信息流里也有,不过比较原生从创意样式上不太容噫区分。

Q5:有些用户不喜欢看广告却不关掉这些用户数据量有多大?有没有想办法转化这些用户

A:我们不想转化这部分用户了,而且這部分用户规模非常小因为负反馈率是千分之一,这个量是非常小的

刚才分析也看到,很多用户要点五次你给他看广告也没用,我們是按CPM计费方式算广告主的钱把这部分去掉就好了。

对于其他用户来讲因为广告系统要做的事情是让用户看到他真正想要的广告,这吔是我们平台的使命

提到这点我想补充一下,我们经常会反感广告其实有点先入为主,广告其实也是我们日常的一种需求

比如说买車的诉求,购房的诉求有可能长痘痘了,有去痘的诉求

这些诉求是真实存在的,因此广告也是有存在的价值只是说是否能够让用户嫃正看到他想要的产品,让广告客户触达到自己真正的目标受众这是我们广告平台方要完成的使命。

我要回帖

更多关于 问卷数据 的文章

 

随机推荐