如何创建一个大数据平台是什么

当前位置:
大数据漫谈3:大数据平台该如何建设?
专家简介:李剑杰,新炬网络架构师,资深数据资产管理、大数据专家,10年数据资产管理经验,曾参与多个移动、联通、银行、烟草数据资产管理项目,对数据资产有丰富的项目规划管理、落地实施经验。
大数据时代,数据的价值不言而喻,数据已经成为企业重要的信息资产。数据的存储也好,数据的整合加工也罢,归根到底是为了使用数据。那怎么才能有效的发挥数据的价值呢?
在这之前,我们先来看看大数据与BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。
数据使用金字塔模型
从数据的使用角度来看,数据基本有以下使用方式:
自上而下,可以看到,对数据的要求是不一样的:
● 数据量越来越大,唯独越来越多。
● 交互难度越来越大。
● 技术难度越来越大。
● 以人为主,逐步向机器为主。
● 用户专业程度逐步提升,门槛越来越高。
大数据平台建设
企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。
建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。同时数据处理能力下沉,建设集中的数据处理中心,提供强大的数据处理能力;通过统一的数据管理监控体系,保障系统的稳定运行。有了数据基础,构建统一的BI应用中心,满足业务需求,体现数据价值。
提到大数据,无可避免的就会提到hadoop。尽管大数据并不等同于hadoop,但hadoop确实是最热门的大数据技术。下面我们以最常用的混搭架构,来看一下大数据平台可以怎么来搭建,支撑企业应用:
通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。
利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。
同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。
技术只是承载业务的一种手段,无论采用哪种技术手段,归根到底是为了实现数据的价值。只有根据企业实际的发展需求,透彻分析企业的数据形态,才能更好的选择符合企业发展的技术架构,才能最大限度的满足企业发展要求,发挥数据价值,支撑企业决策,提高企业的综合竞争能力。创业公司应该如何开展大数据团队建设工作? - 简书
创业公司应该如何开展大数据团队建设工作?
大数据之所以能称得上一个时代,来自于整个社会的集体狂欢。数据源于各行各业,这场变革带来的机遇自然蕴藏于各行各业之中。紧盯这个市场等待机遇的,无所谓IT巨头或是初创企业,无所谓团队规模是大是小。
大数据能为企业带来什么?
? 更多的订单,更低的成本,更快捷的管理,更新的业务模式。? 巧妙善用互联网上的大数据, 小型创业团队就可以为自己快速积攒早期创业所需的资源,从而降低创业成本,提高收益率。然而我们却看到,在每轮技术变革中中小企业都是被最后照顾到的。在这场新变革的席卷下,我们不禁又要问小团队,你的大数据在哪里?诚然,缺技术、缺人才、缺数据等种种现实,都将小团队置身于水深火热之中。那么大数据时代的小团队还有机会吗?公子义从事9年的大数据的研究,结合自身的实践经验,为大家仔细剖析面对种种问题下的小团队该如何做好技术选型,及如何权衡面临的大数据成用成本和数据隐私担忧。小团队的大数据都有哪些挑战?近几年,以Hadoop生态为代表的数据基础设施发展很快,给大数据技术的易用性提供了很大改善,也使技术门槛降低很多。在公子义看来,小团队在大数据方面的挑战主要表现为人才短缺和数据来源。为了应对这两个问题,小团队必须要在业务上下功夫,依据核心的业务形态,深入挖掘自身数据。
数据应该如何挖掘呢?具体应该怎么做呢?公子义以视频用户数据举例。虽然用户在观看视频的过程中,没有太多的互动过程,但还是可以挖掘出价值非常大的高频数据。基于用户的拖拽、回看这样同一份数据,我们可以做到的可以有很多:挖掘到不同用户对视频内容的High点,帮助视频的内容运营和内容创作找到用户兴趣点;认识用户行为,找到相似用户,基于内容兴趣进行用户画像;根据用户对内容上的喜好更好地进行CDN的预分发。根据用户行为做视频推荐某种意义上说,视频推荐比商品推荐更容易。视频作为用户相对高频的行为,意味着我们能抓取到用户更多的行为数据,对用户的喜好反映更全面;从应用场景的角度来说,用户对于商品是否购买可能是一个很大的决定,而看不看视频相对决定很小,决定错误的损失也很小。在进行视频内容分析时,由于视频文本挖掘的维度偏少,因此进行文本分析的价值不大。
通过数据挖掘分析用户的属性,洞察消费者!
因此,同一技术在不同的业务领域上的重视程度,和起到的作用是不一样的。小团队由于自身技术能力和专业人才资源都有限,一定要更加细致地了解自己的业务形态,最大程度利用已有数据。案例研究:深圳指微科技 数据工场大数据平台架构深圳指微科技目前除了发展自己的公司,还投资了很多生态链企业。随着业务的快速增长,业务产生的数据量突飞猛涨。大家都知道,数据越集中,利用价值越大,由此深圳指微科技数据工场应运而生。深圳指微科技数据工场主要承担着为全公司各团队及生态链建设,提供数据采集、计算、存储等基础能力,以及机器学习、挖掘的工具和方法的任务。除了底层的能力,数据工场也为公司及生态链企业提供一些具体的基础数据服务,利用风控和额度评估、广告精准投放、限时抢购时用数据打击黄牛等等。通过数据工场提供的数据能力,企业不仅能够对业务进行数据分析,也实实在在将数据应用到核心业务场景中。深圳指微科技数据工场主要的工作是管理数据、元数据、数据权限,以及管理大量的计算。公子义认为把数据存下来不是目的,而是要通过计算运用到各个业务领域中。生态链的业务场景丰富,因此整个计算体系是纷繁复杂的。
运用好大数据才是最终的目的
为了更好适应未来的需求,深圳指微科技数据工场围绕Hadoop生态构建底层基础平台。虑到扩展性,数据工场天生基于Scala设计成分布式架构。由于小米及其生态链企业业务场景丰富,因此在技术选型方面全生态都会涉及,如消息流、批处理、实时计算等技术都需要用到,HBase、Hive、Spark、Storm 、Impala都在不同的场景下使用。利用Docker解决异构和资源问题:为了管理好这些纷繁的计算框架和模型,在计算的执行方面,小米使用Docker来解决对环境的不同需求和异构问题,并且与Hive、Impala、Spark这些不同的计算模型都进行了对接,去适配不同应用场景计算不同数据的模型。另外,在不同业务场景下,同一个计算逻辑也可以选用不同的计算模型,Docker 的使用也避免了资源的浪费。比如一个计算任务每天凌晨运行,为了追求吞吐量,可以放到Hive里跑;还是同样一个计算模型,现在就要跑,可以不用更改,就放到Impala里运行。小团队的大数据敏捷之路选择热门的技术:小公司的时间耽误不起。选择热门的、常用的、经过大公司验证的技术,一是少踩坑,二是常用的技术人才相对好找。按需使用,不要规划得太大。传统BI进行数据分析时通常会建立一个大而全的模型,再根据业务需求进行调整。但小团队的业务发展很快,因此在初期不要规划得太大,而是根据业务需要,细分业务场景,在每个小场景里构建小的数据模型,分析用户就建用户模match型,分析产品用简单的产品模型。
根据用户群体建立最为简单的数据模型
另外,小团队要考虑到自己的应用场景是以分析型为主,还是应用型为主,之后再进行相关的技术选型,如Hive、Impala 、Presto等;而如果是以业务型为主,就要具体结合自身业务和技术能力综合来看。在数据量不是非常大的情况下,没必要选择HBase这样集群的存储方案,有许多产品可以替代。比如MySQL这类传统数据库能支持的数据规模也不小。根据计算要求和数据规模综合来选,不是超高量的不需要选太大规模的技术选型。选择便捷、灵活和易于管理的技术。大公司在技术和系统使用上首先考虑的是集群的利用率和吞吐量,而小公司则要从便捷、灵活和易于管理的维度来考虑。存储方面:建议使用以HDFS为主的存储,因为很多计算的工具所使用的存储都建立在它之上。对于业务未来的迅速发展,有比较好的兼容性;计算方面:建议在选用常用的基础设施之外,具体计算用户交互时使用易于使用的技术:HUE:基于web,在进行Hive 查询时可以直接在平台上完成,使用门槛更低;Presto:适应数据源多,可以连接各种各样的数据源做计算和数据分析。由于业务数据和用户的行为数据时分开的。使用Presto这种连接器型的分析工具时,有分析能力的人就可以直接使用这种工具,我们不需要将不同的数据还要ETL导入到一起,后续还要做加工处理,只需要在物理打通就可以。
在平时的工作需要重视数据的积累!
重视数据积累:小团队在前期积累数据时,一定要多花点儿功夫,不要偷懒,把数据尽可能采集全、采集准。千万不要等用到什么数据才去找数据,一旦发现你需要的数据之前没积累;或是积累的是错的;或是没有对数据进行标识,没办法区分这是哪个用户,陷入逻辑孤岛,都会非常麻烦。比如我们需要采集用户在看一篇文章时的数据。这时我们应该将采集的维度考虑得更多,至少从用户本身的维度、文章内容、上下文关系、用互交互事件这四个维度上考虑。采集的数据可能包括文章分类、标题、内容ID、当前该文章热度、用户获取文章的渠道等等。这会让我们更全面地了解用户的喜好,也将用户的路径分析的很清楚。哪怕未来不知道怎么用,采集更多更全的数据一定会对应用产生价值。在存储成本较低的现状下,多采集数据带来的代价并不大。真正昂贵的其实是计算,而一旦没有数据,代价将会更大。
通过数据为公司创造价值才是小公司的最终的出发点
对于创业公司来说,在更短的时间内创造更大的价值,是企业得以存活的根本。大数据是工具,了解大数据的作用,结合业务的真实场据,满足用户需求,大数据才能真的帮得上你。公子义【微信号gongzi348】80后,90后心理研究专家,4年心理学,9年大数据研究者,专注于移动互联网,大数据究狂热爱好者,热爱写作。原创文章,未经许可,严禁转载,违者追究法律责任。
专栏作家,心理研究专家,9年大数据研究,专注于移动互联网。公子义【微信ID:gongzi348】文章已进行版权登记,未经授权,不得转载.全国一体化大数据中心怎么建|大数据|数据|一体化_新浪财经_新浪网
  原标题:全国一体化大数据中心怎么建
   习近平总书记提出:“以推行电子政务、建设新型智慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家大数据中心”,为发展全国性的大数据中心指明了方向。步入互联网时代,大数据建设在国家管理和社会治理中的作用更为凸显。如何打破信息孤岛,实现数据融合共享?如何用好数据,提升服务水平?又如何分享大数据产业聚合带来的商业蛋糕?《经济日报》邀请专家学者就“建设全国一体化的国家大数据中心”有关问题进行了探讨——
   攻克孤岛促融合
   主持人:融合、共享是大数据建设的关键词。但由于诸多原因,部门之间、地方之间、行业之间包括其内部,均存在无数个信息孤岛。如何攻克信息孤岛,推进技术融合、业务融合、数据融合?
   王克然:数据资源有别于石油、煤炭等传统资源,它利用越多,挖掘越多,产生的价值越大。而且,随着大数据产业的不断发展,人们发现,用不同工具、不同知识挖掘大数据所产生的价值,将会带来一场认知革命。正因如此,大数据产业建设越来越重要。
   要推进大数据技术融合、业务融合、数据融合,让数据开放共享是基础。如何共享?从制度方面讲,要有关于部门信息公开的顶层制度设计;从平台方面讲,要搭建统一开放的信息公开平台;从机制方面讲,要不断激励相关主体贡献新数据,促进信息共享、共用。比如,要推动工业转型升级,除了关停并转、腾笼换鸟之外,还涉及技术、环境、区域发展,还涉及各个部门之间协同工作。如果相关要求和数据能统一到一个平台上,各地各部门各主体就能各司其职,互通有无,信息孤岛的问题也就迎刃而解了。
   刘鹏:信息孤岛的存在,有着很多客观原因。很长一段时间以来,不同部门、不同地方、不同企业都建设了很多的数据系统。但由于标准不一,体系各异,导致这些数据很难融合共享。现在的思路应该是:先把旧有系统融合进来,再逐步发展新系统。在这个过程中,要逐步解决三个问题。一是技术问题,现在已经有了一些工具,例如cData数据集成中间件,就可以比较方便地将现有系统集成到新平台上来。二是标准问题,只有有了统一公共平台和标准体系,才能将不同标准的信息系统按照统一接口规范和语义标准进行封装转换,对接到新平台上。三是体制问题,数据共享必然会涉及部门利益问题和信息安全问题,这也是当前推动信息共享的重点和难点。
   我认为,部门利益问题可从两个方面来着手解决。一方面,国家层面要出台推动数据共享的政策,且要有强制性;另一方面,要建立一套鼓励共享的机制,那些数据共享量大、访问多、评价好的主体,就应该受到相应的政策激励。
   陈光磊:政务信息系统目前还存在比较严重的信息孤岛,原因之一是数据来自于政府业务信息系统。而这个业务系统相对独立,部门间协同工作做得很少,数据就很难打通。原因之二是区域发展不平衡,导致跨区域业务系统本身有一些障碍,特别是与不发达地区实现跨区域数据融合也存在较大困难。
   打通数据孤岛,促进数据融合,除了观念上要更新、政府要重视外,还要从业务入手,努力推进协同业务发展,用综合业务去打通政府各个部门办事流程,促进大数据流通。此外,还要改变数据融合方式,减少交换,鼓励共享,建立基于云的大数据中心,用共享技术来解决协同问题。
   创新为先争“蛋糕”
   主持人:建立全国一体化的国家大数据中心,对大数据企业而言,意味着重大商机。但也要看到,这块蛋糕要“吃得好”“吃得饱”也并非易事。相关行业的企业应如何调整,以更好地迎接机遇?此外,大数据行业要实现健康、持续发展,还面临哪些挑战?
   王克然:国家级大数据中心不可能包揽所有应用,还是要靠企业创新,实现大数据之间的化学反应,这将为行业的各类市场主体留下巨大发展空间。
   国家级大数据中心发挥的是黏合剂作用,它能把相关数据黏在一起,实现聚合。在聚合的基础上,它还促进价值倍增,让数据价值得以爆发式体现,从物理叠加到发生化学反应,最终“1+1”可能要大于100。面对这一前所未有的机遇,企业要深入大数据关联、开发利用工具,来实现价值的几何级增长。
   刘鹏:全国一体化的国家大数据中心,是把现有各部门数据放在一个平台共享,将来采集数据手段和运用数据手段都会发生质的变化,这些都是商机。例如,云创大数据设计了“智慧路灯伴侣”装置。在每一个路灯上安装了多个传感器,可以提供各种各样的服务,感知环境变化、作为Wi-Fi热点提供免费上网服务、给手机充电等等。智慧路灯伴侣,其实就是用原来的路灯,加上了一个低成本设备,实现对城市环境无缝监测、对城市安全无缝监控、对城市网络无缝覆盖。今后,这样的智能传感器可能有上百万、上千万个。这无疑是一片巨大的蓝海。
   大数据高度发展后,将会使得地球感知与智能处理平台融为一体,其中产业的潜力需要大量企业去一起挖掘。在大数据的存储、管理和分享方面,A8000超低功耗云存储,一个机架就可以达到原来一排机架的容量,而且用电量只有原来的十分之一,成本非常低。在大数据分享上,建立了环境云平台,在全国安装了数千个传感单元,把采集到的环境大数据免费向社会开放。
   陈光磊:总体而言,大数据产业前景是广阔的。但由于这一产业还处在将起未起的初始阶段,市场发掘、经营还需要很长一段时间。以大数据所包括的技术和产品为例,现在这些技术产品均未定型,还有很大发展空间。此外,讨论大数据的潜在价值,不能单从大数据本身来论,而要深刻认识到其为整个经济生态带来的巨大价值。大数据的价值比较适合蜜蜂的价值模型,蜜蜂的价值是不能只按照它采多少蜜、哪个蜜值钱来衡量,而是要放在整个生态系统价值中来讨论。数据在整个经济生态中的作用,与蜜蜂在整个生态环境中的作用十分相似。
   当然,大数据产业发展也面临着不少挑战。比如目前的大数据公司,可能遇到数据权问题。国家有物权法,但是没有数权法,标的数据究竟是属于谁的,谁存过来,谁去使用,谁去分析,这些权力是不是应该有法律界定?目前,国内一些比较大的互联网公司,掌握了巨量的消费数据,这些数据的使用权、收益权等等,应从国家层面、法律层面进行研究、明晰。
   深挖数据迎“三化”
   主持人:推进政府决策科学化、社会治理精准化、公共服务高效化是在互联网背景下经济社会发展面临的重大课题。如何推进电子政务和新型智慧城市的建设,以更好感知社会态势,畅通沟通渠道,辅助决策施政?
   刘鹏:有了大数据支撑,“三化”建设将迎来加速度。
   第一,政府决策更加科学化。经济运行、政府运转,都是有规律可循的,通过大数据挖掘和分析,可以对未来趋势做出比较精确的预测,避免仅靠个人所积累的经验去决策,更避免了拍脑袋决策,使政府决策更加科学、高效。
   第二,社会治理更加精准化。只有对全局态势一目了然,才能实现对社会的精准治理。比如,可以通过人工智能的方法,对交通情况、安全隐患等音频视频资料作出判断,实时响应,实时管控,进行精准治理。
   第三,公共服务更加高效化。通过政府主导,推动大数据融合,可以把城市里每个停车场、每辆公共自行车、每个菜场、每个家庭服务设施都整合到一个平台上,从而大幅提高居民生活质量。
   目前,各地的智慧城市建设取得了很多成绩,同时也暴露出一些问题。比如不同城市对智慧城市的理解不太一样,标准也不统一,推进程度不同,要把这些智慧城市连接起来,构建全国一体化的国家大数据中心,有很多工作要做。
   全国一体化的国家大数据中心,在物理上不可能集中在一个地方,而是“物理分散,逻辑集中”的。那么,从架构上讲应该是有三层:国家和部委是顶层,省和直辖市是第二层,市是第三层。县以下的单位都可以统到市这一层,因为现在云计算的技术已经很成熟,能够非常方便地做到资源“不为所有,但为所用”。
   陈光磊:此次提出的新型智慧城市与以往有所区别,过去多是单独系统和单独方案,现在的新型智慧城市需要解决顶层设计和底部数据融合,改变单独系统独立建设的问题,要有一个综合规划的“顶”和一个数据融合的“底”,来支撑中间各个业务系统更好协同发挥作用。
   大数据应与业务系统结合起来,比如办事大厅,就是一个业务系统和大数据紧密相连的例子。早先,民众或法人找政府办事需要逐个到委、办、局。后来,成立了实体化的办事大厅,把各个委、办、局的窗口设在一起,当时叫“一门式办公”。后来,有些地方又尝试建立了审批局等机构,打通后台的数据平台,形成了“一窗式”的办事模式。随着互联网发展,“线上线下一体化”“互联网+政务”的需求又产生了。
   互联网化将给城市治理带来创新性、革命性的变化。此前,在城市管理方面,管理者将城市细分为不同网格,设定专业网格员每天巡查网格内的市政设施、公共服务场所是否功能齐备、运行正常。如今,只需将互联网“+”到工作中去,便可节省大量的时间与人力。
   总之,要把业务系统纵向到底、横向到边,把老系统与新架构融合起来,把所有业务功能移植到新的平台上,实现全国一体化联动性电子政务办公,推动智慧城市实现区域协同发展,做到不同的区域之间互补、协同更加紧密。可以说,建立全国一体化大数据中心平台,实现一体化信息政府,国家治理就能够进入一个新阶段。
   王克然:如何通过不同技术手段挖掘大数据,进而为决策服务?润泽科技发展有限公司也进行了一些实践。比如利用多手段感知、多领域和多元数据,应对环境污染治理等。通过遥感探测,从天上看地下,实现了地域、部门以及数据之间的无缝、精准对接。这里所说的精准是指能做到“5个W,1个H”:Who,谁干的?Where,在哪?When,什么时候?What,什么发生了?Why,为什么?How,怎么解决?
OPPO完全地复制了过往二十多年来,在饮料、保健品、家电和服装市场上一再发生过的“营销奇迹”。那么,为什么仍然会出现OPPO式的胜利?
此轮人民币贬值的压力是自我实现的预期在起作用。应对这一措施,短期内必须坚定地管理投资者预期与资金流动。中长期来看,必须从现在开始采取切实措施,逐步调低中国的货币存量,从根子上稳定中国的金融。
“德国作为商业重镇之所以如此强大,是因为政界和经济界有个互不干涉的传统,这就保证了商业活动的独立性。如果德国政府对中国投资筑篱盖墙,只会让自家企业懒惰。”
营商环境恶化实际上是东北经济困局的一种表象,是结果而非原因。之所以出现营商环境恶化这一结果,是因为“资源诅咒”、劳动力外流和人口老龄化、体制机制滞后等掣肘性因素的存在。东北要实现振兴,需正视与解决好这三大掣肘性因素。大数据整合平台建设方案_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
大数据整合平台建设方案
IT技术顾问|
总评分4.4|
浏览量1379616
用知识赚钱
&&大数据分析,数据库,Bigdata,大数据行业方案,大数据,大数据平台,深度学习,行业大数据
试读已结束,如果需要继续阅读或下载,敬请购买
定制HR最喜欢的简历
你可能喜欢
您可以上传图片描述问题
联系电话:
请填写真实有效的信息,以便工作人员联系您,我们为您严格保密。快速崛起的直播平台背后,大数据做得怎么样? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
已注册用户请 &
快速崛起的直播平台背后,大数据做得怎么样?
· 364 天前 · 1078 次点击
上周一,来自武汉的直播平台斗鱼 TV 融钱了:腾讯和凤凰资本领投的 15 亿人民币,距其上次得到腾讯领投的 1 亿美元不到半年。如果考虑到起 2015 年下半年的资本寒冬还远未结束,斗鱼的姿态实在有种烈马嘶吼,逆势而动的态势。
但与直播现在还处于灰色地带的姿态,更感兴趣的是他们的大数据。毕竟,撇除数据造假的成分,这依然是一个流量快速爆发的行业。如同投资人愿意对优步和滴滴烧钱,想要的绝不止是出行市场。对直播其实也一样,烧钱烧得又快又多,资本想要的其实是大数据流量带来的娱乐商业版图。
(吴瑞诚曾在今年 3 月简寻主办的武汉开发者峰会上有过演讲,主题是他从十万用户量级开始,搭建斗鱼的大数据平台的经验和一些坑,纯技术干货,有兴趣的同学可以点链接查看收藏,)。
一个典型的斗鱼直播间
一:高峰时接近淘宝 80% 的用户量
最开始对斗鱼的数据团队感兴趣,是因为吴瑞诚在今年 3 月参加简寻主办的武汉首届开发者峰会时,透露过一组数据:
这些数字是什么概念?就是高峰时段,其访问人数已经接淘宝网站高峰时段的 80%。(据说,如今已经又上涨了超过 10%)
而这些数据全都是从 2014 年至今,短短两年的时间里快速增长积累起来的。心里疑问是,斗鱼背后有一个怎样的数据团队,海量的数据如何处理,这些数据会指引斗鱼走向何方?
事实是, 2014 年 8 月入职的吴瑞诚是斗鱼数据平台部的第一个人,整个团队的情况是:
整体近 30 人
年龄区间在 21 到 30 岁
其中三成来自北上广等一线城市的回流
吴瑞诚自己加入斗鱼前,曾在杭州阿里巴巴做大数据开发,具体负责的部分是淘宝历史订单和旺旺聊天记录,每天产生的数据量同样以 PB 级别论。
但作为阿里巴巴大数据几千人团队中的一员,吴瑞诚的工作内容限于底层,负责存储和提供接口,流程非常单一。他能想起来的跟自己的工作直接相关的最典型场景就是「和各个业务团队对接口」,比如出现业务纠纷时提供阿里旺旺聊天记录。
吴瑞诚谈到刚入职斗鱼时,「老板当时就对大数据有很大想法」。当时的大数据还没炽手可热到现在这样,连路边卖煎饼的都能跟你大扯一通大数据,在直播行业的应用也几乎还是一片空白。吴瑞诚是因为自己在淘宝,见识了其十多年的大数据商业化经验,因此看好大数据和直播的结合。
二:个性推荐的开端
经过从 0 开始搭建,斗鱼现在已经有比较清晰的大数据架构了,主要有数据汇集、处理、展现、挖掘等方面。这些积累的数据显然对斗鱼的未来有重要的战略意义。
除了以数据统计的方式为公司整体发展提供参考以外,个性推荐会是斗鱼积累的大数据在未来的最大用武之地。
2014 年上线以来,斗鱼搅动行业春水,令同行和用户侧目的,一直是新锐凶悍的运营手法,包括重金邀请英雄联盟高水平玩家更名为“斗鱼 tv+某某”,使得英雄联盟的排行榜前列便铺满了斗鱼二字,迅速将平台在线人数从十万级别拉升到百万级别。
但也许直播深度用户都很少注意的是,从 2014 年,斗鱼就开始尝试做精细化运营,到现在,开始通过各种应用服务于用户。
通常来说,在直播领域,一个基本判断是, 10% 的头部主播会吸纳平台 90% 的用户流量,这是各直播平台对挖主播大战的根源,也被认为在未来很长时间都不会发生变化。
但正如斗鱼的竞争对手,熊猫 TV 的投资人王思聪判断的,「钱能解决的问题就不是问题」
那对直播来说,什么问题是真问题?内容,当然也包括主播,是当前最重要的问题,但某种程度上,内容和主播其实也是钱能解决的问题。
因此,我的一个判断是,在未来,高度个性化精准贴合用户的娱乐场景,将会成为钱也不能解决的真问题和真壁垒,因为这需要的是足够大量且清晰的数据积累,优秀的算法架构,进而长期形成高度智能化的推荐机制。
三:直播行业的大数据想象空间
这一判断来自整个直播行业的泛娱乐演进趋势。而泛娱乐也是斗鱼早就希望从细分领域和灰色地带走出来占领的更广阔地盘。新一轮融资后,扩宽泛娱乐的边界正在成为斗鱼在未来的重要战略方向和希望树立的壁垒。
根据吴瑞诚提供的数据,在斗鱼目前的千万级别的用户中,有很大比例用户每天在斗鱼的观看时长会超过 2 个小时以上。
可以佐证这一说法的是,简寻的运营同学曾小样本调查过一些直播用户,对这些这些年龄集中在 20 到 30 岁的男性大学生或白领来说,直播正在成为电视机一样的存在,无聊时就开着,没有明确的娱乐目的,而是作为背景音和宅居暖场器。
这可能超出了大多数非深度用户对直播的印象,因为大多数人对直播的印象要么是游戏和色情,要么是「不知道为什么会有人看直播,跟风吧?」
斗鱼的主播在直播乞讨
但事实可能是,对一些真实用户来说,直播的使用场景已经深度融入各种生活场景,这也显示了这个群体对视频的需求不再仅仅是娱乐和观看,而是陪伴和社交——人们在宅居的空荡荡的房子里,参与主播制造的事件,和其它观众交流。
这和各平台邀请明星大腕带来上千万的现象级流量截然不同,明星本身不可能长期关联在直播平台上,其带来的流量更偏向热点效应。而真正沉淀下来的,将会是上述对直播产生陪伴和社交需求的深度用户,并通过陪伴和社交进而满足这些人的其它娱乐需求。
与此同时,老一代人因为娱乐匮乏,即使娱乐节目千人一面,依然趋之若鹜,但对成长在互联网和娱乐信息过剩的年轻一代来说,尤其是对斗鱼借风势收割起来的移动用户来说,需要的是更个性化更丰富更细分的内容满足。
斗鱼埋头试和做的基础是什么?隐藏在数据中的魔鬼可能比个人判断远更丰富直接。一个被经典引用的案例是,「喜鹊搭窝」这类深度无聊事件会受到意外追捧,引入大量流量。
喜鹊搭窝的场景和弹幕
目前,只要在斗鱼网站和移动端 APP 上观看直播,斗鱼会根据用户偏好推荐相应的主播。而未来,吴瑞诚说,斗鱼的目标是在个性推荐上不断积累和优化,做到属于每个用户自己的斗鱼直播,以大数据的形式驱动和支撑起斗鱼的泛娱乐未来。
虽然到目前为止,还鲜有人关注大数据对直播行业的大盘影响,但那只是行业发展阶段、数据和技术的积累都还处于早期混战的原因。就像今日头条出现之前,少有人预见到数据对新闻行业的搅动。大数据对直播行业的格局影响也会慢慢开始的。
——————————————————————————————————————————————————————
ps :斗鱼也是简寻服务的优( tu )秀( hao )的公司,各个技术岗位都很缺人,感兴趣的同学可以点()关注 or 通过微信公众号联系简寻的业务同学(公号 id : jianxun-fuwu )
pps :在起于 2015 年下半年,延续得格外漫长的资本寒冬里,裁员正在成为互联网创业领域最沉重的头部主题,科技媒体 36 氪在一篇裁员主题的文章中统计,百度搜索裁员的新闻条目, 38 页新闻里,其中 30 页发生在 2016 年。毫无疑问,互联网创业公司为这 30 页贡献了很大比重。
据(常常不靠谱的) 媒体预测,这一轮资本寒冬也许要延续到 2017 年,甚至 2018 年。所以,资本寒冬看起来毫无短期内结束的迹象,但优秀的公司永远缺人,充满想象的前沿领域对愿意挑战的高端人才需求也永远处于饥渴状态。
在约斗鱼数据平台部负责人吴瑞诚聊一聊的时候,他的第一需求是「能帮我们招到人吗?」感想就是,为了招人,套路也是深 TAT
& &364 天前
体量确实看起来是够了(如果文中提供的数字属实),看起来是时候扩展大数据团队了。
& &364 天前
水分这个不太好估计,但流量在爆发增长是肯定的
& · & 461 人在线 & 最高记录 3541 & · &
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.7.5 · 46ms · UTC 21:27 · PVG 05:27 · LAX 14:27 · JFK 17:27? Do have faith in what you're doing.

我要回帖

更多关于 大数据平台是什么 的文章

 

随机推荐