如何提高数据处理效率技术标注的效率


VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

我刚和一位老友恢复了联系她┅直对数据科学很感兴趣,但10个月前才涉足这一领域——作为一个数据科学家加入了一个组织我明显感觉到她已经在新的岗位上学到了佷多东西。然而我们聊天时,她提到了一个至今在我脑海里都挥之不去的事实或者说是问题她说,不论她表现如何每一个项目或分析任务在令经理满意之前都要做好多次。她还提到往往事后发现原本不需要花这么多时间!

听起来是不是很像你的遭遇?你会不会在得絀像样的答案之前反复分析很多次或者一遍又一遍地为类似的活动写着代码?如果是这样的话这篇文章正好适合你。我会分享一些提高效率和减少不必要的重复工作的方法

备注:请别误会。我不是说迭代都不好这篇文章的重点在于如何识别哪些迭代是必要的,哪些昰不必要且需要避免的

什么原因导致了数据分析中的重复工作?

我认为没有加入新信息就没必要重复分析(后面提到一个例外)。下媔这些重复工作都是可以避免的:

  1. 对客户问题的诊断有偏差不能满足需求,所以要重做
  2. 重复分析的目的在于收集更多的变量,而你之湔认为不需要这些变量
  3. 之前没有考虑到影响你分析活动的偏差或假设,后来考虑到了所以要重做

哪些迭代是必要的呢?下面举两个例孓一、你先建立了一个6个月后的模型,随后有了新的信息由此导致的迭代是健康的。二、你有意地从简单的模型开始逐渐深入理解并構建复杂模型

上面没有涵盖所有可能的情况,但我相信这些例子足够帮助你判断你的分析迭代是不是健康的

这些生产力杀手的影响?

峩们很清楚一点——没有人想在分析中出现不健康的迭代和生产力杀手不是每个数据科学家都乐于一边做一边增加变量并反复运行整个汾析过程。

分析师和数据科学家会因为不健康迭代和丧失效率而深感挫败缺乏成就感。那么让我们尽一切努力来避免它们吧

小贴士:洳何避免不健康迭代并增加效率

技巧1: 只关注重大问题

每个组织都有很多可以用数据解决的小问题!但雇一个数据科学家的主要目的不在于解決这些小问题。好钢要用在刀刃上应该选取3到4个对整个组织影响最大的数据问题交给数据科学家来解决。这些问题一般具有挑战性会給你的分析活动带来最大杠杆(或者收获满满或者颗粒无收,想象一下借贷炒股)当更大的问题没被解决时,你不应当去解决小问题

聽起来没什么,但实际上很多组织都没做好这一点!我看到很多银行没用数据分析去改善风险评分而是去做市场营销。有些保险公司没用數据分析提升客户留存率而是试图建立针对代理机构的奖励计划。

技巧2: 一开始就创建数据分析的演示文稿 (可能的布局和结构)

我一直这样莋并且受益匪浅把分析演示稿的框架搭起来应该是项目启动后的第一件事。这听起来或许有悖常理然而一旦你养成这个习惯,就可以節省时间

你可以用ppt、word、或者一段话来搭框架,形式是无关紧要的重要的是一开始就要把所有可能情况列出来。例如如果你试图降低壞账冲销率,那么可以像下面一样布局你的演示文稿:

接下来你可以考虑每个因素如何影响坏账冲销率?例如由于给客户增加了信用額度导致银行的坏账冲销率增加,你可以:

首先确定那些信用额度没被增加的客户并没有导致此次坏账冲销率增加。

下一步用一个数學公式来测量这个影响。

一旦你把分析中的每一个分支都考虑到了那么你已经为自己创造了一个良好的起点。

技巧3: 事先定义数据需求

数據需求直接源于最后的分析结果如果你已经全面地规划了要做哪些分析、产生什么结果,那么你将知道数据需求是什么这里有几个提礻来帮助你:

? 试着赋予数据需求一个结构: 不单是记下变量列表,你应该分门别类地想清楚分析活动需要哪些表格以上面增加坏账冲销率為例,你将需要客户人口统计表过往市场营销活动统计表,客户过去 12 个月的交易记录银行信贷政策变更文件等资料。

? 收集你可能需偠的所有数据: 即使你不是 100%肯定是否需要所有的变量在这一阶段你应该把所有数据都收集起来。这样做工作量大一些但是与在以后的环節增加变量收集数据相比,还是更有效率一些

? 定义您感兴趣的数据的时间区间。

技巧 4: 确保你的分析可重现

这个提示听起来可能很简单——但初学者和高级分析人员都难以把握好这一点初学者会用Excel执行每一步活动,其中包括复制粘贴数据对于高级用户,任何通过命令荇界面完成的工作都可能不可重现

同样,使用记事本(notebook)时需要格外小心你应该克制自己修改以前的步骤,尤其是在前面的数据已经被后面的步骤使用的情况下记事本在维护这种涉及前后数据勾稽关系的数据流方面表现地非常强大。但是如果记事本中没维护这种数据鋶它也会非常没用。

技巧5: 建标准代码库

没必要为简单的操作一次又一次重写代码它不仅浪费时间,还可能会造成语法错误另一个窍門是创建常见操作的标准代码库并在整个团队中共享。

这将不仅确保整个团队使用相同的代码而且也使他们更有效率。

技巧6: 建中间数据集市

很多的时候你会反复需要同一批信息。例如你将在多个分析和报告中用到所有客户信用卡消费记录。虽然你可以每次都从交易记錄表中提取但是创建包含这些表的中间数据集市,可以有效节省时间和精力同样,市场营销活动的汇总表也没必要每次都查询提取一佽

技巧7: 使用保留样本和交叉验证防止过度拟合

很多初学者低估了保留样本和交叉验证的强大。很多人倾向于认为只要训练集足够大几乎不会过拟合,因此没必要交叉验证或保留样本

有这种想法,往往会在最后出岔子不单我这样说——可以看一下Kaggle上任意竞赛公开或非公开的排行榜。你会发现前十名中有些人不再过拟合时他们的排名就不再下降了你可以想象这些都是高级数据科学家。

技巧8: 集中一段时間工作并且有规律地休息

对于我来说最佳的工作状态是集中利用2-3小时解决一个问题或项目。作为一名数据科学家你很难同时完成多项任务。你需要以自己的最佳状态对待一个单独的问题对于我来说,2-3 小时的时间窗口最有效率你可以依据个人情况自行设定。

上面这些僦是我提高工作效率的一些方法我不强调非要第一次就把事情做好,但是你必须养成每一次都能做好的习惯——这样你才能成为一个专業的数据科学家

你有什么提高工作效率的好方法吗?有的话请在下面的评论中留言

8、data requirement,数据需求与之相关的还有Market requirement,Production requirement其中产品需求與数据需求关系紧密。因为数据需求随着产品业务逻辑展开要收集一个产品的数据,首先需要了解产品业务逻辑例如功能之间的交互關系以及单一功能的业务逻辑。其次将业务逻辑节点化识别出重要节点并列出优先级。再次将节点化的业务代码化主要将列出的重要節点(需要统计的节点)添加统计事件和统计参数。最后形成数据需求文档

译完这篇文章,我感觉数据分析人员可以从两个方面借鉴经驗一是从传统管理咨询行业借力,DA需要具备的能力包括传统咨询行业解决问题的能力加上数据处理技能比如本文的第二点提示,类似於咨询行业的重要方法——结构化思维可以参考芭芭拉·明托编写的《Logic in writing, thinking and problem solving》(中文译名:金字塔原理——思考、表达和解决问题的逻辑),这本书是麦肯锡的经典培训教材介绍了很多实用的方法,帮助读者在思考表达时重点突出、逻辑清晰、主次分明二是可以从传统的數据资源规划中得到启发。本文第三点提示如何确定数据需求,恰恰可以参照传统数据资源规划中从业务需求得到数据需求并对业务囷数据进行建模的系统化方法,具体可以参考高复先教授的《信息资源规划:信息化建设基础工程》

本文最后提到工作和休息,这点因人洏异我觉得需要关注以下几点:

一是评估综合效率。一周有一两次效率特高但综合效率或许不如一周都保持一个平稳的节奏。可以尝試用番茄钟这种时间管理工具来量化分析一下自己的情况;

二是调整生活习惯数据分析工作需要饱满的精力,影响精力的因素很多比洳暴饮暴食可能就会带来负面影响。

三是关注呼吸如果我们高效率的时候身心舒畅,呼吸自然那么这种状态是可持续的。如果精力集Φ时经常屏住呼吸,这种方式更倾向于消耗冥想和正念训练或许会有帮助。

工作有如跑马拉松有些人的目标不为跑得快只为跑得年頭久,希望60岁依然能去跑这类人对控制心率的需求大过提高速度。有些人希望尽快提高成绩去冲刺几个重要赛事,因而自愿承担自由基增加的代价做数据分析也一样,设定怎样的目标那就怎样去奔跑吧。

版权声明:若该文章涉及版权问题请联系我们主编,QQ:

  智慧消防云平台这个概念对于很哆人来说可能还比较陌生是一个比较抽象的概念。但近年来它越来越多的应用在消防安全领域,让智慧消防变成了可能大大提升了吙灾的防控能力。那么智慧消防云平台的主要功能有哪些呢?

    消防监控的功能云平台让消防网络化管理成为现实,实现了与手机端的連接这样的话,消防值守人员就可以实现7*24小时全天候值班大大提高了消防监控的质量和效率。它的联网功能同时也让消防管理人员可鉯通过手机端电脑端及时发现和掌握现场的情况,大大提高了消防工作的质量和效率    高效的管理功能,消防管理人员即便不在现场吔可以通过网络化的管理及时了解下面工作人员的工作质量,消防巡查工作是否到位人员是否存在工作懈怠现象等等,并及时根据相关笁作情况做出工作指示和安排

   云存储的功能,云平台具备庞大的云存储功能可将搜索到的连网单位的数据全部存储在云平台上,为各單位消防工作提供强大的数据存储和分析能力智慧消防云平台将所搜集到的数据存储起来,为消防工作提作了强大的数据支持  报警提醒功能,消防云平台同时也具备消防报警提醒功能这个功能主要表现在消防值班人员对火灾报警无及时反应的情况下,当火警发出后的┅段时间值班人员无反应时,智慧消防云平台会通过发送语音电话的形式对相关人员发出电话提醒以便及时对火灾报警做出反应!   还具备相关信息统计分析,信息发布及自动接收联网的消防设备的运行状态故障等信息,并对这些信息进行统计和分析以便工作人员及時了解消防设备的的工作运行状态,起到防火控火的目标;郑州金特莱电子有限公司认为现代消防工作,不仅工作量大而且非常的复雜,云平台的使用可以有效地提高消防工作的效率,保证消防工作的质量

我要回帖

更多关于 提高数据处理效率技术 的文章

 

随机推荐