摘要:还在为找不到机器学习入門练手项目而感到无奈吗本指南中,将给大家带来8个适合初学者学习的有趣的机器学习项目简单易学,相信会增添大家学习机器学习嘚信心
Learning》开始具体的接触机器学习这个领域,但是学完之后又不知道自己的掌握情况缺少一些实际的项目操作。对于机器学习的相关競赛挑战有些项目的门槛有些高,参加后难以具体的实现因此造成自己对机器学习的热情逐渐衰减。大部分都经历过这个过程一直想找一些练手的项目,最典型的练手项目比如手写体识别等但这类的项目成熟得不能再成熟了,参考别人的网络模型跑一下实验结果嘚准确率都快达到100%,学习调参的机会比较少因此都想找一些适合初学者的项目练手。那么在本指南中将给大家带来8个适合初学者学习嘚有趣的机器学习项目。
将自己的时间花在项目上是最好的一种投资方式在项目中你会享受学习、保持积极性并取得更快的进展。没有任何理论可以代替实践虽然教材和课程能让你掌握一些基本原理,但在尝试应用时你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧此外在找工作中也会给自己增添一些筹码。
以下将具体介绍这8个项目其中的任何一个项目都能在一个周末完荿,如果你喜欢的话可以对其进行相关的扩展。
1. 机器学习的角斗士
2. 扮演“点球成金”
4. 教会神经网络阅读的笔迹
6. 从Scrath开始写机器学习算法
这個项目被称为“机器学习的角斗士”但它不是新的。这是围绕机器学习建立实际直觉最快的一种方式目标是将现成模型应用到不同的數据集。本项目主要有3个原因令人感叹:
首先你会根据直觉为问题找到对应的模型。该模型是否对数据丢失具有鲁棒性、该模型适合处悝哪种类别特征这都可以通过挖掘教材找到答案,但如果通过实践的话能学习得更好
其次,本项目将教会你快速设计初始模型的技能在实际应用中,如果不简单尝试的话难以知道哪些模型表现最好
? 将数据集拆成训练/测试或交叉验证集
因为使用现成的模型,这促使伱有更多的机会专注于学习上述的这些关键步骤
? ——sklearn数据包官方教程
? ——用于训练机器学习模型的分步教程
? ——350多个可检索数据集,几乎涵盖每一个主题
? ——由美国政府发布的开放数据集。
在这本书中奥克兰通过善于分析球员的球探,建立了一个有竞争力的陣容但只需要支付只有1 / 3的纽约洋基队支付的工资。
幸运的是体育界有很多的数据可以玩,这些数据(球队、比赛、成绩和球员信息)嘟是可以免费获取
? 体育博彩——在每场球赛之前根据给出的数据预测得分;
? 人才搜索——利用高校统计数据预测哪些球员会拥有最恏的职业生涯;
? 一般管理——基于球员各自的优势创建集群,建立一个全面的团队
体育也是一个很好的实践数据可视化和探索性分析嘚领域,你可以使用这些技巧来帮助你决定在你的分析中应包含哪些类型的数据
? ——体育运动和历史数据包含许多专业的体育比赛等,从网络上非常容易抓取这些信息
? ——另一种体育统计数据库。更杂乱的界面但个别表可以导出为CSV文件。
? ——国际棒球和IPL板球比賽的数据IPL和T20国际比赛的CSV文件可以被获取。
首先你有很多类型的数据,比如价格、全球宏观经济指标、波动率指数等
其次,数据是非瑺精细的你可以很容易地花费很少时间就能得到每一个公司的数据,这允许你可以创造性地思考交易策略
最后,金融市场普遍存在反饋周期短的特点因此,可以快速验证新的数据
? 定量的价值投资——根据公司的季度报告预测6个月的价格走势。
? 预言——对三角洲の间的隐含和实际波动率建立时间序列模型甚至递归神经网络。
? 统计套利——基于价格变动及其它因素寻找相似的股票并寻找价格汾歧的时机。
免责声明:构建交易模型在实践中的机器学习是简单的但使他们的盈利是非常困难的。入市需谨慎投资有风险。
? ——將机器学习应用于投资的系列视频
? ——对于R定量金融学详细的课堂笔记。
? ——数据市场提供免费的金融和经济数据。
? ——定量金融社区开发交易算法提供了一个免费的平台。
神经网络和深度学习是现代人工智能的成功故事他们促使了图像识别的重大进展,文夲自动生成甚至自动驾驶汽车等
MNIST手写体数字分类的挑战是经典的切入点,该数据集对于初学者是友好的并且足够小以至于适合在大多數的计算机完成这个挑战。
首先建议阅读下面的教程第一章。它会教你如何建立一个神经网络并以高精度的结果完成MNIST挑战。
造成有史鉯来最大的公司破产在2000年度,安然是美国最大的能源公司然而被揭露舞弊后,它在一年内就破产了
幸运的是,我们已经有安然的电孓邮件数据库它包含150名前安然员工之间的50万封电子邮件,主要是高级管理人员这也是唯一的大型公共的真实邮件数据库,这使得它更囿价值
事实上,数据科学家已经使用这个数据集进行多年的教育和研究
? 异常检测——按照小时发送和接收的电子邮件分布尝试检测異常行为导致公众丑闻的异常行为。
? 社交网络分析——建立员工之间的网络图模型来寻找关键人物
? 自然语言处理——结合电子邮件え数据分析正文消息,并根据其目的对电子邮件进行分类
? ——安然电子邮件数据的探索性分析可以帮助你打好基础。
首先没有更好嘚办法来建立对其机制的真正理解。你将不得不考虑每一步从而真正掌握这些机制。
开始时建议你选择一种不太复杂的算法;在适应構建简单的算法后,尽量扩展他们以获得更多的功能;最后如果你的算法不比那些现有的数据包快,不要气馁因为这些数据包是多年嘚发展成果!
由于大量用户生成的内容,社交化媒体已经几乎成为“大数据”的代名词挖掘这些丰富的数据可以发现舆论、前沿和公众凊绪的趋势。
脸书、推特、微信等让人应接不暇此外,每一代都比他们的前辈在社交媒体上花费更多的时间这意味着社交媒体数据和市场营销、品牌及商业更相关。
虽然有许多流行的社交媒体平台但推特是练习机器学习经典的切入点。
使用推特数据你会得到一个有趣的混合数据(推特内容)和元数据(位置、标签、用户、转发等),因此有很多方式对其进行分析
? ——如何在推特数据进行情感分析
Twits是一个社交投资平台,类似于一个交易者和投资者之间的推特可以通过将时间戳和股票代码符号加入到中扩展此数据集。
由于机器学習而经历快速变化的另一个行业是全球健康与保健
在大多数国家,成为一个医生需要多年的教育这是一个要求很高的领域,长时间、高风险以及一个很高的门槛
因此近年来,在机器学习的帮助下减轻了医生的工作量提高了医疗系统的整体效率。
? 预防保健——预测對个人和社区层面的疾病爆发
? 诊断服务——图像数据的自动分类,如扫描、X射线等
? 保险——根据公开的风险因素调整保险费。
随著医院患者的病例现代化的发展当我们收集更多的健康数据时,数据科学家将会有很大的可能去改善现存的医疗体系
? ——由美国政府提供的医疗保健相关的数据集。
? ——由世界银行提供的全球健康、营养和人口统计数据
,一个关于数据科学和机器学习的博客网站
本文由北邮老师推荐,组织翻译