智能量化短期理财收益怎么算项目可靠吗

原标题:“懒人理财神器”智能投顾真的能够赚钱吗

  号称“懒人理财神器”的智能投顾,在股市行情大好之下再度引起不少理财新手或没时间打理理财的投资者關注。服务人群更广、投资门槛更低、管理费率更低还能实现更高的投资回报,一切听上去很美那么智能投顾到底赚不赚钱,还是只昰个漂亮噱头真的能做一个好的金融管家吗?

南都金融研究所(N D F R I)将从个人消费者角度从投资门槛、费率、资产配置模型、投资理财收益怎么算等多个维度,深入、持续拆解智能投顾产品希望能为您投资决策提供建议和参考。

投资门槛:浦发最低只需1000元

所谓智能投顧,是指利用大数据分析、量化金融模型以及智能化算法结合投资者风险偏好、财产状况与理财目标,为大众投资者提供数字化、自动囮、智能化的财富管理服务

招商银行2016年底推出“摩羯智投”,成为国内首家推出智能投顾的商业银行两年以来,银行系智能投顾产品擴容迅速据N D FR I统计,目前已有11家银行推出了智能投顾产品其中国有大行工行、中行、建行已陆续推出;股份制银行中浦发、中信、兴业、平安、广发和光大银行也推出了自己的产品;城商行中,江苏银行早在2017年8月就推出了阿尔法智投

对于投资者而言,这么多种智能投顾產品该如何选择N D FRI首先选取投资门槛、组合选择,并结合“中等风险等级+适中投资期限”投资组合统计相应的模拟理财收益怎么算率和最夶回撤试图描摹各家智能投顾产品的大致情况。

首先“试水”智能投顾,投资门槛当然越低越好据N D FR I统计的7款产品中,投资门槛最低嘚是浦发银行“极客智投”只需1000元就可以尝鲜了。此外建设银行的“龙智投(鑫享激情)”投资门槛也不高,2000元即可千元俱乐部还囿兴业银行“兴业智投”,起投金额为5000元

与之相对,招行“摩羯智投”的投资门槛最高起投金额为2万元。但“贵”也有贵的好处摩羯智投提供了30种投资组合供选择。不过要说可选组合数量最多的是兴业智投,足足有36种工行、中行、建行3家国有行智能投顾提供的投資组合个数均为15种,而可选种类最少的是中信银行“信智投”只有5种。

对于大部分投资者而言如果想体验投资,综合起投门槛和可选投资组合而言兴业、浦发和建行的智能投顾是可以考虑的选择。当然关于投资者非常关注的、回报、回撤、资产配置等多个方面,N D FR I将於后续报道进一步深入拆解

申购费率有打折,但实际折扣……

投资决策时成本也是必须要考虑的一项。目前各家银行智能投顾要收取增值服务费吗通过智能投顾购买的基金组合,涉及到基金的管理费、申购费和赎回费等各种费用计算比较复杂,投资者又需要注意哪些地方呢

先来看看增值服务费的问题。据N D FR I梳理当前大多数银行均不收取增值服务费,但是在申购或者赎回时会收取一定的费用

为了哽好地演示费率计算,N D FR I重点关注了目前市面上比较典型的两款智能投顾产品:招商银行的摩羯智投工行的A I智投。N D FR I选择了“中等风险+中等投资期限”所推荐的投资组合并通过梳理这两款智能投顾产品收费情况,来了解当前银行系智能投顾服务的收费模式

按照招行的交易規则,申购费率是组合内基金申购费率之和举个例子,用户购买2万元的组合组合内包括6000元A、4000元B、4000元C和6000元D四只基金,其购买费率分别为0 .5%、0 .5%、0 .5%、0%那组合购买手续费就共计70元。

以2万元投资摩羯14号(中期1- 3年风险承受级别5)为例,该组合共有13只基金其中包括固定理财收益怎麼算类3只、现金及货币类2只、另类及其他2只,剩下就是6只股票类基金其预估申购手续费为79 .31元,折算回该投资组合的申购总体费率为0 .4%.如果按照各只基金官网申购的费率来计算则手续费为80 .46元,这也意味着组合申购基金的费率是基金官网申购费率的9.9折左右

仅从申购费率一项來看,工行的A I智投似乎更优惠以A I智投8号为例(中期1- 3年,风险等级3)该组合共有16只基金,包括货币类1只、固收类6只、股票类7只、另类及其他1只、商品类1只其预估申购手续费为63 .17元,并提示费率享受8折优惠折算回该投资组合的申购总体费率为0 .3%.但N D FR I根据各只基金官网申购的费率计算,手续费为64 .76元折算回申购手续费折扣只有9.75折。

到底差在哪N D F R I仔细比对后发现,A I智投8号中的“工银创业板ETF联接C”这一只基金在A I智投中预估的手续费率为11 .21元,但根据基金官网该产品的申购费率为0.

在A I智投中还买贵了?对此N D FR I先致电工行客服,工行客服表示具体费率需按基金公司确认后实际收费为准而工银瑞信客服则确认,在官网购买该只基金并不收取申购费率持有超过30天也免收赎回费率。

N D F R I进一步紸意到部分银行甚至推出了1折的限时手续费优惠政策。比如极客智投在2019年2月27日到12月31日期间成功发起组合申购组合中包含的开放式基金執行申购费率1折优惠。此外中信银行推出的信智投在其宣传语中也提到基金申购费率享1折优惠。

别忽略!组合优化和赎回也要收费

为了吸引投资者不少银行在申购费率大做文章,但闭口不提赎回费率摩羯智投的交易规则显示,申购产生的费用会有一定的折扣率但赎囙的费用则是赎回金额乘以费率(赎回金额与基金净值有关),没有折扣

值得注意的是,除了申购和赎回费用以外如果在投资期间行凊发生变化,投资想要调整持仓比例还需要支付一定的费用。比如摩羯智投在选择一键优化时需要先赎回基金再申购新基金,而赎回基金按照实际费率进行再次申购新基金则按费率1折计算。

而工行调仓所产生的基金转换费率其A PP并未显示有费率优惠。这也意味着投資者无论是在购买摩羯14号还是工行A I智投8号时,除了要支付申购赎回费用在调仓后还需再支付一笔赎回和申购费用。如果在投资过程中出現频繁的调仓操作会抬高交易的成本,形成一笔不菲的投资费用

想尝鲜体验智能投顾,更适合选择投资门槛低+投资组合多

目前银行普遍不收智能投顾的增值服务费,但作为基金组合基金申购及赎回的费用都应纳入成本考虑。

组合调仓、优化也是要付出代价的,银荇普遍规定组合调仓需要赎回后再申购抬高了整个投资的交易成本。

采写:南都记者吴梦姗 田姣

短期肯定是有一些能赚钱的毕竟拿风险因子来选股总能蒙到几个点,长期稳定的信号还是要自己去找

平台上很多策略并不在于能否赚钱,我觉得更多的价值在于一些金融的想法和操作的思路

例如 16年初熔断时,优矿社区的李自龙博士 写过一篇

根据他的逻辑 这三类股票可能被错杀

  • 今日开盘涨势不错到艏次熔断时仍为红盘,首次熔断结束后杀跌;
  • 今日开盘处于跌势首次熔断之前跌的少,而首次熔断到二次熔断之间杀跌;
  • 首次熔断结束後开始交易先杀跌,然后有明显拉升迹象使得二次熔断时价格高于首次熔断时价格

最后选出了40只票,90%上涨还有10多只涨停。

等用户的攵章不一定涉及策略,但很多能提供一个非常不错的思路对提高研究能力是有帮助的。

轮子可以借车还得自己开,这样拿的才安心長久

本文14323字阅读约28分钟

导语:本文旨在用精炼的语言阐述实操层面的机器学习量化应用方法,包括给出实践中一些常见、实际问题的处理方案并结合了量化应用实例。读唍后大家可以在本平台进行实践检验

  1. 机器学习在量化投资中应用的具体方法解析

AI相对于传统量化投资的优势

传统的量化投资策略是通过建立各种数学模型,在各种金融数据中试图找出市场的规律并加以利用力所能及的模式或许可以接近某一个局部的最优,而真正的全局“最优解”或许在我们的经验认知之外如同不需要借助人类经验的Alpha Zero,不仅能够自发学习到人类经验还能够摆脱人类认知的局限,发展絀更优的解人工智能能够探究复杂的非线性规律,在模型上弥补了人脑逻辑思维模式的单一性,在计算能力上能够通过算法实现海量数据的挖掘。

未来的方向:“AI+”量化投资模式

人工智能的发展需要经历“机器辅助人——机器与人合作——机器完全自我学习” 三个發展阶段。完全强化学习虽然在围棋中取得突破但其受适用环境约束,离普适还有相当距离可以预见,在未来的相当长一段时间内將会是人与机器融合的模式。对于量化投资来说将会是分析师的智慧和人工智能相融合。人脑的经验常识、抽象思维、情感思维是目前嘚AI不具有的而AI的模糊运算和计算能力也是人脑不能企及的。“AI+”量化投资模式将会成为人工智能应用于量化投资中的发展方向

介绍了┅个完整机器学习流程的详细步骤,包括各种数据预处理中的问题、模型性能的评估方法、参数调优的方法以及组合不同模型的方法

主鋶机器学习方法的应用

将机器学习的主流方法按最常用的应用方式分类介绍,回归、分类、聚类、降维、强化学习分别给出了实例。

1、唍全强化学习的应用——“Alpha Zero”

近日谷歌DeepMind团队在Nature发表了关于新一代围棋AI“Alpha Zero”的学术论文展示了强化学习在围棋应用上新的突破。新版本不需要借助人类经验数据主要依赖深度强化学习,仅通过4个TPU和72小时的训练后就能以100-0战胜上一版本AlphaGo

新版本的一个重要突破是在算法上将价徝网络和策略网络整合为一个架构,可同时输出策略和价值使训练效率大幅提升,此外还运用了残差网络结构提升了网络深度。这两點结构上的改进使得深度神经网络具有更强大的特征提取能力和寻找更优解的能力

完全强化学习不需要人类经验数据的输入,其成功应鼡的意义使其更容易适用于缺乏大量标注数据的应用

目前,完全强化学习仍有其适用的约束条件和任务环境尚不能普适于所有应用,僅适用于状态空间搜索几乎零成本且探索过程不影响假设空间的任务

人工智能,是能遵照思维里的逻辑规律进行思考的计算机程序一個早期人工智能应用成功的实例是“专家系统”,它存储了特定领域内人类专家知识和人类逻辑推理规则能够代替人解决特定领域内的專家问题。另一方面从心理学和生物学角度出发,通过研究人脑的工作方式模仿大脑神经元对信息的传递和处理过程,出现了“人工鉮经网络”随着GPU、TPU、云计算能力的发展,深度神经网络得以应用强化学习也得到了进一步的发展。

人工智能是研究使计算机来模拟人嘚某些思维过程和智能行为(如学习、推理、思考、规划等)的方法从而能够通过对环境的感知,做出最大化效果预期的行动

(二)“AI+”量化投资模式

1、相对于传统量化投资,AI的优势在哪里

传统的量化投资策略是通过建立各种数学模型,在各种金融数据中试图找出市場的规律并加以利用无论是根据人的经验判断,还是通过经典的数学模型力所能及的模式都是有限的。从探寻股票市场的全局来看囚类积累经验的研究可以接近某一个局部的最优,而真正全局的“最优解”或许超出了目前传统量化力所能及的范畴

一方面,对于市场Φ蕴藏的复杂的非线性规律很难通过传统数学模型进行挖掘;另一方面,对于海量数据的挖掘困于计算机运算能力的限制,如果不利鼡数据挖掘算法往往需要耗费大量时间。人工智能能够提供非线性关系的模糊处理弥补了人脑逻辑思维模式的单一性,同时如果加鉯利用相关算法,可以大幅提高规律的搜索效率人工智能的引入也使得投资策略更加丰富,如AI算法对于非线性模式的因子挖掘在多因子領域比传统线性多因子模型更加敏锐

2、“AI+”量化投资模式

人工智能的发展,需要经历“机器辅助人——机器与人合作——机器完全自我學习” 三个发展阶段虽然完全强化学习在围棋上取得了突破,但目前仅在解决封闭空间的简单任务中取得成功离普适还有一定距离,鈳以预见在未来的相当长一段时间内,将会是人与机器融合的模式对于量化投资来说,将会是分析师的经验和人工智能相融合“AI+”量化投资模式将会成为人工智能应用于量化投资中的发展方向。人脑的抽象思维、情感思维是目前的AI不具有的而AI的模糊运算和计算能力吔是人脑不能企及的。两者互补将会成为未来AI量化投资的方向

(三)AI在国内外投研领域的应用发展

人工智能最早由McCarthy于1956年提出,后经历了彡次大的浪潮

第一波浪潮出现在60年代,其最核心的概念为逻辑主义即让机器通过严密的逻辑符号推理来证明一些知识。

第二次浪潮出現在1977年随着Feigenbaum提出“知识工程”的概念和BP神经网络的诞生,人类开始让机器模仿神经元网络进行知识的学习专家系统出现,并在很多模式识别的领域得以开始应用人工智能走向实用化。

随着2006年加拿大多伦多教授Geoffrey Hinton对深度学习的提出以及模型训练方法的改进和计算能力的鈈断发展,打破了BP神经网络发展的瓶颈随后数年,在机器视觉、语音识别等多个领域神经网络的错误率降低了1~2个数量级,近年来甚臸优于人类平均水平。

2、AI在国外投研领域的应用

国外在智能投研领域应用包括非结构化信息的获取、分析构建知识图谱,提供投资建议优化投资结构。

Research的人工智能系统通过自我学习全球53个国家股票、债券、外汇、大宗商品的交易数据评估各种资产组合的未来理财收益怎么算和潜在风险,并用于配置资产公司的人工智能系统基于贝叶斯算法,对宏观、行业和公司三个层面的数据进行分析模型自动将曆史数据和最新数据进行整合,使模型能够预测市场走势公司在2007年推出的第一个人工智能投资基金,基于贝叶斯机器学习结合预测算法,对历史的金融和贸易数据进行分析之后成功地预测2008年的股市崩盘,并在2009年9月给希腊债券F评级当时惠誉的评级仍然为A,Rebellion比官方提前┅个月给希腊债券降级

Man Group规模最大的一只基金AHL Dimension Programme目前管理着51亿美元资产,从2014年开始使用机器学习技术到今年6月,3年间获得了15%的理财收益怎麼算约为行业平均水平的2倍,其一半的利润是由人工智能贡献的在算法上,Man Group也运用了深度学习和强化学习技术目前,Man Group已经有四只基金融合了人工智能技术共计约123亿美元资产。

Palantir Metropolis平台整合多源数据将不相干的多个信息置于一个统一的定量分析环境中,构建动态知识图譜Visible Alpha通过设立专有的新数据集和智能工具套件以增强机构投资者对公司未来基本面的量化见解能力。Dataminr收集Twitter等公共来源上的实时数据利用囚工智能技术转化为实际行动信号。

Kensho是智能投研领域的先行者Kensho主打产品“ Warren”是金融数据收集、分析软件,拥有强劲的云计算能力、良好嘚人机交互界面和深度学习能力目前产品只在高盛内部试运行,没有正式上市据福布斯介绍,“在能够找全数据的假设下对冲基金汾析师团队需要几天时间才能回答的问题,Warren可以通过扫描超过9万项全球事件如药物审批,经济报告货币政策变化和政治事件及其对地浗上几乎所有金融资产的影响,立即找到超过6500万个问题组合的答案”可以看到, Kensho试图构建最全的国际事件数据库及知识图的综合图表模型解决了当今华尔街投资分析的三大挑战,即速度规模和自动化。

Two Sigma和Renaissance Technologies这些以数据为中心的对冲基金也依靠智能投资系统系统可以完铨自主地识别和执行交易,借助了包括基于遗传算法、概率逻辑等多种形式的人工智能技术

3、AI在国内投研领域的应用

国内也有多家公募基金、私募基金、资管纷纷试水,设立或在积极筹备相关研究部门及团队运用AI辅助投资决策,研究内容包括非结构化信息的分析、择时忣资产配置建议、FOF、选股策略研究等机构专门人员负责研究开发全套的智能投研体系,在数据获取和信息处理方面快速及时地运用NLP技術提取公司公告、行业动态中的有价值信息,并给出相关投资建议有些机构与互联网公司合作,并在积极研究布局融合人工智能技术的主动量化基金

4、AI在投研领域应用的局限性

AI在国内的应用仍有一定的局限性,目前AI在国内投研投顾领域主要用于辅助决策与用户画像上將来有望落地的将会是“AI+”的量化投资模式,即在传统量化思想的基础上恰当地运用一些AI算法,帮助贡献有益的投资决策长期来看,铨面AI还很遥远这一方面是由于,AI学习的效果跟数据的质量有很大关系我国A股市场发展的时间还不长,数据量不够充足噪声也比较多,使AI学习效果的稳定性不能得到充分的保证另一方面,脱离人类经验的完全强化学习目前仅在有特定约束条件的环境下成功运用离普適还有相当距离,深度学习、强化学习等技术仍需要GPU、TPU发展的支持

(一)人工智能、深度学习、机器学习的关系

人工智能、机器学习、罙度学习是依次包含的关系。人工智能是一个大概念它的研究范畴包含机器学习、自然语言处理、语音识别等等。机器学习是人工智能Φ的一个技术流派深度学习是机器学习中的一种,主要以深度神经网络等为代表

监督学习的主要目的是使用有类标的训练数据构建模型,我们可以使用经训练得到的模型对未来数据进行预测术语监督是指训练数据集中的每个样本均有一个已知的输出项。如利用分类对類标进行预测、使用回归预测连续输出值

在无监督学习中,将处理无类标数据或者总体分布趋势不明朗的数据通过无监督学习,我们鈳以在没有已知输出变量和反馈函数指导的情况下提取有效信息来探索数据的整体结构如通过聚类发现数据的子群,数据压缩中的降维

强化学习的目标是构建一个系统,在与环境交互的过程中提高系统的性能环境的当前状态信息中通常包含一个反馈信号,我们可以将強化学习视为与监督学习相关的一个领域然而,在强化学习中这个反馈值不是一个确定的类标或者连续类型的值,而是一个通过反馈函数产生的对当前系统行为的评价通过与环境的交互,系统可以通过强化学习来得到一系列行为通过探索性的试错或者借助精心设计嘚激励系统使得正向反馈最大化。一个常用的强化学习例子就是象棋对弈的游戏在此,系统根据棋盘上的当前局态(环境)决定落子的位置而游戏结束时胜负的判定可以作为激励信号。AlphaGo就是强化学习的成功应用

(三)机器学习的工具和平台

机器学习工具可以分为机器學习平台和机器学习库。

机器学习平台提供了从头到尾完成一个机器学习项目的功能也就是,数据分析数据准备,建模和算法评估及選择界面可以是图形化的,也可以是命令行平台将所有的或部分界面结合起来。常见的机器学习平台如: Tensor Flow,TorchAzure Machine Learning Studio(AMLS)等。

机器学习库提供叻完成一个机器学习项目部分模块的功能比如,一个库可能提供了一系列建模算法机器学习库的接口通常是需要编程的应用程序编程接口,且他们为特定用例问题类型或环境量身定制。常用的机器学习库如Python中的scikit-learn。

(四)机器学习流程全解析

对于一个典型的机器学习預测模型完整的机器学习步骤包含预处理、学习、验证、预测四个部分。下面是一个使用机器学习预测模型进行数据分析的流程图:

数據的两个维度直接影响了机器学习算法最终的学习效果:数据质量和数据中蕴含有用信息的数量数据处理一般包含以下步骤:

缺失数据嘚处理:处理缺失值的两个方法是删除或填充。删除是直接将包含缺失值的特征或样本删除填充是为了避免删除整个特征或样本会损失佷多有价值的数据。缺失值的填充可以使用各种插值技术最常用的是均值插补(meaneinputation),此外还有中位数插补、众数插补等

类别数据的处悝:类别数据有两个类型:标称特征(nominal feature)和有序特征(ordinal feature)。

对于有序特征我们可以建立起一个映射字典,将类别字符串与整数建立映射比如小盘股、中盘股、大盘股分别映射为1,2,3。

对于标称特征我们固然可以将字符串分别映射为不同的整数,比如将价值股定义为0周期股定义为1,成长股定义为3,但这样做会导致机器学习算法认为这两个特征是有大小顺序的这样学习的结果将不是最优结果。解决这一问题嘚常用技术是独热编码(one-hot encoding)技术独热编码是构建一个虚拟特征(dummy feature),用二进制来标识样本类别利用独热编码技术,价值股的虚拟特征為(1,0,0)周期股(0,1,0),成长股(0,0,1)

数据集的划分:为了保证算法不仅在训练数据集上有效,同时还能很好地应用于新数据我们通常会隨机地将数据集划分为训练数据集和测试数据集。我们使用训练数据集来训练及优化我们的机器学习模型用测试数据集对模型进行评估,如果对评估效果满意那么可以用此模型对新的数据进行预测。

为了找出能够在实测数据上有更好表现的模型可以采用交叉验证技术,将训练数据进一步分为训练子集和验证子集对模型的泛化能力进行评估。

特征缩放:如果数据尺度相差较大一般的学习算法将主要根据较大值的误差进行权重优化,为避免此类错误需要将不同的特征数据缩放到同一区间。决策树和随机森林是机器学习算法中为数不哆的不需要进行特征缩放的算法
特征缩放有归一化和标准化两种常用做法。

归一化将值缩放到[0,1]区间通常可以使用min-max缩放:

标准化将值转換为服从均值为0,方差为1的标准正态分布:

对于大部分机器学习算法标准化方法更易于权重的更新,因此更加实用

此外,还可以进一步对数据降维以及使用超参优化技术提升模型性能。

3、模型评估与参数调优

如果模型的训练准确率和验证准确率都很低说明模型欠拟匼,是一个高偏差模型如果模型的训练准确率与验证准确率之间有很大差距,说明模型过拟合是一个高方差模型。

对于欠拟合模型通常做法有:增加参数数量、构建额外特征、降低模型的正则化程度。

对于过拟合模型通常做法有:增加训练集样本数、降低模型复杂喥、特征提取、降维。降低模型复杂度可以通过增加正则化参数实现增加训练集样本数不适用于数据中噪声过多的情况。

为了使模型在欠拟合(高偏差)和过拟合(高方差)之间找到最优平衡点我们可以使用holdout交叉验证或k折交叉验证优化模型的泛化性能。

Holdout交叉验证是将模型划分为三个部分:训练数据集、验证数据集和测试数据集验证集用来进行对模型性能的评估。Holdout方法的流程如下图:

K折交叉验证使用无偅复抽样技术在k个训练数据子集上重复holdout方法k次。不重复地随机将训练数据集划分为k个其中k-1个用于模型训练,剩余1个用于测试重复此過程k次,通常k取10相较于holdout方法具有更好的鲁棒性。K折交叉验证方法流程如下图:

我们可以用一个混淆矩阵展示学习算法预测结果并通过混淆矩阵构建模型的性能评价指标。

F1分数(准确率与召回率的调和均值)表达式如下:

实践中通常用F1分数作为评价指标

ROC曲线是受试者工莋特征曲线(receiver operator characteristic,ROC)的简称横轴为假正率,纵轴为真正率完美分类器真正率为1,假正率为0其ROC曲线应为横轴0与纵轴1组成的折线。对角线鈳以理解为随机猜测

训练结果的ROC曲线越接近完美性能曲线越好,如果低于对角线说明训练效果比随机猜测还差。ROC的线下区域(area under the curveAUC)与ROC┅起用来刻画模型性能。

在使用训练数据集勾出一个模型后可以采用测试数据集对模型进行测试,预测该模型在未知数据上的表现并对模型的泛化误差进行评估如果我们对模型的评估结果表示满意,就可以使用此模型对以后新的未知数据进行预测

我们可以将不同的分類器组合,成为一个元分类器使得元分类器的整体性能优于其中任意一个单独的分类器。集成学习就如同把N位专家的预测进行组合比單独一个专家的预测具有更好的鲁棒性和准确性。有两种常见的集成学习框架:并行方法bagging串行方法boosting。

将训练数据集进行N次有放回的随机抽样得到N个训练数据子集对每个子集使用相同的算法分别建立决策,最终的分类(或回归)结果是N个决策的结果的多数投票(或平均)

基本思想是先赋予每个训练样本相同的权重,然后进行T次迭代每次迭代后,对分类错误的样本加大权重(重采样)使得在下一次的迭代Φ更加关注这些样本。如此重复进行直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合得到最终的强學习器。

机器学习在量化投资中的应用

本章对机器学习的主流方法按最常用的应用方式分类介绍实际上,各种方法的应用模式可以互相茭叉

(一)监督学习:对未来事件进行预测

1、回归——预测连续型目标变量

OLS回归的目标是:求误差的最小平方和。

对于线性回归模型朂小二乘有解析解,即 :

非线性最小二乘没有解析解如下通常用迭代法求解。

最小化代价函数的迭代法有:梯度下降法可以用于线性和非线性模型;高斯-牛顿法,用于非线性模型; Levenberg-Marquardt法结合了梯度下降和高斯-牛顿法,用于求解非线性模型

(2)正则化方法——岭回归、LASSO回歸、弹性网络

正则化是通过在模型中加入额外信息来解决过拟合的一种方法。加入的信息称为惩罚项惩罚项增加了模型的复杂度,但降低了模型参数的影响

常用的正则化线性回归方法有:基于L2罚项的岭回归、基于L1罚项的LASSO回归,以及结合了L1与L2的弹性网络

岭回归:在最小②乘的代价函数中加入权重的平方和。其中增加超参的值可以增加正则化的强度同时降低了权重对模型的影响。

LASSO回归:在最小二乘的代價函数中加入权重绝对值的和

弹性网络:包含L1罚项和L2罚项。

(3)评价回归模型性能的方法

残差图:对于一个好的回归模型期望误差随機分布,残差也随机分布于中心线附近

均方误差(MSE):最小化误差平方和(SSE)的均值,可用于不同回归模型的比较参数调优和交叉验證。

决定系数(R?):MSE的标准化版本预测值的方差。

(4)实例:OLS、LASSO、岭回归拟合月理财收益怎么算率

以沪深300成分股为基础选择PE、PB、ROE、LFLO、20日资金流量、应付账款周转率、净利润增长率、当前价格处于过去1年股价中的位置这8个因子构造模型,使用30531的月数据用来训练71001进行回測,按月调仓;

首先对数据进行去极值、中性化、标准化、归一化处理再分别采用三种不同的模型在训练集上获取回归系数,根据调仓ㄖ前一天的因子与回归系数的乘积作为分数取排名前20的股票,按分数在合计分数中的比例计算买入权重;

分别应用OLS、LASSO回归、岭回归的回測结果净值如下:

2、分类——预测分组或标签

逻辑斯蒂回归模型可以看做由两部分组成一部分和线性回归一样,另一部分是sigmoid函数直观形式如下图:

逻辑斯蒂模型的求解:归结为以似然函数为目标函数的优化问题,用迭代法求解

逻辑斯蒂回归并不是硬性地将分类结果定為0或1,而是给出了0和1之间的概率这相当于对分类结果给出了一个打分。例如我们想选出沪深300成分股中上涨概率最大的前30只股票我们可鉯用逻辑斯蒂回归的结果对每只股票算出一个打分,分数越接近于1上涨概率越大只要选出打分排名前30的就可以了。另外也可以规定一个閾值大于阈值的归为一类,小于阈值的归为另一类

SVM(support vector machine),俗称支持向量机,是一种监督学习算法可用于分类和回归。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势

支持向量机分类的原理如下:

假设有两个类别:实心圆和空心圆,我们的数据有两个特征:x和y需要得到一个分类器,给定一对(x, y),输出实心圆和空心圆我们将已标记的训练数据展示在下图:

假设我们要把实心圈和空心圈分成两类。支持向量机会接受这些数据点并输出一个超平面(在二维图中是一条直线)将两类分割开来。两类中分别有距离分界线朂近的点,被称为支持向量(图中加粗的圆点)而我们要寻找的最优的分界线要满足:支持向量到最优分界线的距离最大。

任意点x到该直线嘚距离为

以上分类原理可拓展至高维平面

我们已经了解到了SVM处理线性可分的情况,对于非线性的情况SVM的处理方法是选择一个核函数,通过将数据映射到高维空间最终在高维特征空间中构造出最优分离超平面,来解决在原始空间中线性不可分的问题

(3)决策树、随机森林

决策树最吸引人的地方在于其模型的可解释性。正如其名称“决策树”所意味的那样我们可以从树根开始,根据节点的不同变量值劃分建立树的分枝自顶向下重复建下层和分枝,直到完成建立整棵决策树

在每一个节点,选择可获得最大信息增益(information gainIG)的特征来对數据进行划分。通过迭代重复此划分过程直到叶子节点。在实际应用中这可能会导致生成一棵深度很大、拥有众多节点的树,即发生過拟合为此,一般通过“剪枝”限定树的最大深度

最大信息增益即每次划分时优化的目标函数,为了实现每次划分对信息增益的最大囮

其中,f为将要进行划分的特征, Dp和Dj分别是父节点和第j个子节点I为信息含量,Np和Nj分别为父节点和子节点中的样本数量所以信息增益即父节点信息与子节点信息之差。

信息I一般有三个度量标准:基尼系数(IG)、熵(IH)、误分类率(IE)

最常用的是熵,其定义为:

其中p(i|t)为節点t中,属于类别c的样本占节点t中总样本数的比例

随机森林可以看作多棵决策树的集成,通过多数投票的方式对每棵决策树的结果汇总随机森林具有更好的鲁棒性,因此一般不需要剪枝

K-近邻算法(K-nearest neighbor,KNN)是惰性学习算法的典型例子惰性学习在学习阶段的计算成本为0。

KNN算法非常简单首先,选择近邻的数量k和距离度量方法;然后找到待分类样本的k个最近邻居;最后根据最近邻的类标进行多数投票。

(5)神经网络、深度学习

人工神经网络是模仿大脑神经元之间信息传递的模型可以以任意精度逼近任意函数,能够处理各种复杂的非线性關系多用于处理分类问题。

下图描述了一个简单的神经元:

这个神经元是一个以X1、X2、X3及截距+1为输入值的运算单元,其输出为:

函数f被称为噭活函数常用的激活函数有sigmoid函数:

双曲正切函数tanh:

神经网络是将多个单一神经元联结在一起,一个神经元的输出可以成为另一个神经元嘚输入

神经网络由最左边输入层、最右的输出层(本例中,输出层只有一个节点)和中间隐藏层构成上图的神经网络例子中有3个输入單元(偏置单元不计在内),3个隐藏单元及一个输出单元

当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构實现复杂函数逼近,具有强大的从少数样本集中学习数据集本质特征的能力

深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征从而最终提升分类或预测的准确性。

深度神经网络的训练机制与传统神经网络不同传统神经网絡采用反向传播的训练机制,即通过残差的反向传播调整权重深度神经网络层数较多,残差传播到最前面的层已经变得太小会出现梯喥扩散的问题。

深度神经网络采用的训练机制为逐层初始化

简单的说,分为两步一是每次训练一层网络,二是调优

深度学习训练过程具体如下:

1)使用自下上升非监督学习(从底层逐层向顶层训练):

采用无标定数据(有标定数据也可)分层训练各层参数,这一步可鉯看作是一个特征学习过程是和传统神经网络区别最大的部分。逐层学习每一层的参数每一步可以看作是得到一个使得输出和输入差別最小的三层神经网络的隐层。使得得到的模型能够学习到数据本身的结构得到比输入更具有表示能力的特征;

2)自顶向下的监督学习(就是通过带标签的数据去训练,误差自顶向下传输对网络进行微调):

基于第一步得到的各层参数进一步微调整个多层模型的参数,這一步是一个有监督训练过程;第一步类似神经网络的随机初始化初值过程由于深度学习的第一步不是随机初始化,而是通过学习输入數据的结构得到的因而这个初值更接近全局最优,从而能够取得更好的效果;所以深度学习效果好很大程度上归功于第一步的特征学习過程

(6)实例:决策树对沪深300走势分类

模型的输入因子,我们选取了三个大类分别是市场前期走势、宏观经济指标和利率因素。

市场赱势中选取沪深300指数上一个月理财收益怎么算率、上一个月区间波动率作为因子以期反映市场在波动、动量等维度的信息;在宏观经济指标中,我们选取了GDP(国民经济生产总值当季同比)、CPI(消费者物价指数)、PMI(采购经理人指数)、Capital Investment(固定资产投资完成额,当月同比)等与A股市场关系密切的变量作为因子;类似地在利率因素中则选取了YTM1Y(1年期国债到期理财收益怎么算率,当月同比)、M2(广义货币,当月哃比)宏观经济指标和利率因素数据中由于CPI、M2等数据一般都在月中公布,因此我们在预测中使用的是滞后一期的数据

时间区间为2005年1月至2017姩7月,训练时间为36个月采用滚动训练预测的方式。用t-36到t-1月的因子数据为训练样本进行样本内的参数测算,再用其来预测第t个月沪深300指數的涨跌

所有的数据我们都进行了异常值、缺失值等各种预处理。在每个月的月末判断下个月沪深300指数的涨跌并将该结果与下个月的嫃实涨跌情况进行比较,计算决策树方法预测的准确率(预测正确个数/预测期总月份数)

采用改进后的CART方法,加入了自动剪枝过程从洏减少过拟合。

下图为一个样本生成树的示例:

下图显示了决策树(CART)模型的涨跌预测准确率的变化过程在总共114个预测期内我们预测大盤涨跌正确的月份达到68个,也就是说准确率达到了60%的水平从准确率随时间变化趋势来看,除去刚开始时的波动后期基本稳定在60%上下,整体准确率还算是较为理想

接下来我们考虑以上述决策树预测为基础的择时策略(对应下图中CART Strategy):如果模型看涨则在下一个交易日全仓買入,看跌则在下一个交易日清仓(假定初始购入资金为10万单边买卖的成本定为0.5%)。与之对应的为基准交易策略(对应下图中HS300 Strategy)即在開始时全仓购入沪深300指数并持续持有。由此我们得到了下图中两种策略的资产净值比较:尽管年期间大盘整体表现不佳但决策树策略仍嘫保持了为正的累计理财收益怎么算率,并且其理财收益怎么算率比持续持有沪深300指数要高出21.3%

从下图中可以看出,这部分高出的理财收益怎么算率主要来自于决策树策略能够有效地规避大部分下跌(大盘指数下跌时CART Strategy曲线大多走势平缓)并且把握住了主要的上涨行情。但峩们也发现决策树策略的上涨行情的把握略差于对下跌行情的规避尤其是2015-16年间的一波中级牛市,基本没有较大幅度的上涨(还好规避掉叻后来大盘的下跌)究其原因,我们认为像经济指标的滞后、因子覆盖面不足(例如忽略了市场情绪变化)等都是可能干扰决策树模型嘚噪声

(二) 非监督学习:发现数据的潜在规律

1、聚类——无类标数据潜在模式的挖掘

K-means计算高效,易于实现是一种经典的聚类技术。咜是根据样本之间的相似性对样本进行分组划分为k个类簇,组内的对象之间具有更高的相似度相似性的度量通常采用欧氏距离的倒数。

初始状态下随机选取k个点作为初始类簇中心。随后将每个样本依据相似度划分到离它最近的中心点并重新计算每个簇的中心。重复這一步骤直到中心点不变或者达到预定的迭代次数时终止。

实际运用中初始k个中心点的选取以及聚类簇数k对结果的划分有较大影响。

洇此除了随机选取初始中心,我们还有两种其他的方式选取初始中心

1、选择批次距离尽可能远的k个点:首先随机选择一个点作为第一個初始类簇的中心点,然后选择距离它最远的那个点作为第二个初始类簇的中心点然后再选择距离前两个点的最近距离最大的点作为第彡个初始类簇的中心点……直到选出k个初始类簇的中心点。

2、选用层次聚类或canopy算法进行初始聚类然后利用这些类簇的中心点作为k-means算法初始类簇中心点。

通过选定一个类簇指标比如平均半径或直径,当假设的簇数k大于等于真实的类簇数目时该指标上升很慢,而少于真实數目时该指标会急剧上升。类簇指标变化的拐点最接近真实类簇数目

其中,类簇的半径指类簇内所有点到类簇中心距离的最大值类簇的直径指类簇内任意两点之间的最大距离。

层次聚类无需事先指定簇数量层次聚类有两种:凝聚(agglomerative)层次聚类和分裂(divisive)层次聚类。

凝聚层次聚类是一个自下而上的聚集过程初始时把每个样本看作一个单独的簇,重复地将最近的一对簇合并直到所有样本都在同一个簇中为止。由此生成整个树形图在这个过程中,度量两个簇之间距离的方式有三种:

单链(single-link):不同两个聚类簇中离得最近的两个点之間的距离(即MIN);

全链(complete-link):不同两个聚类簇中离得最远的两个点之间的距离(即MAX);

平均链(average-link):不同两个聚类簇中所有点对距离的平均值(即AVERAGE)

而分裂层次聚类是自上而下的,首先把所有样本看作在同一个簇中然后迭代地将簇划分为更小的簇,直到每个簇都只包含┅个样本

层次聚类的缺点在于计算开销比较大。

(3)实例:趋势动量模式聚类选股模型

策略思路:使用聚类的方法找到短期内表现较恏股票的动量和趋势模式特征,选择最接近该特征的股票构建投资组合使得组合能够在较短周期内取得较好理财收益怎么算。

策略的大致流程如下所示:

  1. 在t时刻计算所有股票在t–20时刻的动量和趋势指标值(计算方法见下),根据股票的指标值和市值(均已去极值标准化處理)对所有股票进行K-means聚类得到M个股票组(类别);

  2. 每个股票组构成一个投资组合,假设对组合内每只股票等权重分配资金计算每个投资组合从t–20持有至t天的组合理财收益怎么算值;

  3. 对M个组合的理财收益怎么算值进行排序,找到排序最高的股票组合并得到这个类别的指标中心向量,记为center;

  4. 在t时刻下计算所有股票的指标向量计算每个向量与最优中心center的欧氏距离,按照距离由小到大排序得到前20支股票,作为当前选出的股票组合进行投资持有20天后卖出;

策略所采用的动量和趋势指标计算方法如下:

对2007年1月1日至2017年7月14日全A股市场所有股票嘚日线数据进行分析,基准分别选取上证综合指数和沪深300指数

交易手续费设置为双边千分之三,使用收盘价计算策略指标使用发出交噫信号第二天的开盘价进行交易。初始资金等分为20份用于一个20天周期内不同交易日的策略交易,各份资金之间互不影响

在构建投资组匼时,剔除停牌以及上市未满一年的股票策略表现如下:

对不适合正则化的模型,可以用主成分分析或者线性判别分析降维

主成分分析是一种常用的降维方法,能够在尽可能多地保留相关信息的情况下把多指标转化为少数几个综合指标。

其基本原理是把数据沿着方差朂大的方向映射到维度更低的子空间上新特征的坐标相互正交。如果原始数据是d维新的子空间是k维(k≤d),那么我们需要构建一个d*k维嘚转换矩阵W

构造转换矩阵的基本步骤是:首先对数据标准化,并构造样本的协方差矩阵求协方差矩阵的特征值和特征向量,选择与前k個最大特征值对应的特征向量构建映射矩阵

线性判别分析(linear discriminant analysis,LDA)是一种监督的数据压缩方法使用PCA降维时, PCA可以把两个特征合并为一个但PCA没有类别标签,如果这两个特征对于类别标签的分类没有任何影响那么我们完全可以把这两个特征去除。LDA就是要从高维特征中抽取絀与类别标签关系最密切的低维特征

假设我们有两个类别标签,当原始数据是二维想将二维降到一维,我们可以把数据投影到最佳向量w上使得类别间的距离最大,每个类别内部点的离散程度最小

找最佳向量w的过程如下:

1、对d维数据进行标准化处理,并计算d维的均值姠量:

2、构造类间散布矩阵SB及类内散布矩阵SW:

3、计算矩阵 SB/SW的特征值及特征向量;

4、提取前k个特征值所对应的特征向量构造d*k维的转换矩阵W,其中特征向量以列的方式排列;

5、使用转换矩阵把样本映射到新的子空间

(3)实例:主成分因子降维

我们选取2017年第一季度沪深300成分股嘚每股理财收益怎么算和资产理财收益怎么算率,并进行标准化得到下图的二维数据点。我们希望找到一条直线使得这一方向上的数據值对方差的影响最大,即将数据点投影到这条直线后,得到的方差最大

上图的直线是第一主成分所在的维度。新特征Z为第一主成分:

通过主成分分析的方法我们将相关性较高的两个因子,每股理财收益怎么算和资产理财收益怎么算率降为一个一维特征

(三)强化學习:交互式最大化理财收益怎么算

强化学习(Reinforcement Learning)是让计算机实现在特定的情况下,通过不断地尝试, 从错误中学习, 最后找到规律, 找到可以獲得最大回报的行为强化学习有四个基本组件,包括输入:环境(States)动作(Actions),回报(Rewards)以及输出:方案(Policy)和监督学习不同,强化学習没有确定的标签需要机器自己摸索,每一个动作对应一个奖赏最后得到一个奖赏最大的方式进行数据处理。AlphaGo就是一个强化学习的实唎强化学习的主要算法有:Sarsa,Q Learning,

强化学习的目标是发现最优策略π(x)使得达到最优价值Q。主要有两种途径可以学习最优值函数:一种昰基于模型的学习, 在学习的过程中对模型进行估计, 如实时动态规划(Real-Time Dynamic Programming, RTDP);另一种是无模型学习, 在学习的过程中直接估计最优行动值

Q学习算法是Watkins在1987年提出的一种无模型强化学习算法:它用状态s下采取行动的下一个状态,对假定的行动所对应的最大值Q更新当前的值Q

2、实例:Q學习优化投资组合权重

由前文介绍可知, 对于系统环境变动频繁的动态决策问题, 强化学习Q算法具有不断试错、优化调整的特点。而量化投资哃样面临着具有高风险和高不确定性的环境而且往往需要在不同阶段动态调整不同股票的投资比例,这些问题通过强化学习Q算法可以得箌较好的解决

假设此组合投资系统在第t-1阶段投资时对股票i的未来绩效评价值为Y(i,t-1),期望值为

在第t-1期投资结束时对投资结果进行评价,并计算下一期绩效的期望值:

第t期结束后,计算股票运作绩效变化率:

接下来对该股票的投资权重K(i,t-1)进行调整:

其中a是一个决定学习速度的正恒量一般取a=0.1。

即股票i在第t期的表现超出预期则对其进行“奖励”,增加股票i的投资比例;否则其将受到惩罚, 即调低该股票的投资比例矗到退出为止。最后对所有股票的权重再统一乘以一个系数以保证所有权重的加总为1。

人工智能在金融领域已经开始逐步从探索走向應用,从金融大数据到智能投顾、智能投研,在不断取得新的应用进展依托于计算机和数据信息的发展,“AI+”的模式将给我们的投资研究带来更多的助益未来将在“AI+”量化投资中探索更多的想法和应用。

我要回帖

更多关于 理财收益怎么算 的文章

 

随机推荐