《基于最小二乘支持向量机的余额宝收益率短期预测研究分析计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于最小二乘支持向量机的余额宝收益率短期预测研究分析计算机科学与技术专业.docx(23页珍藏版)》请在课桌文档上搜索。
1、摘要11-ltjHUI4第Ll节研究的背景与意义4第L2节国内外研究现状分析5第1.2.1节余额宝宏观研究现状5第L2.2节余额宝微观研究现状5第1.2.3节LS-SVM在金融时间序列预测领域的研究现状6第1.2.4节EEMD分解的研究现状6第L3节本文研究框架7第2章模型介绍8第2.1M的本原理*8第2.2节基于LS-SVM的时间序列预测方法10第2.3节EEMD的基本原理11第3章实证分析13第3.1节数据的来源及处理13第3.3节模型对比及结果分析16第4章结论与展望1841IJ2口*Ms18第4.2节研究展望18参考文献19摘要近年来,互联网业与金融界的联手及其快速发展极大地转变了当代
2、人的生活方式,开创了一个崭新的时代。而这其中,由蚂蚁金服携手天弘基金于2013年共同推出的互联网理财产品一一余额宝无疑成为了最耀眼的一颗新星。余额宝借助互联网这一庞大的势力以其高收益、低门槛、高安全性等优势引来了社会各界的广泛关注以及强烈反响。截至2017年第一季度末,余额宝的公募规模已突破万亿元,超越了一直以来驻守第一位的美国政府货币基金摩根集团(JPMOrgan),跃升为全球最大的货币基金。余额宝为传统金融领域的发展注入新鲜血液的同时,以它为代表的新兴理财产品所可能带来的流动性以及价格波动等风险也成为了社会的热点问题之一。因此,余额宝收益率的预测研究具有重大的时代意义,它是中国金融行业在互
3、联网时代有序稳健发展的必要条件。本文借助最小二乘支持向量机模型(LS-SVM)对余额宝的未来万份收益进行短期预测。在此基础上,本文还提出了一种基于集成经验模态分解的最小二乘支持向量机(EEMD-LSSVM)预测方法。该模型首先运用了集成经验模态分解(EEMD)将余额宝万份收益时间序列分解成若干个具有不同特征尺度的本征模函数(IMF)以及剩余分量。其次,利用快速傅里叶变换(FFT)对每个分量进行平均周期的求解,并将各分量重组成高频序列、低频序列和趋势序列。再针对这三个重组后的序列分别构建LS-SVM模型进行预测,将三组预测的结果进行加总从而得到EEMD-LSSVM的预测值。最后,将其与使用单一L
4、S-SVM模型的余额宝收益预测值进行比较分析。结果表明,采用LS-SVM模型以及EEMD-LSSVM模型均能较好地反映其动态变化。从精确度角度来看,EEMD-LSSVM模型在部分月份的预测精度要明显高于LS-SVM模型;从复杂性角度来看,直接采用LS-SVM更为高效。由此可见,最小二乘支持向量机对于余额宝收益率的回归效果是十分可观的,在金融时间序列预测领域具有良好的应用前景。余额宝收益率的短期预测研究对于余额宝自身、广大的消费者投资者以及商业银行均具有重要的参考价值。关键词:余额宝;收益率;LS-SVM;EEMD-LSSVM;短期预测AbstractInrecentyears,thehand-
5、in-handoftheInternetandthefinancialworldanditsrapiddevelopmenthavetransformedthewaymanypeopleconsumeandmanagetheirfinances,creatinganewera.Amongthese,theInternetwealthmanagementproductjointlylaunchedbyAntFinancialandTianhongFundin2013,YuEbao,hasundoubtedlybecomethebrighteststar.Withthehelpofthehugep
6、oweroftheInternet,YuEbaoisshowingitselftotheworldwithitsadvantagesofhighyield,lowthreshold,andhighsecurity,whichhastriggeredwidespreadconcernandstrongrepercussionsfromthewholesociety.Bytheendofthefirstquarterof2017,thepublic-raisingscaleofYuEbaohasexceededtrillions,surpassingU.S.governmentcurrency,J
7、PMorganandmakingittheworldslargestcurrencyfund.WhileYuEbaohasinfusednewbloodforthedevelopmentofthetraditionalfinancialfield,therisksofliquidityandpricefluctuationsthatmayarisefromemergingfinancialproductsrepresentedbyithavealsobecomeoneofthehotissuesinthesociety.Therefore,theresearchontheforecastofY
8、uEbao,syieldhasgreatsignificanceinthetimes,whichhelpsChinasfinancialindustrytomaintainorderlyandrobustdevelopmentintheInternetage.ThispaperusestheLeastSquaresSupportVectorMachine(LS-SVM)modeltomakeashort-termpredictionofYuEbao,sfutureyield.Onthisbasis,thispaperalsoproposesaLeastSquaresSupportVectorM
9、achinepredictionmethodbasedonEnsembleEmpiricalModeDecomposition(EEMD-LSSVM).ThismodelusestheEEMDtechniquetodecomposetheoriginalsequenceintoseveralcomponentsOfdifferentfrequencies(includingseveralIntrinsicModeFunctionsandaresidualcomponent).AccordingtotheaverageperiodsolvedbyFastFourierTransform(FF),
10、weregroupeachcomponentintohigh-frequencysequence,low-frequencysequence,andtrendsequence,andthenconstructdifferentLS-SVMmodelsforthethreesequencestomakepredictions.ThepredictionvaluesofeachsequencearesummedtoobtaintheEEMD-LSSVM,spredictionvalue.Finally,wecompareandanalyzetheresultsofthesetwomodels.Th
11、eresultsshowthatboththeLS-SVMmodelandtheEEMD-LSSVMmodelcanreflectYuEbao,sdynamicchanges.Fromtheaccuracyperspective,thepredictionaccuracyoftheEEMD-LSSVMmodelinsomemonthsissignificantlyhigherthanthatoftheLS-SVMmodel;fromthecomplexitypointofview,thedirectadoptionofLS-SVMismoreefficient.Itcanbeseenthatt
12、heleastsquaressupportvectormachinehasaconsiderableeffectontheregressioneffectofYuEbao.Ithasagoodapplicationprospectinthefieldoffinancialsequenceforecasting.Theshort-termforecastresearchofYuEbao,syieldratehasimportantreferencevalueforYuEbaoitself,themajorityofinvestors,andtheactionstrategiesofcommerc
13、ialbanks.Keywords:YuEbao;yield;LS-SVM;EEMD-LSSVM;short-termforecast第1章前言第L1节研究的背景与意义由蚂蚁金服携手天弘基金于2013年共同推出的互联网理财创新产品余额宝,以其高收益、低门槛、高安全性等优势横空出世,而2013年也因此被普遍认为是中国“互联网金融”的元年。余额宝借助互联网这一庞大的势力上线一年后,不仅让国人养成了良好的理财意识和习惯,同时激发了金融行业的创新势头,有力地加快了利率市场化的脚步。当前互联网金融行业的迅猛发展引来了社会各领域的高度关注,以余额宝为代表的互联网理财产品如雨后春笋般发芽崛起,它们正悄无声息
14、地改变着传统金融的模式,不断地渗入各种消费场景,为用户带来了更多的便捷与无限的惊喜。余额宝的实质为天弘基金以公募方式筹资的一种货币基金一一“增利宝”。通过支付宝的平台,用户只需将支付宝中的余额或者银行卡中的金额转入余额宝,每天便会根据当天的收益率产生相应的利息收益。这样一个转入资金并产生利息的过程,实质是购买天弘基金“增利宝”的过程。与此同时,用户还可以随时随地不受任何限制地将余额宝中的空闲资金进行支出,非常地便捷。余额宝以电子商务的强流动性以及极简的用户体验优势快速席卷全国,推出18天后便拥有了66亿的公募规模,250多万的用户,当即成为了全国用户量最大的货币基金。2014年1月底,其累计申
15、购的货币基金的总量超过了2500亿元,成为了我国规模最大的公募货币基金。截至2017年第一季度末,余额宝的公募规模已突破万亿元,超越了掌管1500亿美元的美国政府货币基金摩根大通(JPMOrgan),跃升为全球最大的货币基金。在目前的公募基金年利润排行榜中,天弘基金稳居第一,其后还有易方达基金、嘉实基金、华夏基金、工银瑞信基金等等。值得一提的是,虽然排名后几位的基金年利润均超过了80亿元,但没有一家超过130亿元,而天弘基金以166.62亿元位居榜首,由此可见余额宝的地位还远远无法撼动。然而,余额宝的诞生无疑是对传统金融行业的一大冲击,尤其是商业银行。目前商业银行最为主要的资金来源便是储蓄存款
16、,而活期存款更是重中之重。在流动性以及安全性方面,基于T+0运作模式的余额宝与其不相上下,然而在收益方面,余额宝却比它高出了许多。这导致了大量的“存款搬家”,也使余额宝成为了商业银行在资金来源方面的重要竞争对手。在余额宝如此强大的资金集聚力的带动下,各大商业银行也推出了一些与余额宝类似的“宝宝”理财产品与之抗衡,例如民生银行的“如意宝”、中信银行的“活期宝”、光大银行的“定存宝”以及工商银行的“天天益”等等。然而目前,市场对余额宝类互联网金融产品所可能带来的流动性以及价格波动等风险议论纷纷,更有专家指出余额宝是寄生在商业银行身上的“寄生虫”,以银行拆借利率坐收渔利,不仅干扰了银行的资金流动性,
17、而且抬高了实业企业的融资门槛,从而进一步加大了实业与金融行业之间的缝隙。自2017年下半年以来,天弘基金已对余额宝进行了4次规模调整。为了维护货币市场的稳健运行,2018年2月更是采取了每日限额的措施。因此,本文选择对余额宝的未来收益率进行短期预测研究,为余额宝自身、广大的消费者投资者、商业银行以及监管机构提了供重要的参考价值的同时,在当下的时间节点,具有深远的历史价值。第1.2节国内外研究现状分析第1.2.1节余额宝宏观研究现状自余额宝诞生以来,不同专家学者从不同的角度对余额宝进行了较为深入的研究,可以归纳为以下三个方面:一是针对余额宝的创新优势。刘晖、王秀兰分析了基于T+0运作模式的余额宝
18、以支付宝作为资源平台从而得到的巨大发展空间以及“双高”的产品定位两方面的创新特点。邱冬阳、肖瑶则运用了经济学基本理论从不同角度剖析了以余额宝为代表的互联网理财类产品获得高收益的原因。二是针对余额宝对商业银行、监管机构等行业所产生的影响与启示。邱勋探讨了余额宝在金融市场地位、银行活期存款、短期理财产品和基金代销业务这四个方面对商业银行所造成的影响。乔海曙、李颖对余额宝、银行、监管机构所构成的博弈关系进行分析,阐明了余额宝加快利率市场化的0占鱼效应。三是针对余额宝的市场风险及其管理。李军训、齐丹基于我国特有的宏观金融环境,总结出余额宝所面临的流动性、收益性、竞争性等六大风险,并提出了相应的管理对策
19、。卢丽琴以余额宝为例阐述了互联网金融经营与投资的风险,并对消费者及余额宝自身提出了合理的意见。第1.2.2节余额宝微观研究现状国内学者对余额宝的研究多侧重于宏观层面,微观层面的理论和实证研窕相对较少,而如今更为精准的定量分析已成为一种必然要求。具有代表性的有刘书真等学者利用自回归滑动平均模型(AUIoRegreSSiVeMOVing-AVerage,ARMA)对余额宝的未来收益进行了预测网。白洁、林礼连结合经验模态分解(EmPiriCalModeDecomposition,EMD)运用了更适合非平稳时间序列的广义自回归条件异方差模型(GeneraIiZedAutoRegressiveCondi
20、tionalHeteroskedasticity,GARCH)对余额宝的收益率进行了短期预测。何建敏、白洁通过构造集成经验模态分解向量自回归模型(EnSembleEmpiricalModeDecomposition-Vectorautoregression,EEMD-VAR)对余额宝收益率的影响因素进行了实证研究,并得出了余额宝收益率与其影响因素之间所构成的稳定关系口叫然而这些文章对余额宝的定量分析仅使用较为传统的统计学研究方法,且提出时间较早,余额宝的数据还不够完善,实证研究还不够全面。因此,在余额宝收益率预测方面,引入训练精度高且速度快的最小二乘支持向量机模型对余额宝从2013年至2017
21、年的收益率数据进行训练预测是十分有必要的。第1.2.3节LS-SVM在金融时间序列预测领域的研究现状最小二乘支持向量机(LeaStSquareSupportVectorMachine,LS-SVM)H”是Sykens和VandeWalle提出的支持向量机(SUPPortVeCtorMaChine,SVM)口的一种改进算法,具有学习能力强、效率高、精度高、模型简单等优点。LS-SVM最先就被SUykenS应用于金融时间序列的预测,之后在金融分析预测领域中又得到了进一步的推广和应用。郑晓薇等学者基于LSSVM算法,提出了一种结合GPU并行计算的股票预测模型U久王国俊则提出了一种基于粒子群算法参数优
22、化的LSSVM模型,对股价时间序列进行了预测与分析。总结前人运用LS-SVM在金融时间序列预测领域的研究成果,与传统统计学、人工神经网络等方法相比,LS-SVM拥有着较高的预测精度与预测效率。第1.2.4节EEMD分解的研究现状借助何建敏、白洁(2015)通过EEMD分解趋势来探讨余额宝影响因素的思想,本文还提出了EEMD-LSSVM模型。集成经验模态分解(EnSembIeEmPiriCaIModeDecomposition,EEMD)I是在经验模态分解(EmPiriCalModeDecomposition,EMD)基础上的一种改进。经验模态分解最初被用于研究海水的动态变化,而后又在天文学、医
23、学、通讯工程、地震测量等领域得到了广泛的应用。HUang等人于2003年首次将经验模态分解方法引入到金融时间序列的分析当中,并指出了经验模态分解的高自适性。其后,越来越多的学者将其应用于金融分析领域,从而得到了进一步的推o刘海飞、李心丹利用EMD降噪提出了一种较精准的金融市场时间序列的预测方法。蔡赞姝、卢志明利用EMD对上证综合指数(ShanghaiComPOSiteindex,SCI)进行研究,通过对各阶IMF函数的统计分析以及分布拟合,发现其“尖峰宽谷”特点的实质是自由度为3的t分布123。由于EEMD有效地改善了EMD模态混淆的缺陷,EEMD方法有着更为广泛的应用。朱莉、高鹏使用EEMD
24、对股指期现货的高频时间序列进行正交分解,随后将降噪后的数据应用于GARCH模型和CCF检验,实证结果表明我国沪深300股指期货合约和股票市场之间呈现出较强的波动溢出效应邵明振对我国物价指数使用了EEMD分解技术并结合实际影响因素对其中长期走势进行了进一步的预测田。因此,本文将EEMD分解和LS-SVM方法结合起来,联系余额宝各分量趋势的实际影响因素,以求更精准地对余额宝的未来收益率进行预测。第L3节本文研究框架本文将借助LS-SVM模型以及EEMD-LSSVM模型分别对余额宝的万份收益时间序列进行短期预测,并根据预测结果的对比进行分析研究。根据总体研究内容,本文的结构安排如下:第1章,介绍本次
25、主题的研究背景和研究意义,并对国内外的研究现状分宏观和微观等研究层面进行分析,对相关的文献进行总结和梳理,进而对文章的研究框架进行了说明。第2章,主要对LS-SVM以及EEMD-LSSVM两种时间序列预测方法的原理进行简单的介绍,并提出了这两个模型的对比分析研究方法。其中,LS-SVM的时间序列预测方法可以简单分为四个步骤:构造输入向量、确定模型参数、模型训练以及预测新序。而EEMD-LSSVM模型则在此基础上运用了EEMD分解技术将原始时间序列分解成若干个具有不同特征尺度的本征模函数及一个剩余分量,并根据快速傅里叶变换(FFT)所求得的平均周期将各分量重组成高频序列、低频序列和趋势序列,再针
26、对这三个重组后的序列构建不同的LS-SVM模型分别进行预测,将各序列的预测值进行加总从而得到EEMD-LSSVM的预测值。最后,将其与使用单一LS-SVM模型的预测值进行比较分析。具体内容将在该章节中给出详细的描述。第3章,给出余额宝万份收益时间序列的实证研究,通过在第2章中介绍的两个模型及其对比研究方法,得出精度和效率方面的结论。结果表明,采用LS-SVM模型以及EEMD-LSSVM模型均能较好地反映其动态变化。从精确度角度来看,EEMD-LSSVM模型在部分月份的预测精度要明显高于LS-SVM模型;从复杂性角度来看,直接采用LS-SVM更为高效。第4章,针对此次的研究进行总结和展望。在第3
27、章实证研究的基础上,分析两个模型各自的优缺点以及对实际背景的参考价值,总结本文预测方法可能存在的改进之处以及对余额宝在未来可以进一步深入探讨的问题上进行展望。第2章模型介绍第2.1节LS-SVM的基本原理1.S-SVM是基于SVM的一种改进算法。它是一种按照结构风险最小化准则的机器学习算法。它的目标函数采用了误差的平方项,并利用正则化参数来调节其惩罚力度。改用等式作为约束条件,即将所有的训练样本均视为支持向量,将误差e也视为需被优化的变量,使最终的优化问题转化为在KKT(Karush-Kuhn-Tucker)条件下求解N维线性方程组的问题,从而大大降低了计算的复杂度,提高了训练的效率。相比SV
28、M,LSSVM更适合求解大规模问题。因此,对于拥有庞大数据量的时间序列是十分适用的。与SVM相同,LS-SVM也有分类和回归两种用法。在这里,我们使用LS-SVM的回归模型,即使用一个超平面对已知数据进行拟合。1.S-SVM的回归问题可描述如下:假设训练样本集为:S=(线,),XkwRn,k=1,2,m(1)其中,必是第女个输入向量,也是与之对应的输出值,m为样本容量。它的线性回归函数为/(x)=wM+b.其中,()为解决原始空间中线性不可分问题的核函数。该回归问题对应的优化问题可以描述为:1minJ(wfe)=-w2+w,e,s.t.yk=WT(P(Xk)+b+elcy-2与分类不同的是,这
29、里的”不再是类别的标签,而是函数的实际值。为个估计值与实际值之间的差,为正则化参数。根据优化函数式,采用Lagrange乘数法定义与其对偶的Lagrange函数:m1.(W,b,e,d)=/(w,e)-akw(xk)+b+ek-ykk=l其中,Lagrange乘子akER,k=1,2,.lm.分别对w,blek,ak求偏导数,可以得到Lagrange函数的最优化条件:zmLxk+lxk+6(13)其中,k=1,2,m.其次,我们对正则化参数Y以及RBF径向基核函数参数进行参数寻优。基于多级网格搜索的参数优化方法是一种基于遍历的寻优方法,通过对可能的Y和。所构成的二维平面进行网格划分,进而计算出
30、每一个交叉点训练的LS-SVM模型的预测性能,选择性能最好的点所对应的参数值作为最优参数。这种方法虽然具有较大的盲目性,但在对效率要求不太高的前提下,使用该方法所得到的参数精度是最高的。因此我们采用网格搜索方法对余额宝的模型进行参数寻优。完成相空间重构以及模型参数的优化之后,我们对12组训练集分别进行训练,并通过训练后的模型得到相应的预测结果。(3) EEMD-LSSVM模型首先,我们对余额宝收益率序列进行EEMD分解,可得到若干个不同频率的IMF子序列以及一个剩余分量,如下图4所示。2 0 2 Mul O 1 Mul O 1MUI O 1 Mui O 1 2 O 2 H5 O 5 H5 O
31、5 M2 O 2 Mub 15 1O.。祝。春。齐。齐。和。祝。祝 4200.0-O.O孕 620LLNZLXcogW - KdNg工莅一 9LN Zu-乏一 8U.工一 6LL.W-H12014/1/162014/8/42015/2/202015/9/82016/3/272016/10/122014/1/16201W42015/2/202015/9/82016/3/272016/10/122014/1/162014/8/42015/2/202015/9/82016/3/272016/10/122014/1/162014/8/42015/2/202015/9/82016/3/272016/10
32、/122014/1/162014/8/42015/2/202015/9/82016/3/272016/10/122014/1/162014/8/42015/2/202015/9/82016/3/272016/10/12I II - _III一 -II2014/1/162014/8/42015/2/202015/9/82016/3/272016/10/122014/1/162014/8/42015/2/202015/9/82016/3/272016/10/122014/1/162014/8/42015/2/202015/9/82016/3/272016/10/122017/6/302014/1/
33、162014/8/42015/2/202015/9/82016/3/272016/10/12图4EEMD分解后各分量趋势图通过快速傅里叶变换求解每个分量的平均周期(见下表1),根据所求周期将各分量重组成高频、低频和趋势分量。由何建敏、白洁所提出的余额宝影响因素的分析中,我们可以知道它们分别代表着市场波动价格、重大事件价格和趋势价格U3,因此对这三个序列分别进行预测是十分有价值的。表1各分量的平均周期分量IMFlIMF2IMF3IMF4IMF5平均周期(口)3.506.9914.4739.49121.75(续)分量IMF6IMF7IMF8IMF9R平均周期(日)365.25365.2514611
34、4611461由表1我们可以看出,IMF1IMF5对应的周期较短,且均短于6个月,我们可以将之归为高频分量;同理我们看到IMF6、IMF7对应的周期均为1年,我们可将之归为低频分量;剩下的IMF8-IMF9及R表现为无明显的周期性,我们将之归为趋势分量。对于重新组合得到的三个分量序列,我们重复本节第(1)点中的做法,对12组训练集样本分别进行预测。最后将三个分量的预测结果进行加总,我们就得到了Eemd-LSSVm最终的预测结果。第3.3节模型对比及结果分析通过MATLABR2014b对余额宝收益率时间序列进行处理,我们得到了12组训练集在两种模型下的预测结果。以2016年10月第一周的数据为例
35、,我们得到的预测结果与真实值的对比如下图5所示。图52016.10两种模型预测结果对比图我们求得2016年10月第一周实际万份收益的均值为0.6347.进而,我们对LS-SVM及EEMD-LSSVM的预测结果分别进行均值及其相对误差的计算,结果如下表2所示。2016.10预测结果的均值与相对误差均值相对误差LS-SVM0.63630.25%EEMD-LSSVM0.6355-0.13%由表2中的相对误差我们可以得到,两组模型的预测结果均较为理想。我们将12组训练集分别标记为1,2,.,12.引入评价函数RMSE,我们得到各组预测结果的精度如下表3所示。表3两种模型预测结果的RMSE组别12345
36、6LS-SVM0.00790.00490.01330.00330.00420.0134EEMD-LSSVM0.00710.00440.01320.00350.00550.0133(续)组别789101112LS-SVM0.01860.00670.00440.00590.00280.0106EEMD-LSSVM0.00830.00660.01160.00480.00340.0062从评价函数的值我们可以看出,两个模型的精确度均较高,且相差不大。因此,我们可以得出,在一定时间范围内,LS-SVM模型与EEMD-LSSVM模型均能较好地反映余额宝收益率的动态变化。进而,我们继续对两组评价函数的值做均值及标准差的分析。我们得到的结果如下表所示:表4两组RMSE的均值与标准差均值标准差LS-SVM0.00804.1045E-04EEMD-LSSVM0.00732.9722E-04由表4,我们可以看到EEMD-LSSVM模型的均值及标准差均小于LS-SVM模型。由此,我们可以得出Eemd-Lssvm模型在部分月份的预测值精度要明显高于ls-SVM模型的预测值精度,且EEMD-LSSVM的预测值更为稳定。然而从复杂性角度考虑,由于Eemd-LSSVM模型需先对原始时间序列进行EEMD分解,且分解之后需进行FFT变换求解各分量的平均周期来求解,从而消耗了