《时间序列分析报告版.docx》由会员分享,可在线阅读,更多相关《时间序列分析报告版.docx(22页珍藏版)》请在课桌文档上搜索。
1、第2章时间序列的预处理拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理.根据检验的结果可以格序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法.2. 1平稳性检验3. 1.1特征统计量平稳性是某些时间序列具有的一种统计特征。要描述清她这个特征,我们必须借助如下统计工具。一、概率分布数理统计的基础知识告诉我们分布函数或密度函数能够完整地描述一个随机变量的统计特征。同样,个M机变量族的统计特性也完全由它们的联合分布函数或联合密度函数决定。对于时间序列X,tGT,这样来定义它的概率分布:任取正整数m,任取33.,G7,贝Unl维随机向量(X,X
2、,,X)的2tlI20联合概率分布记为尸(X,Xf,X),由这些有限维分布函数构成的全体。/./c.J/2m12m(F(x,f.,x),VmG正整数,V/,K.,tGT)就称为序列(X)的1. /J,.Ji2mt2mI2. 1.12,w概率分布族。概率分布族是极其歪要的统计特征描述工具,因为序列的所有统计性质理论上都可以通过概率分布推测出来,但是概率分布族的页要性也就停留在这样的理论意义上.在实际应用中,要得到序列的联合概率分布几乎是不可能的,而且联合概率分布通常涉及非常复杂的数学运算,这些原因使我们很少直接使用联合概率分布进行时间序列分析。二、特征统计址一个更简单、更实用的描述时间序列统计特
3、征的方法是研究该序列的低阶矩,特别是均值、方差、自协方差和自相关系数,它们也被称为特征统计量.尽管这些特征统计量不能描述随机序列全部的统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机序列的主要概率特征,所以我们对时间序列进行分析,主要就是通过分析这些统计量的统计特性,推断出随机序列的性质。1 .均值对时间序列(X,tG7而言,任意时刻的序列值X都是一个随机变量,都有它自己的概率分布,不妨记为尸(X).只要满足条件JaxdF(x)8-S/就一定存在着某个常数N”使得随机变星X总是围绕在常数值N?附近做随机波动.我们称/为序列Xti在t时刻的均值函数。当t取遍所有的观察时刻时,就得到
4、一个均值函数序列(日r,tGT,它反映的是时间序列(X,tGT每时每刻的平均水平.2 .方差当8xdF(x)8时,可以定义时间序列的方差函数用以描述序列值围绕其均值-8/做KI机波动时的平均波动程度.02=DX-E(X一从)2=8(x从)2dF(x)!Hi.-1t取遍所有的观察时刻时,我们得到一个方差函数序列(O2,tGTat3 .自协方差函数和自相关系数类似于协方差函数和相关系数的定义,在时间序列分析中我们定义自协方差函数(autocovariancefunction)和自相关系数(autocorrelationCoeffiCient)的概念“对于时间序列X,tGT),任取t,sGT,定义Y
5、(t,S)为序列X的自协方差函数:y(t,S)=E(X从WX从)定义P(力S)为时间序列X的自相关系数,简记为ACF。之所以称它们为自协方差函数和自相关系数,是因为通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度,而自协方差函数和自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象地讲就是度量自己过去的行为对自己现在的影响。1.1.2平稳时间序列的定义平稳时间序列有两种定义,根据限制条件的严格程度,分为严平稳时间序列和宽平稳时间序列。一、严平稳所谓严平稳(StriCtlyStationary)就是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质不会随时间
6、的推移而发生变化时,该序列才能被认为平稳,而我们知道,随机变量族的统计性质完全由它们的联合概率分布族决定,所以严平稳时间序列的定义如下:定义2.1设(X为一时间序列,对任意正整数m,任取F,3.fG7,对任意整tI2m数T,有F(x,X,.,x)=F(x,X,.,x),士1112m12.m力Ltl+,G+T/711+T则称时间序列Xi为严平稳时间序列。前面说过,在实践中要获得班机序列的联合分布是一件非常困难的事,而且即使知道院机序列的联合分布,计算和应用也非常不便.所以严平稳时间序列通常只具有理论.意义,在实践中用得更多的是条件比较宽松的宽平稳时间序列。二、宽平稳宽平稳(WeakStatiOn
7、ary)是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证效率低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。定义2.2如果(Xt)满足如下三个条件:(1)任取tGT,有EXy8T任取tGT,有EX=N,从为常数;(3)任取t,s,kGT且k+s-tGT有Y(t,s)=Y(k,k+s-t)则称Xt为宽平稳时间序列。宽平稳也称为弱平稳或二阶平稳(SeCond-Orderstationary),显然,严平稳比宽平稳的条件沔格。严平稳是对序列联合分布的要求,以保证序列所有的统计特征都相同;而宽平稳只要求序列一阶平稳,对于高于二阶的矩没有任何要求。所以
8、通常情况下,严平程序列也满足宽平稳条件,而宽平稳序列不能反推严平稳成立。但这不是绝对的,两种情况都有特例。比如服从柯西分布的泮平校序列就不是宽平稳序列,因为它不存在一、二阶矩,所以无法验证它二阶平稳。严格地讲.只要存在二阶矩的严平稳序列才能保证它一定也是宽平稳序列。宽平稔一般推不出严平稳,但当序列服从多元正态分布时,则二阶平稳可以推出严平稳“定义2.3时间序列XJ称为正态时间序列,如果任取正整数n,任取。t,tGT相对应的有限维随机变量XJXX服从n维正态分布,密度函数为:211I11/(X)=(2兀厂2lr2exp-(X-),r-i(X-)其中,X=(X,X,,X):=(EX,EX,EX);
9、为协方差阵:nI2nnI2itn(,()y(,0.y(/r)、y(/,t)y().y(/,t)rn=2*212”(y(r,t)y(r,r).y(r,r);n1nInn从正态前机序列的密度函数可以看出,它的n维分布仅由均值向量和协方差阵决定,即对正态随机序列而言,只要二阶矩平稳了,就等于分布平稳了,所以宽平稔的正态序列一定是严平稳时间序列.对于非正态过程,就没有这个性质了在实际应用中,研究最多的是宽平稳阴机序列,以后见到平稳随机序列,如果不加特别注明,指的都是宽平稔随机序列.如果序列不满足平稔条件,就称为非平稔序列。1.1.3平稳时间序列的统计性质根据平稳时间序列的定义,可以推断出它一定具有如下
10、两个重要的统计性质。一、常数均值EX=!,VZgT二、自协方差函数和自相关系数只依赖于时间的平移长度而与时间的起止点无关y(乙s)=y(Ar,k+S-1),Nt,s,kGT根据这个性质,可以将自协方差函数由二维函数y(t,S)简化为一维函数y(S-力:y(St)=y(f,5),vt,SGT由此引出延迟k自协方差函数的概念。定义2.4对于平稳时间序列Xt,tGT),任取t(t+kG7),定义丫(k)为时间序列X的延迟k自协方差函数:y(外可,t+根据平秘序列的这个性质,容易推断出平稳随机序列一定具有常数方差:DX=y(tyt)=y(0),MtGTt由延迟k自协方差函数的概念可以等价得到延迟k自相
11、关系数的概念:Yg+k)y优)P=kDXXDXk火0)容易验证和相关系数一样,自相关系数具有如F三个性质:(1)规范性P0=1且IPJV1fVk(2)对称性大二一a(3)非负定性对任意正整数m,相关阵rm为对称非负定阵。PPPm-pppm-2r=10m(pPp7rm-2值得注意的是,P卜除了具有上述三个性质外,还具有一个特别的性质:对应模型的非唯一性.一个平稳时间序列一定唯一决定了它的自相关函数,但它的自相关函数未必唯一对应若一个平稳的时间序列.我们在后面的章节中符证明这点。这个性质就给我们根据样本的自相关系数的特点来确定模型增加r定的难度。1.1.4平稳时间序列的意义时间序列分析方法作为数理
12、统计学的一个分支,遵循数理统计学的基本原理,都是利用样本信息来推测总体信息.传统的统计分析通常都拥有如下数据结构,见表2-1.表21f、眄机变量样本X1Xm1X11Xml2X12Xm2.nXInXnm根据数理统计学常识,显然要分析的随机变量越少越好加越小越好),而每个变量获得的样本信息越多越好(n越大越好)。因为随机变量越少,分析的过程越简单,而样本容量越大,分析的结果就会越可雅。但是时间序列分析的数据结构有它的特殊性“对随机序列(,X,X,X,而12t言,它在任意时刻t的序列值X都是个随机变量,而且由于时间的不可重纪性,该变量在任意一个时刻只能获得唯一的样本观察值。因为时间序列分析的数据结构
13、如下,见表2-2。表22丁、随机变量样本入:Xt1XXI由于样本信息太少,如果没有其他的辅助信息,通常这种数据结构是没有办法进行分析的。而序列平稳性概念的提出可以力效地麟决这个问额在平稔序列场合,序列的均值等于常数意味着原本含有可列多个随机变量的均值数列九,IGTI变成了一个常数序列kgt原本每个陆机变量的均值(1yG7)只能依靠唯的个样本观察值Xf去估计fl二X/现在由于Nr=从(V/G7),于是每个样本观察值ZGT),都变成了常数均值R的样本观察值nXI-R-X-1n这极大地减少r随机变量的个数,并增加/待估参数的样本容量.换句话说,这大大降低了时序分析的难度,同时也提高了对均值函数的估计
14、精度。问理.根据平稳序列二阶矩平稔的性质,可以得到基于全体观察样本计算出来的延迟k自协方差函数的估计值Oa_x)/(k)=厂1/,VO1H:至少存在某个P羊0,Ym1,k/式中,n为序列观测期数;m为指定延迟期数.Box和Ljung证明LB统计垃同样近似服从自由度为m的卡方分布。实际上LB统计址就是Box和Pierce的Q统计量的修正,所以人们习惯把它们统称为Q统计量,分别记作QP统计量和Qlg统计量,在各种检验场合普遍采用的Q统计量通常指的都是LB统计量。例2-4续(2)计算例2-4中白噪声序列延迟6期、延迟12期的。乙,统计量的值,并判断该序列的KI机性(a=0.05).由图2-8微米可以
15、得到该序列延迟12期样本自相关系数,数据如下,见表2-3.表2-3延迟期数k人Pk1-0.0012-0.0373-0.00640.0125-0.025-0.014延迟期数k789101112人Pk0.009-0.010-0.027-0.025-0.0140.035根据上述数据,很容易H算出表2-4的结果。延迟出统计量检验QLB统计址值P值延迟6期2.360.8838延迟12期5.350.9454由于P值显著大于显著性水平,所以该序列不能拒绝纯随机的原假设。换言之,我们可以认为该序列的波动没有任何统计规律可循,因而可以停止对该序列的统计分析。还需要解群的一点是,为什么在本例中只检验了前6期和前1
16、2期延迟的Q统计量和LB统计量就直接判断该序列是白噪声序列呢?为什么不进行全部999期延迟呢?这是因为平稳序列通常具有短期相关性,如果序列值之间存在显著的相关关系,通常只存在于延迟时期比较短的序检脸结果列值之间。所以,如果一个平稳序列短期延迟的序列值之间都不存在显著的相关关系,通常长期延迟之间就更不会存在显著的相关关系。另一方面,假如一个平稳序列显示出显著的短期相关性,那么该序列就一定不是白噪声序列,我们就可以对序列值之间存在的相关性进行分析。假如此时考虑的延迟期数太长,反而可能淹没了该序列的短期相关性。因为平稳序列只要延迟期足够长,自相关系数都会收敛于零。例2-3续(2)对19491998年
17、北京市最r气温序列做白噪声检验(a=0.05).检验结果见表2-5。表2-5延迟LB统计量检验LB统计址值P值延迟6期5.580.4713延迟12期6.710.8760根据这个检脍结果,不能拒绝序列纯随机的睇假设.因而可以认为北京市最高气温的变动属于纯随机波动.这说明我们很难根据历史信息预测未来年份的最高气温.至此,对该序列的分析也就结束了。例2-5对1950T998年北京市城乡居民定期储蓄所占比例序列的平稔性与纯随机性进行检验(数据见表Al-7)。(1)绘制该序列时序图.时序图如图2-9所示。1950I9601970198019902000ear图2-9北京市城乡居民定期储蓄所占比例序列时序
18、图该时序图显示北京市城乡居民定期储蓄始终占储蓄存款余额的80%左右,波动比较平超。(2)自相关图检验.考察该序列的样本自相关图,进一步检验该序列的平稳性.自相关图如图2-10所示.样本自相关图显示延迟3阶之后,自相关系数都落入2倍标准差范围之内,而且自相关系数向零衰减的速度非常快,延迟8阶之后自相关系数即在零值附近波动。这是一个非常典型的短期相关的样本自相关图。由时序图的样本自相关图的性质,可以认为该序列平稳。(3)纯随机性检验(a=0.05八检验结果见表2-6.Lag Covar iance Correlat ionAutocorrelat i ons-1 98765432101234567
19、89130.7255231.0000021.5834110.7024618.2935570.5953914.6843030.4779210.0801930.3280710.9317170.355799.3182400.303278.9449750.291134.9275410.160371.8421140.05995-1.151434 -.037472.369343-.077111.130247-.03679*marks two standard errors表26延迟期数LB统计量检验LB检验统计贵的色P值675.460.00011282.570.OOOl图2-10北京市城乡居民定期储蓄所占
20、比例序列自相关图检验结果显示,在各阶延迟下LB统计量的P值都非常小(VO.0001),所以我们可以以很大的把握(置信水平99.999%)断定北京市城乡居民定期储蓄所占比例序列属于非白噪声序列,结合前面的平稳性检验结果,说明该序列不仅可以视为是平稳的,而且还蕴含着值得提取的信息“这种平稳非白噪声序列是目前最容易分析的一种心理,下一章我们就要详细介绍对这种平稳非白噪声序列的建模及预测方法。2.3习题1 .考虑序列1,2,3,4,5,,20):(1)判断该序列是否平稳:(2)计算该序列的样本自相关系数k(k=l,2,,6);(3)绘制该样本自相关图,并解释该图形。2 .19751980年夏威夷岛莫那
21、罗亚火山(MaunaLoa)每月择放的Co2数据如下(单位:ppm)见表2-7(行数据).表2733045330.97331.64332.87333.61333.5533190330.05328.58328.31329.41330.6333163332.46333.36334.45334.82334.3233305330.87329.24328.87330.18331.5033281333.23334.55335.82336.44335.9933465332.41331.32330.73332.05333.5333466335.07336.33337.39337.65337.573362533
22、4.39332.44332.25333.59334.7633589336.44337.63338.54339.06338.9533741335.71333.68333.69335.05336.5333781338.16339.88340.57341.19340.8733925337.19335.49336.63337.74338.361)绘制该序列时序图,并判断该序列是否平稳。(2)计算该序列的样本自相关系数Ok(k=l,2,24).(3)绘制该样本自相关图,并解释该图形。3.19451950年费城月度降雨量数据如下(单位:mm),见表2-8(行数据)表2869.3128.380.040.974.984.6101.1225.