《《统计学》数值数据的描述.docx》由会员分享,可在线阅读,更多相关《《统计学》数值数据的描述.docx(2页珍藏版)》请在课桌文档上搜索。
1、第四章数值数据的描述重点:有关数值数据的性质和特征:如集中趋势、变异(离散)程度、分布形状1、集中趋势度量(MeaSureSofCentralTendency)1)均值或平均数(Mean)、算术平均数(arithmeticmean)又称为期望样本均值T=(Xl+X2+)/n=(Xi)/n这是最常用的度量统计量它通过以观察值中较小数据补足较大的数据来得到平衡点易受数据的极端值的影响(如体育比赛中最高分和最低分往往被去掉)2)中位数:有序数列中处在中间位置的数值(Median)确定中位数的方法:首先,按序排列数据其次,运用定位公式:(n+l)2确定中间的观察值如果样本容量为奇数,中位数为中间的观察
2、值数值如果样本容量为偶数,中位数为中间两个观察值的平均中位数与平均数相比对偏态不敏感。不易受数据极端值的影响3)众数:数据集合中出现频数最高的数值(Mode)众数可从有序数组中观得到可能会出现没有众数或一个以上众数的情况4)值域中点=(XAi大值+X44小值)/2(Midrange)所有观察值中最大值和最小值的平均值,应用于金融分析和气象预报对数据的极端值非常敏感5)中轴数=(Q1+Q3)/2(Midhinge)第一四分位数和第三四分位数的平均值,中轴数不受极端值的影响四分位数的度量Q1.第一四分位数是(n+l)4位置上的数据(firstquartile,QI)25%的数据比第一四分位数小。Q
3、?.第二四分位数就是中位数(secondquartile,Q2)处在2(n+l)4=(n+D2的位置上,50%的观察值比中位数小。Qs.第三四分位数是处在3(n+l)4位置上的数据(thirdquartile,Q3)75%的观察值比第三四分位数小。2、变异程度的度量MeasureofVariation1)全距X奴小值(Range)又称级差,由数据的极端值所决定。对数组排序,很容易的找出最大值和最小值,从而计算出全距。2)四分位间距二Qa-Qi(InterquartileRange)不受极端值影响3)方差(VarianCe)样本方差6,近似离差平方的平均数。离差为观察值和均值的差。,-)2X-n
4、X2C2_j=l_H-In-i4)标准差(StandardDeviation)为方差的平方根方差和标准方差通常被用来度量观测值对算术平均值的平均离散程度5)变异系数(CoefficientofVariation)CV=(SX)100%将同一总体的标准方差与算术平均数进行比较测度其变异程度可以用来比较两组或两组以上计量单位不同的数据组的变异程度。3、形态(ShaPe)对称的分布:算术平均值=中位数:零偏度不对称的分布或偏态算术平均数中位数:不对称右偏分布算术平均数中位数:不对称左偏分布4、盒须图(BOX-and-WhiskerPlot)见图4.7(130页)。其中五条线分别代表:最小值、第一四分
5、位、中位数、第三四分位、以及最大值5、总体的度量和标准差的应用概念回顾:参数一总体统计量一样本有关度量总体集中趋势和变异程度的知识,参见教科书164页T68页经验法则:(EmPiriCalRule)不适用于极度偏态的分布在均值左右一个标准方差的区域内分布了67%的观测值在均值左右两个标准方差的区域内分布了90%95%的观测值比内米一切贝谢夫法则:(Bienayme-ChebyshevRule)适用于任何分布表4.3(169页)在均值左右两个标准方差的区域内至少分布了75.00%的观测值在均值左右三个标准方差的区域内至少分布了88.89%的观测值案例分析:股票、债券及国债的投资回报(集中趋势,变异程度和分布形状)