R语言学习总结.docx

上传人:夺命阿水 文档编号:1473174 上传时间:2024-06-29 格式:DOCX 页数:12 大小:25.63KB
返回 下载 相关 举报
R语言学习总结.docx_第1页
第1页 / 共12页
R语言学习总结.docx_第2页
第2页 / 共12页
R语言学习总结.docx_第3页
第3页 / 共12页
R语言学习总结.docx_第4页
第4页 / 共12页
R语言学习总结.docx_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《R语言学习总结.docx》由会员分享,可在线阅读,更多相关《R语言学习总结.docx(12页珍藏版)》请在课桌文档上搜索。

1、例:(1)参数运用 hp_per_cyl splat(hp_per_cyl)(mtcars1,)1 18.33333splat(hp_pcr_cyl)(mtcars)118.3333318.3333323.2500018.3333321.8750017.5000030.6250015.5000023.75000(10120.5000020.5000022.5000022.5000022.5000025.6250026.8750028.7500016.50000(1913.0000016.2500024.2500018.7500018.7500030.6250021.8750016.500002

2、2.750002828.2500033.0000029.1666741.8750027.25000等价干:hp_per_cyl(mtcars$hp,mtcars$cyl)splat函数的优点就是可以不用拆分字段,可以一趟t入作为参数.(2)与Plyr函数合用: f ddply(mtcars,.(cyl),Splat(O) nmissing colwise(nmissing)(baseball) colwise(nmissing,.(sb,cs,so)(baseball) ddply(baseball,.(year),colwise(nmissing,.(sb,cs,so) numcolwise

3、(nmissing)(baseball)colwise(nmissing,is.numeric)(baseball) catcolwise(nmissing)(baseball)等价于:colwise(nmissing,is.discrete)(baseball)4failwith函数failwith(default=NU1.1.,f,quiet=FA1.SE)作用:修正一个函数,使得当该函数出现错误时返回一个设定的默认值,默认为空。作用结果生成一个新的函数。 ff(DErrorinf(l):Error safef safef(l)Errorinf(.J:ErrorNU1.1.safefful

4、l;match:all(全部匹配上的其他属性值都带上)、first(只带上匹配上的第一个属性值) join(t1,t2,by=x2,type=inner) join(t1,t2,by=x2,typc=lcft) join(tl,t2,by=x2,type=rightj ttl tt2x2=c(6,6,6,6) join(ttl,tt2,by=x2,type=inner,match=all)xlx2yljoin(ttl,tt2,by=x2,type=inner,match=firsfjx2xlylOutputInputArrayDataframe1.istDiscardedArrayaaplya

5、dplyalply三-piyDataframedaplyddplydlplyd-piy1.istIaPIyIdplyHpiyI-PIya*pfy(.datat.margins,.fun,progressnone)参数说明:data是要进行处理的数组.margins是用哪种方式去切割数据,取值为1,2,c(l,2).fun是对切割的数据指定个函数进行处理,progress确定是否显示与用哪种方式显示进度条 aaply(a,1,mean,.progress=none) aaply(a,1,mcan,.progress=text)以文本形式展示进度条 aaply(a,1,mean,.progress

6、=win)windows窗口展示进度条d*ply(.data,.variables,.hu.,.progress-none)分数说明:.variables指定要按其分割的变成名称daply(data,.(age),.fun=amean)daply(data,.(sex),.fun三amean)daply(data,.(age,sex),.fun=amean)ddply(data,.(sex),.fun=amean)dlply(data,.(sex),.fun=amean)Fpfyfdatay.fun,.progress-none)说明:列表类型的数据是最简洁的数据,因为它已经被分割成个个r(也

7、就是列表数据的一个个元素),所以这类函数没有参数用来描述是按什么进行切分的Cllply(list,mean)laply(list,mean)ldply(list,mean)m*ply(.datat.fun-NU1.1.,.Inform-FA1.SE,)说明:把参数放到array或dataframc中整体输入作为参数,然后fun后面的函数运用.data中的相应数值作为参数分别作用,得到dataframe(mdply),array(maply)或者IiSt(mlply)0与splat相像:m*ply(a_matrix,FUN)的作用和a*ply(a_matrix,1,SPIat(FUN)一样。da

8、ta=data.frame(nc(10,100,50),mean=c(5,5,10),sd=c(1,2,1)datanmeansd1 10512 100523 50101mlply(data,rnorm)2观潮值出现个数(1)count函数:count(df,vars=NU1.1.,wt_var=NU1.1.)参数:df是要处理的数据框;vars是要进行分组统计的变盘;wt_var为权重。留意:该函数的功能类似于table例:基础数据:a=data.frame(names=c(a,b,c,d,a,a,a,b,b,c),wt=C(1,1,1,1,2,2,2,2,2,2) count(a,vars

9、=names)-一单变量分组 count(a,vars=names,wt_var=wt)-加上权重 count(a,c(names,wfj)-双变量分组运用R软件可以便利直观的对数据进行描述性分析。如运用均值、中位数、依次统计量等度侬位置;用方差、标准差、变异系数等度被分散程度;以与用峰度系数、偏度系数度量分布形态。例如在窗口中输入:x-seq(1,589,3)length(x);mean(x);var(x);sd(x);median(x);100*sd(x)/mean(x)Ul197#长度Ul295#均值129254.5#方差(1|171.0395#标准差1295#中位数(1|57.9794

10、8#样本标准差n-length(x);m-mean(x);slines()text。、polygon()legend()title。和axis。等。须要留意的是低水平作图函数必需是在高水平作图函数所绘图形的基础之上增加新的图形。hist()函数可以做出已知数据的直方图,StCmo函数可以作茎叶图,boxplot()函数可用作箱线图,qqline()和qqmorm()可以做出正态QQ图和相应的直线。R语言同时还能对两组数据进行相关性检验,cor.test()函数供应了Pearson相关性检验,SPealman秩检验和Kendan秩检验。其原假设为两组数据不相关,通过P值的大小来推断是否拒绝原假设

11、。我们还能用StarSo函数作出星图,来表示多元数据,以上用法都特别简洁易用,这里就不再赘述。3、R语音在跳计推断中的应用首先,R语旨可以用来进行参数估计;统计学中我们应用矩估计和极大似然估计来进行点估计,短估计是通过解正规方程组得到参数估计的值;极大似然估计通过解极大似然函数的极值点得到参数估计的值。在R中我们可以运用Newton迭代法求解正规方程组,获得矩估计;用。PtimiZCo函数求解极大似然函数,获得最大似然估计;由此可见,R语言能够很便利的解决参数庶估计问题。点估计给出未知参数的近似值以后,并不能知道这种估计的精确性如何,可信程度如何,为了解决这些问题,就须要用到区间估计,在学习用

12、R语言解决区间估计问题的过程中,我最大的体会就是R软件中内置的一些函数极大地便利了我们处理详细问题。比如ttest()函数.对单个正态总体,向量X包含了来自该总体的一个样本,我们可以干脆用ttest(x)指令得到均值U的点估计和区间估计;对于两个正态总体,向境y包含了来自其次个总体的一个样本,我们可以用ttest(x,y)来得到均值型Ul-U2的点估计和区间估计,其中当两个总体方差相同时,只须要加上var.equal=T(缺省值为F,即默认两个总体的方差是不同的);同时t.test()函数不仅可以进行双侧置信区间估计,也能进行单侧置信区间估计,只须要在括号内加tal=wP或者上=gwO当数据不

13、听从正态分布是,可以利用中心极限定理,取较大的样本俄,构造近似听从正态分布的统计及进行估计。其次,R语宫可以用来进行假设检验。假设检验也是统计推断中的一个重要的内容,在统计学中,我们用搜寻到的数据对某个事先作出的统计假设依据某种设计好的方法进行检脸,来推断此假设是否正确C也就是说为了检验一个假设是否成立,先假定它是成立的,看看由此会导致什么结果。假如导致一个不合理的现象出现,就认为原假设不正确,假如没有导出不合理的现象,则不能拒绝原假设。R软件给出了参数假设检验的方法。以正态总体为例,ttest()函数也可以用来进行单个或者两个正态总体的均值的假设检验。进行单边检验时可以加入指令altcmat

14、ivc(备择假设),缺省时表示双边检验,IeSS表示备择假设为UVUO,greater则相反,用COnf.level指定置信水平。X-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3)Y-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1)t.test(X,Y,var.equal=T,al=1)输出:TWoSamplet-testdata:XandYt=-4.2957,df=18,p-value=0.0002176alternativehypothesis:truedifferencein

15、meansislessthan095percentconfidenceinterval:-Inf-1.908255sampleestimates:meanofxmeanofy76.2379.43结果中我们不仅能得到X和Y的均值的点估计76.23和79.43、左侧区间估计、同时也能通过P值的大小推断是否接受原假设,该例中P005,认为拒绝原假设,即认为两总体方差不同。与均值假设检验相类似。R语言中还可以用var.test函数进行正态总体的方差假设检验C而且R语言不仅能就正态总体进行均值和方差检验,也前对其他总体分布进行检验“例如用binom.test()进行二项分布的检验和估计。习题中检验铁剂和

16、饮食两种方法治疗后患者病情表现有无差异:x-c(l13,120,138,120,100,118,138,123)y-c(138,116,125,136,110,132,130,110)binom.test(sum(xy),8)Exactbinomialtestdata:sum(xy)and8numberofsuccesses=4,numberoftrials=8,p-value=1alternativehypothesis:trueprobabilityofsuccessisnotequalto0.595percentconfidenceinterval:0.15701280.8429872s

17、ampleestimates:probabilityofsuccess0.5由结果我们可以推断两种诊断方法无显著差异(其中用到的统计学原理见下面的符号检验)。参数假设检验假定了总体分布的详细形式,但实际问题中我们往往不知道总体的分布,很难对总体的分布做出假定,全部要尽量从样本本身获得所须要的信息,即非参数检验方法。R语言中有很多种非参数的检脸方法,这里仅介绍儿个较为重要的方法。Pearson拟合优度的片方检酷:首先假设随机变量有某种分布,将数轴分成m个区间,然后用样本落在每个区间内的个数和其期望构造K统计最,当n很大是,K依分布收敛于H由度为m-l的卡方分布。然后进行参数假设检触。在R语言中可

18、以用ChiSq.test。函数来实现。符号检触可以用来检验一个样本是否来自某个总体,或者检验两个总体是否有显著区分。对于前者,假如样本中位数等于假设的总体的中位数,我们就认为样原来自该假设,此时每个样本中位数和总体中位数的差额应当正负各一半,所以可以用p=05的二项分布来检验。对于后者,假如认为两个总体无显著差异,则对应的两个样本观测值正负差额的个数应当大体相当,即正负各占一半,像单个样本一样,检验其是否来自P=05的二项分布。这在R语言中只须要用binomtest()函数就能实现。秩统计址检验是一种常常被用来检验分布无关性的非参数检验,R语言供应了Spearman.Kendall和Wilco

19、xon三种秋检验方法,前两种可以用contest。函数实现,最终一种可以用WiICoX.tcst()函数实现。最终,R语言还可以用来处理回来分析问题对于一般的多元线性回来模型,已知被说明变量y和i个说明变域的样本数据,利用R语言中的lm()函数可以特别便利的求出各说明变依的回来参数,并做相应的检睑。以y=+lx+2z+为例,将数据赋给各个变成后,只须要输入ImV-Im(yl+x+z);SUmmary(Im)就能得到参数估计值、每个参数估计值的标准差、参数显著性的t检验和总体显著性的F检验,以与模型的拟合优度等信息。然后我们可以用PrCdiCto函数特别便利的求出预料值和预料区间,同样我们还能用

20、前面介绍过的PlotO和abline()等函数做出各种图形来进行回来分析。当然之前讲的都是比较志向的状况,而现实中往往影响被说明变最y的因素很多,我们希望找出若干个比较关健的变量建匕回来方程,这便涉与变肽选择的问题。选择“最优”变破的方法有很多,比较常用的一种是逐步回来法。总的来说,R语言归根究竟只是我们解决问题的工具,而我们对问题的分析首先是要依据理论进行的,例如参数估计、假设检验以与线性回来、时间序列方面的学问,我们只有深刻理解这些理论背后的意义,才能用对R语言中的各个方法,就好比战场上假如R是利刃,理论学问就是我们的身体和战术素养,只有我们学好了理论学问,才能面对一个个问题迎刃而解。我深知自己在R语言的道路上还走的太短,仅仪只是学到了些皮毛,我肯定要更加努力深化的学习,在今后的学习实践中获得更多的学问,成长起来,为即将到来的实习与工作打卜.坚实的基础。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号