《《Spark大数据开发技术》教学大纲.docx》由会员分享,可在线阅读,更多相关《《Spark大数据开发技术》教学大纲.docx(7页珍藏版)》请在课桌文档上搜索。
1、Spark大数据开发技术教学大纲适用范围:2O2X版本科人才培界方案涕程代码:08150491课程性质:专业选修深学分:4学分学时:N学时(理论48学时,实骏16学时)先修课程:1.inUX操作系统、JaVa程序设计、PyIhon程序设计后续课程:无适用专业:数据科学与大数据技术开课单位:计算机科学与技术学院一、课程说明Sparti大数据开发技术课程是数据科学与大数据技术专业1业的一门专业选修课.通过对本课程的学习,让学生在对大数据技术力,定了解的姑础上,进一步学习大数据技术、SPark的i殳计与运行原理、环境搭建及使刖等内容,通过入门级编程实践操作来提升学生学习和掌提大数据处理的实践能力.二
2、、课程目标课程目标1:掌握和理解SPai1.基本设计与运行原理、环境搭建及使川等基本知识,理解Spark编程思想,能够使用Spark解决相关工程问题。课程目标2:常树SPark编程实践进行项目开发的方法和技术,能够根据大数据技术领域的实际问题iS行方案设计和程序实现.课程目标3:能进行融会货通,能正确评价大数据处理架构对环境、社会可持续发展的影响,树立正确的审关观念和劳动观念.三、课程目标与毕业要求Spark大数据开发技术3课程教学目标对数据科学与人数据技术1业毕业要求的支掾见表1.*1课程教学目标与毕业要求关系毕业要求指标点课程目标支撑M3.设计/开发解决方案3.3在解决方案设计中.具有综合
3、考虑社会、健康、安全、法律、文化及环境等因素的意识和创新意识。课程目标2:掌褥Sparti编程实践进行项目开发的方法和技术,能够根据大数据技术领域的实际向SS进行方案设计和程序实现.课程目标3:能进行融仝更通,能正确评价大数据处理架构对环境、社会可持续发展的影响,树立正确的审关观念和劳动H观念。4.研究4.3能够根据实验方案选用或搭魏实验环境开展实脍,能够对已获得的实验数据进行整理、分析,并能通过信刖煤合得出有效结论.课程目标1:掌握和理解Spark葩本设计与运行原理、环境搭隹及使用等茶本知识,理解Spark揣程思想,能州使用SrX1.rk价决相关工程问题.课程目标2:学界SPark弟程实践进
4、行项目开发的方法和技术,能舫根据大数据技术领域的实际向鹿进行方案设计和程序实现。I1.5,使用现代工具5.3能够针对大数据应用开发需要选挣和使用合适的平台和开发工具,并能够理解其局限性课程11标1:掌握和理解Spark葩本设计与运行原理、环境搭隹及使用等基本知识,理解Spark编程思想,能好使用SPQrk解决相关工程问题.课程目标2:学提SPark编程实践进行项目开发的方法和技术,能物根据大数据技术领域的实际何IS进行方案设计和程序实现.课程目标3,能进行融会资通,能正确评价大数据处理架构对环境、社会可持续发展的影响,树立正确的审美观念和劳动观念。H注,表中-HMXM中尸表示课程与相关毕业要求
5、的关联度四、教学内容,基本要求与学时分配1 .理论部分理论部分的教学内容、基本要求与学时分配见表2。2帙学内容、基本要求与学时分配收学内容教学要求,教学重点魔点理论学时如学时对应的课程目标11111 .大致技林论1.1 1大数据概念与关键技术1.2 代表性大数据技术1.3 嫔程语言的选择1.4在线资源效学无拈了解堪础的大数据关键技术以及具有代表性的大数据计算框架。点I有代表性的人数据技术,包括HadOOp、Spark、FIink、Beam等“碓点:掌握在我资源的学习方式.221、2、32Spark的设计与运行JM2. 1概述2.2 SPark生态系统2.3 SPark运行架构2.4 SPark
6、部署方式教学要求:了好SPark生态系统:掌握Spark运行架构和部署方式。点:StX1.rk运行架构,难点:Spark部署方式.61、2、33.Spark环境搭建和使用3.1安装SPark3.2在PySPark中运行代码收学量求,掌握SPark的安装;以握如何在PySPark中运行代码及应用程序开发.重点:在PySpark中运行代码.难点:Spark应用程序开发和集群搭建。841,2,33.3开发SPark独立应用程序3.4SWrk集群环境搭建3.5在集群上运行SPark应刖程序4*RU*程4.1 RDD编程基础4.2 谈值时RDD4.3 数据读写教学要求,了解RDD:理解并掌握RDD编程。
7、Jt点:RDD编程班础,Jt点:数据读写811、2、35. SparkSQ1.5.1 SparkSQ1.简介5.2 DataFrae的概述、创建保存及操作5.3从RDD转换到DaiaFranw5.4 使用SParkSQ1.读写数据库做学J1.求I/解SParkSQ1.架构:理制并掌握DataFmmC的创建保存及操作:理解并掌握使用SparkSQ1.读写数据.重点:DataFrame的创建保存及操作.摩点:使用SParkSQ1.读写数据。821、2,3&SparkStreaaing6.1 流计算概述6.2 SparkStreaming6.3 SparkStreaminR工作机制6.4 范本输入源
8、及商级输入源6.5 转换操作和输出操作教学要求I/解漉计算:掌樨SparkS1.rCaming程序编写,Mjfi(:SparkStreaming基本知识,魔点:SparkSireaming程序编写。821,2.37. StructuredStreaaing7.1 概述7.2 编写StrUCIUrCdStreaming程序的旗本步骤7.3 输入源7.4 输出操作7.5 容错处理7.6 迟到数据处理7.7 杳询的管理和监控教学要求:理解概述并掌握SInKUIrCdSgaming程序编写。重点:编用S1.nICuIredSIreaming程序的基本步骤。难点:编写StnICn1.rCdStrcami
9、ng程序的基本步骤。421、2,38. SparkM1.Iib8.1 尊于大数祸的机器学习8.2 机器学习库M1.IibM83展本数据类型8.4 机器学习流水跷8.5 特征提取、转换和选择8.6 分类算法教学聂求:了解机器学习的概念;理解并掌握M1.Jib的基本原理和算法.点:理解并判SMuib的基本原理和算法。Jt点:理解并掌揖MUib的战本原理和算法.41、2、38.7 聚类算法8.8 折同过滤算法8.9 模型选择和超金数调整-18162,实骐部分实验部分的教学内容、基本要求与学时分配见表3。表3实验项目、实验内容与学时实殴项目实题内容和要求实验学时对应的课程目标1.1.inux实验实3内
10、容,掌握1.mUX虚拟机的安装方法并熟悉其使用方法.实殴要求,安装1.inux康损机并使用1.inux常用命令,21、2、32.Spork环境搭建与使用实殴内部掌提Spark环境搭建和使用方法.实Ift要求8正确安装HadOOP和SpariU使用HadoOP进行常用操作:Spark读取文件系统操作.41.2、33.RDD涮程实内容:熟悉RDD旗本操作及谜值时操作并都决实际向造.实验要求,PySpark交互式编程:独立编写应用程序实现数据去加和求平均值.41、2、34.SpaASQ1.和Streaming与S1.nicturedStreaming实验实验内容,拿掘UbUnIUI6.04中SPar
11、kSQ1.Streaming与StructuredStrcamingHivc的安,装及使用.实验要求:能在Ubunun6.Z中正确安装SparkSQ1.、Screaming与StniciuredStreaming并能常握其基本编程方法.61.2、3合计16五、教学方法及手段本课程以课堂讲授并结合实验进行学习,结合课程讨论、案例、视频资源共享、实验等教学手段完成课程教学任务和相关能力的培养。让学生在对大数据技术行定了解的茶础上,进一步学习大数据技术、SPark的设计与运行原理、环境搭建及使用等内容.通过入门级编程实践操作来提升学生学习和掌握大数据处理的实践能力.在实5金教学坏节中,通过启发式教学
12、培养学生在了解和常握大数据相关基本知识和基本技能荔础上进行编程实践,培养学生自主学习能力、实际动手能力,激发学牛的创新思维。六、课程资源1.推荐教材(I)林子雨.Sparic编程基础(Python板)M.北京:人民邮电出板社,2020.2 .参考书(1)鸟哥.鸟哥的1.iiIUX私房菜基础学习篇(第三版)M.北京:人民邮电出版社.2016.(2)张伟洋.Hadoop3.x大数据开发实战(视频载学版)(MJ.北京:华大学出版社.2022.(3)迟殿委,除则程Hadoop大数据分析技术M.北京:清华大学出版社、2022.(4)唐世伟,田幽.大数唐世集与预处理技术M.北京:清华大学出版社,2022.
13、3 .期刊(1) Quin1.anJR.InductionofdecisionIreeS(J1.Machine1.earning.2021.(10):81-106.(2)蝶亮.林子雨,赖永炫.DFTS:面向大数据集的Top*Sky1.ine杏血修法J1.计比机科学.2019,46(05):150-156.(3) WangN,YangY.FcngI.,c(a1.SVM-BascdIncrementa1.IxaniingA1.goriihmfor1.arge-Sca1.eDataStreaminC1.oudConiputingIJ.KS1.1.TransactionsonInternetandIn
14、1.brma1.ionSystems.2014.8(10):3378-3393.(4)郑冬花.叶丽珠,隋栋等.云计算环境中面向大数据的改进密度峥值聚类算法.济南大学学报(自然科学版),2022.36(05):592-596+602.(5)熨立斌等.Spar1.任务间消息传递方法研究I,计算机工程与应用,2022.58(21):91-97.4 .网络资源(1)林子和厦门大学大数据实验室.(2020.01.08).ImpWdbIab.XmU(2)林子川.Spark编程基础.中国大学MC.2022.htt)swww.icourse163.org/CourSe/XMU-1205811805.七、课程考
15、核对课程目标的支撑课程成缄由过程性考核成绩和期末大作业成缄两部分构成,具体考核/评价细则及对课程目标的支掠关系见我4.表4课程考核对课程目标的支撑考核环节占比考核,坪价细则谍程目标I23过程性考核10(1)根据谭讹出勤情况和课堂回答句题情况进行考核,满分100分。(2)以平时考核成绩乘以其在总评成绩中所占的比例计入课程总评成绩.442作业10(1)主要考核学生对各章节知识点的更习、理解和掌握程度.满分I(X)分.(2)每次作业单独评分,取各次成绩的平均值作为此环节的最终成缄.(3)以作业成绩乘以其在总评成绩中所占的比例计入课程总评成绩。442阶段测试IO(1)主要考核学生对阶段知识点的复习、理斛和掌握程度,满分100分。(2)每次测试单独怦分,取各次成绩的平均值作为此环节的最终成绩.(3)以测试成绩乘以其在总评成绩中所占的比例计442入课程总评成绩。实脸IO根据行个实骁的实验操作完成情况和实验报告烧盘单独评分,满分100分. 2)每次实验的独评分.取各次实验成绩的平均值作为此环节的最终成绩.x9090x8080x7070”260x*vt结果基本正确.无讨论.能验骤实不没讨预不实实步,果,析有,成,作误结确分没习完验操有验正有论