PySpark大数据技术与应用教学教案.docx

资源描述

《PySpark大数据技术与应用教学教案.docx》由会员分享，可在线阅读，更多相关《PySpark大数据技术与应用教学教案.docx（32页珍藏版）》请在课桌文档上搜索。

1、第1章PySpark大数据分析概述教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论32学时，实验32学时）总学分：4.0学分本章学时：6学时一、材料清单（1）PySpark大数据分析与应用教材。（2）配套PpT。（3）引导性提问。（4）探究性问题。（5）拓展性问题。二、教学目标与基本要求1.教学目标（1）理解大数据的核心概念，掌握大数据分析的基本流程。（2）了解大数据分析在不同应用场景中的实际作用。（3）学习并介绍大数据技术体系的关键组成部分。（4）深入了解SPark大数据技术框架，包括其特点和运行架构。（5）掌握SparkRD

2、D的概念和应用。（6）熟悉SPark生态圈内的各种工具和组件。（7）学习使用PySpark进行大数据分析的方法。2.基本要求(1)学习并理解大数据的概念和重要性，了解大数据分析的流程和应用场景。(2)学习并掌握Spark大数据技术框架的基本知识和特点，了解Spark的运行架构和流程。(3) 了解开源大数据各类框架。(4)学习并熟悉SParkRDD的概念和操作，了解SPark生态圈中的各个组件和工具。(5)学习并学会使用PySPark进行大数据分析，能够应用所学知识解决实际问题。三、问题1 .引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到

3、理解、掌握知识，发展各种能力和提高思想觉悟的目的。(1)什么是大数据？它在当今时代的重要性是什么？(2)大数据分析的流程包括哪些步骤？有哪些常见的应用场景？(3)说说开源大数据技术体系。(4) SPark大数据技术框架有哪些特点？它的运行架构和流程是怎样的？2 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(1)如何利用大数据分析来帮助企业做出更好的决策？请举例说明。(2) SParkRDD是什么？它与传统的数据处理方法相比有哪些优势？(3) P

4、ySPark在大数据分析中的应用有哪些？请举例说明。3 .拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。（I）除了SPark,还有哪些常用的大数据处理框架？它们之间有什么区别和优劣？（2）大数据技术在人工智能领域中有哪些应用？请举例说明。（3）什么是SPark生态圈？企业如何运用SPark构建大数据架构？四、主要知识点、重点与难点1 .主要知识点（1）大数据的概念。（2）大数据分析的概念。（3）大数据分析的流程。（4）大数据分析应用场景。（5）大数据技术体系。（6） SP

5、ark技术框架简介、特点、架构及运行流程。（7） RDD产生背景、概念与特点、基本操作（8） PySPark简介及各功能子模块。2 .重点（1）大数据分析的概念、流程与应用场景。（2） SPark技术框架简介、特点、架构及运行流程。（3） RDD概念与特点、基本操作。（4））PySpark简介及各功能于模块。3.难点（1） SPark技术框架简介、特点、架构及运行流程。（2） RDD概念与特点、基本操作。（3） PySPark简介及各功能子模块。五、教学过程设计（4）论教学过程(1)大数据概念。(2)大数据分析概念。(3)大数据分析流程。(4)大数据分析应用场景。(5)大数据分析技术体系。

6、(6) SPark简介。(7) SPark特点。(8) SPark运行架构与流程。(9) SparkRDDo(10) SPark生态圈。(11) PySPark简介。(12) PySpark子模块。2.实验教学过程关于本章的RDD操作，请在学完第二章后自行完成。六、教材与参考资料1 .教材戴刚，张良均.PySpark大数据分析与应用M.北京：人民邮电出版社.2024.2 .参考资料1肖芳，张良均.SPark大数据技术与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.2王哲，张良均.Hadoop与大数据挖掘（第2版）M.北京：机械工业出版社.2022.3曾文权，张良均.Python数

7、据分析与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.4张良均，谭立云.Python数据分析与挖掘实战（第2版）M.北京：机械工业出版社.2019.第2章PySpark安装配置教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论32学时，实验32学时）总学分：4.0学分本章学时：8学时七、材料清单（6）PySpark大数据分析与应用教材。（7）配套PPT。（8）引导性提问。（9）探究性问题。（10）拓展性问题。八、教学目标与基本要求3 .教学目标根据目前数据分析发展状况，将数据分析具象化。而后介绍数据分析的概念，流程，

8、目的以及应用场景。阐述使用Python进行数据分析的优势。列举说明PythOn数据分析重要库的功能。紧接着阐述Anaconda简介，实现在Windows和Linux两个系统下Anaconda数据分析环境。最后展现Python数据分析工具JupyterNotebook的优异特性及使用方法。为后学课程学习搭建数据分析环境，首先介绍在windows系统中搭建单机模式的数据分析环境，能够运行PySPark程序代码；然后，介绍在LinUX系统中搭建分布式模式的数据分析环境，了解SPark分布式模式的运行机理，进一步体会PySPark大数据处理能力。最后介绍PythOn中重要的数据结构（元组、列表、字典）

9、和函数式编程。4 .基本要求（1）掌握单机模式和分布式模式下PySpark开发环境的搭建过程。（2）熟悉LinUX操作系统虚拟机的安装过程。（3）掌握单机模式和分布式模式下HadoOP集群配置。（4）掌握分布式模式下SPark集群配置。（5）掌握PylhOn重要的数据结构及函数编程。九、问题5 .引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。（5）搭建单机模式的PySPark开发环境需要哪些组件。（6）单机模式的PySPark开发环境有哪些优缺点。（7）搭建分布式模式的PySPark开发

10、环境需要哪些组件。（8）分布式模式的PySPark开发环境有哪些优缺点。（9）单机模式和分布式模式PySPark开发环境的应用场景。6 探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。（4）单机模式中，安装HadoOP组件的作用？（5）大数据分析中数据库与HiVe的区别是什么？（6）分布式模式中，计算机节点为什么要建立互信机制？7 .拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题

11、。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。（4）分布式模式下，使用HDFS文件系统存储大文件的优势。（5） Spark与Hadoop进行数据分析有哪些优缺点。（6）使用Python语言进行数据分析的优势。十、主要知识点、重点与难点8 .主要知识点（1）掌握单机模式和分布式模式下PySpark开发环境的搭建过程。（2）安装LinUX操作系统虚拟机。（3）开发环境中的各组件的安装与配置。（4）掌握PythOn重要的数据结构及函数编程。9 .重点（5）搭建单机模式的PySPark开发环境。（6）搭建分布式模式的PySPark开发环境。10 .难点搭建分布式模式的PySPark开发环境。十一

12、、教学过程设计11 .理论教学过程(13)在Windows系统中安装JDK。(14) 在Windows系统中安装Anaconda。(15) 在WindOWS系统中安装HadoOp。(16) 在Windows系统中安装MySQLo(17)在Windows系统中安装Hiveo(18)在Windows系统中配置PySpark模块。(19)在WindOWS系统中安装LinUX虚拟机。(20)在LinUX系统中安装Java。(21)在LinUX系统中搭建HadOOP分布式集群。(22)在LinUX系统中安装MySQL数据库。(23)在LinUX系统中安装HiVe数据仓库。(24)在LinUX系统中搭建S

13、Park完全分布式集群。(25) Python中的常用数据结构。(26) Python函数式编程基础。12 .实验教学过程(1)在Windows系统中安装JDKo(2) 在Windows系统中安装Anacondao(3)在WindOWS系统中安装HadOOPo(4)在Windows系统中安装MySQLo(5)在Windows系统中安装Hiveo(6)在WindOWS系统中配置PySPark模块。(7)在WindOWS系统中安装LinUX虚拟机。(8)在LinUX系统中安装Java。(9)在LinUX系统中搭建HadOoP分布式集群。(10)在LinUX系统中安装MySQL数据库。（三）在Lin

14、UX系统中安装HiVe数据仓库。(12)在LinUX系统中搭建SPark完全分布式集群。十二、教材与参考资料13 .教材戴刚，张良均.PySpark大数据分析与应用M.北京：人民邮电出版社.2024.14 .参考资料11肖芳，张良均.SPark大数据技术与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.2王哲，张良均.HadOoP与大数据挖掘（第2版）M.北京：机械工业出版社.2022.3曾文权，张良均.PythOn数据分析与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.41张良均，谭立云.Pylhon数据分析与挖掘实战（第2版）M.北京：机械工业出版社.2019.第

15、3章基于PySpark的DataFrame操作教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论32学时，实验32学时）总学分：4.0学分本章学时：10学时十三、材料清单（Il）PySpark大数据分析与应用教材。（12）酉己套PPT。（13）引导性提问。（14）探究性问题。（15）拓展性问题。十四、教学目标与基本要求15.教学目标（1）了解SParkSQL的发展历程和主要功能。（2）了解DataFrame概念。（3）了解PySPark.sql模块及其核心类。（4）掌握基于PySparkSQL的DataFrame的创建方法。（

16、5）掌握基于PySparkSQL的DataFrame的基础操作。2.基本要求（6）学习并理解SParkSQL的基本概念和功能。（7）掌握DataFrame的创建、查询和操作方法。（8）学会使用pyspark,sql模块进行数据分析和预处理。（9）能够通过实例应用所学知识解决实际问题。十五、问题16 .引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。（10） SparkSQL是如何集成关系数据库和数据仓库的查询分析功能的？（11） DataFrame在SparkSQL中扮演什么样的角色？它有

17、哪些优势？（12） PySpark中的pyspark.sql模块可以完成哪些任务？它的核心类有哪些？（13） SParkSQL编程从创建什么对象开始？并说明如何创建该对象。17 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。（7） SparkSQL与传统的关系型数据库相比有哪些优势和不足？（8）在什么情况下应该选择使用DataFrame而不是RDD?为什么？（9）如何利用PySparkSQL进行数据预处理？请举例说明。18 .拓展性问题拓展性问题

18、需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。（7）除了SparkSQL,还有哪些其他工具或框架可以用于处理结构化数据？它们与SparkSQL有何异同？(8)在SParkSQL中，如何实现对数据进行复杂的转换和清洗操作？请举例说明。(9)在实施大数据分析项目时，如何确定数据的存储格式和处理框架？有哪些因素需要考虑？十六、主要知识点、重点与难点19 .主要知识点(9) SParkSQL的起源与发展历程。(10) SParkSQL主要功能。(11) SparkSQL的数据抽象DataFrame。

19、(12) PySPark.sql模块及其核心类。(13) SParkSQL编程步骤。(14) pyspark.sql仓IJ建SparkSession对象。(15) pyspark.sqlDataFrame的创建方法。(16) pyspark.sqlDataFrame基本操作的各类APL20 .重点(7) pyspark.sql创建SparkSession对象。(8) pyspark.sqlDataFrame的创建方法。(9) pyspark.sqlDataFramc基本操作的各类APL21 .难点(1) pyspark.sqlDataFrame的创建方法。(2) pyspark.sqlData

20、Frame基本操作的各类API。十七、教学过程设计22 .理论教学过程（27） SparkSQL的起源与发展历程。（28） SParkSQL主要功能。（29） SparkSQL数据核心抽象DataFramee（30） PySPark.sql模块简介。（31） pyspark.sql模块核心类。（32）仓IJ建DataFrame对象。（33） DaIaFrame基础操作（数据查看、数据处理、排序统计、合并、列操作等）。（34） DaIaFiame输出操作。23 .实验教学过程（1）网站搜索热词统计分析。（2）大数据岗位招聘信息统计分析十八、教材与参考资料24 .教材戴刚，张良均.PySpark大

21、数据分析与应用M.北京：人民邮电出版社.2024.25 .参考资料1肖芳，张良均SPark大数据技术与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.2王哲，张良均.HadOoP与大数据挖掘（第2版）M.北京：机械工业出版社.2022.3曾文权,张良均.PythOn数据分析与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.4张良均，谭立云PythOn数据分析与挖掘实战（第2版）M.北京：机械工业出版社.2019.第4章基于PySpark的流式数据处理教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时(其中理论32学时

22、，实验32学时)总学分：4.0学分本章学时：12学时十九、材料清单(16)PySpark大数据分析与应用教材。(17)酉己套PPT。(18)引导性提问。(19)探究性问题。(20)拓展性问题。二十、教学目标与基本要求26 .教学目标(1) 了解SparkStreaming的基本概念、工作原理和运行机制。(2) 了解pyspark.streaming模块主要类及核心类。(3)掌握基于PySPark的DStream创建、转换、窗口和输出操作。(4) 了解StructuredStreaming基本概念及编程模型。(5)掌握StructuredStreaming基础操作。(6)熟悉Structured

23、Streaming编程步骤。2.基本要求(10)学习并理解SParkSIreaming的基本概念、工作原理和运行机制。(Il)掌握pyspark.streaming模块的主要类及核心类，能熟练进行DStream的创建、转换、窗口和输出操作。(12)学习并理解StnIClUredSIreaming的基本概念及编程模型，掌握其基础操作和编程步骤。(13)能够通过实例分析，提高对SparkStreaming和StructuredStreaming的实际应用能力。二十一、问题27 .引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，

24、发展各种能力和提高思想觉悟的目的。(14) SParkStreaming的基本概念是什么？它的工作原理和运行机制是怎样的？(15) PySPark.streaming模块的主要类有哪些？它们的核心功能是什么？(16)如何进行DStream的创建、转换、窗口和输出操作？(17) StrUCtUredStreaming的基本概念是什么？它的编程模型是怎样的？(18) StructuredStreaming的基础操作有哪些？它的编程步骤是怎样的？28 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提

25、问中尚未涉及但在课文中又是重要的问题加以设问。(10) SparkStreaming与传统的批处理相比有哪些优势和不足？(11)在什么情况下应该选择使用DStream而不是DataFrame或Dataset?为什么？(12) StructuredStreaming与SparkStreaming相比有哪些优势？29 .拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。(10)除了SParkSIreaming和StrUCIUredSlreaming,还有哪些其他框架可以用于处理流

26、式数据？它们与SparkStreaming有何异同？(11)SparkStreaming可以从哪些类型的数据源中读取数据？请列举几个常见的数据来源，并简单描述它们的特点。(12)讨论在什么样的业务场景下更适合使用SparkStreaming,而在什么情况下更倾向于选择StructuredStreamingo举例说明两者各自的优势和适用性。二十二、主要知识点、重点与难点30 .主要知识点(17)流数据概念、流计算概念、主流的开源流式计算框架对比。(18) SParkStreaming基本概念。(19) SParkStreaming工作原理。(20) SparkStreaming运行机制。(21)

27、 pyspark.streaming模块核心类StreamingContexto(22) pyspark.streaming模块核心类DStreamo(23) DStream基本输入源。(24) DStream转换操作(滑动窗口操作、有状态转化操作)。(25) DStream输出操作。(26) StructuredStreaming编程模型。(27) StructuredStreaming输入操作。(28) StructuredStreaming转换操作。(29) StructuredStreaming输出操作。(30) StnICIUredSlreaming窗口聚合操作。(31) 点(10)

28、 SparkStreaming工作原理。(11) pyspark.streaming模块核心类StreamingContexto(12) pyspark.streaming模块核心类DStream。(13) DStream基本输入源。(14) DStream转换操作(滑动窗口操作、有状态转化操作)。(15) StructuredStreaming编程模型。32 .难点(1) DStream转换操作(滑动窗口操作、有状态转化操作)。(2) StrUCtUredStreaming输入操作。(3) StructuredStreamingWf(4) StrUCtUredStreaming输出操作。(5

29、) StructuredStreaming窗口聚合操作。二十三、教学过程设计33 .理论教学过程(35)流计算简介。(36) SparkStreaming基本概念。(37) SparkStreaming工作原理。(38) SparkStreaming运行机制。(39) pyspark.streaming模块简介。(40) pyspark.streaming模块核心类。(41) )DStream基础操作。(42) StructuredStreaming概述。(43) StrUCtUredStreaming编程模型。(44) StrUCtUredStreaming基础操作。(45) StrUCtU

30、redStreaming编程步骤。34 .实验教学过程（3）使用SparkStreaming实现菜品价格实时计算。（4）使用SparkStreaming实时判别车辆所属地。二十四、教材与参考资料35 .教材戴刚，张良均.PySpark大数据分析与应用M.北京：人民邮电出版社.2024.36 .参考资料I肖芳，张良均.SPark大数据技术与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.2王哲，张良均.HadOOP与大数据挖掘（第2版）M.北京：机械工业出版社.2022.3曾文权，张良均.PythOn数据分析与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.4张良均，

31、谭立云.PythOn数据分析与挖掘实战（第2版）M.北京：机械工业出版社.20社.第5章基于PySpark的机器学习库教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论32学时，实验32学时）总学分：4.0学分本章学时：12学时二十五、材料清单（21）PySpark大数据分析与应用教材。（22）配套PPT。（23）引导性提问。（24）探究性问题。（25）拓展性问题。二十六、教学目标与基本要求37 .教学目标机器学习是一门多领域交叉学科，融合人工智能、概率统计、控制论、信息论等多门学科，研究计算机怎样模拟或实现人类的学习行为，以获取

32、新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。本课程重点介绍机器学习中的常见算法和理论，并通过编程练习和典型应用实例加深理解；同时了解机器学习的一般理论，包括数据预处理、数据降维、数据标准化、无监督学习理论和强化学习理论。38 .基本要求（6）掌握机器学习的一般原理及相关概念。（7）熟悉PySPark中的转化器对数据的处理和转换。（8）掌握分类模型及使用PySpark构建分类模型。（9）掌握回归模型及使用PySpark构建回归模型。（IO）掌握聚类模型及使用PySpark构建聚类模型。（Il）掌握智能推荐模型及使用PySpark构建智能推荐模型。二十七、问题39 .引导性提问引

33、导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。（19）计算机通过什么方法进行学习，获取人类的知识或经验。（20）计算机进行机器学习时对数据有什么要求，数据是否需要提前处理。（21）机器学习的度量标准有哪些？（22）机器学习中的有监督学习、无监督学习。40 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。（13）机器学习中的容量、欠拟合和过拟合。（14）机

34、器学习前数据的预处理。（15）机器学习不同算法的应用场景。（16）机器学习不同模型的性能度量标准。（17）机器学习中的超参数与验证集。4L拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。（13）数据降维的方法。（14）模型的正则化。（15）为什么传统机器学习算法处理高维数据时，在新样本上泛化能力不强？（16）传统机器学习中实现泛化的机制不适合学习高维空间中的复杂函数？（17）神经网络、深度学习的优势。二十八、主要知识点、重点与难点42 .主要知识点（5）了解机器学习的一般

35、理论。（6）掌握PySpark中的转化器机制。（7）掌握数据标准化的方法。（8）使用PySPark构建分类、回归、聚类和智能推荐模型。43 .重点（16）使用PySpark构建分类模型。（17）使用PySpark构建回归模型。（18）使用PySPark构建聚类模型。（19）使用PySpark构建智能推荐模型。44.难点使用PySpark构建智能推荐模型。二十九、教学过程设计45.理论教学过程(46)介绍机器学习基本概念。(47)介绍PySPark.ml模块。(48)介绍PySPark.ml模块中的转化器。(49)数据加载及数据集划分。(50)数据降维。(51)数据标准化。(52)使用PySPa

36、rk构建并评估分类模型。(53)使用PySpark构建并评估回归模型。(54)使用PySPark构建并评估聚类模型。(55)使用PySPark构建并评估智能推荐模型。46.实验教学过程(1)数据加载及数据集划分(2)数据降维。(3)数据标准化(4)使用PySpark构建并评估分类模型。(5)使用PySpark构建并评估回归模型。(6)使用PySpark构建并评估聚类模型。(7)使用PySPark构建并评估智能推荐模型三十、教材与参考资料47 .教材戴刚，张良均.PySpark大数据分析与应用M.北京：人民邮电出版社.2024.48 .参考资料1肖芳，张良均.SPark大数据技术与应用（第2版）

37、（微课版）M.北京：人民邮电出版社.2022.2王哲，张良均.Hadoop与大数据挖掘（第2版）M.北京：机械工业出版社.2022.3曾文权，张良均.Python数据分析与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.4张良均，谭立云.Python数据分析与挖掘实战（第2版）M.北京：机械工业出版社.2019.第6章案例分析：基于PySPark的网络招聘信息的职业类型划分教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论32学时，实验32学时）总学分：4.0学分本章学时：8学时三十一、材料清单（26）PySpark大

38、数据分析与应用教材。（27）配套PPT。（28）引导性提问。（29）探究性问题。（30）拓展性问题。三十二、教学目标与基本要求49 .教学目标本章基于SPark的PythonAPI,以非结构化的网络招聘信息为基础，从业务需求与系统架构分析开始介绍，然后介绍数据探索（包括数据说明、数据读取、重复数据与空值探索、异常数据探索），接着介绍数据预处理（包括处理空值、重复数据与异常值，分词与停用词过滤，词特征向量化），再介绍模型构建与评估，最终介绍制作词云图，可视化展示划分的结果，分析每种职业类型的岗位描述和能力要求，从而为求职者提供针对性的就业指导。50 .基本要求(14) 了解网络招聘信息文本挖掘的

39、步骤与流程。(15)掌握数据探索、预处理的基本方法。(16)熟悉TF-IDF的基本原理及其在SparkMLlib库中的实现过程。(17)了解LDA聚类算法，并掌握SParkMLlib库的LDA聚类算法的使用方法。(18)掌握LDA聚类模型的构建与部署方法。三十三、问题51 .引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。(23)数据探索能够做什么？(24)文本数据预处理的基本方法有哪些？(25) TF-IDF算法的基本原理是什么，适用于哪些场景？(26) 1.DA模型的原理是什么，其应用

40、场景包括哪些？52 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(18)网络招聘信息文本挖掘的步骤与完整流程是怎样的？(19) Spark数据分析的能够应用在那些场景？(20) SParkMLlib库在大数据分析中有哪些应用场景，有哪些优缺点？53 .拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。(18) SPark数据分

41、析是不是万能的？(19) SPark语言用于做数据分析有哪些优势？三十四、主要知识点、重点与难点54.主要知识点(31)网络招聘信息文本挖掘的基本步骤与流程。(32)数据探索的基本方法。(33)数据预处理的基本方法。(34) TF-IDF的基本原理。(35) 1.DA聚类算法的基本原理。55 .重点(20)网络招聘信息文本挖掘的基本步骤与流程。(21) TF-IDF算法在SparkMLlib库中的实现过程。(22) SparkMLlib库的LDA聚类算法的使用方法。56 .难点(2) (I)网络招聘信息文本挖掘的步骤与流程。(3) 1.DA聚类模型的构建与部署方法。三十五、教学过程设计57 .

42、理论教学过程(56)网络招聘信息文本挖掘的步骤与流程。（57）数据探索的基本方法。（58）数据预处理的基本方法。（59）中文分词与去停用词的基本方法。（60） TF-IDF的基本原理。（61） 1.DA聚类算法的基本原理。（62）使用WordCloud绘制词云图的方法。58 .实验教学过程（1）网络招聘信息的数据探索。（2）网络招聘信息的数据清洗，以及中文分词、去停用词等预处理实现。（3） TF-IDF算法在SparkMLlib库中的实现过程。（4） SparkMLlib库的LDA聚类算法的使用方法。三十六、教材与参考资料59 .教材戴刚，张良均.PySpark大数据分析与应用M.北京：人民邮

43、电出版社.2024.60 .参考资料1肖芳，张良均.SPark大数据技术与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.2王哲，张良均.HadOOP与大数据挖掘（第2版）M.北京：机械工业出版社.2022.3曾文权，张良均.PythOn数据分析与应用（第2版）（微课版）M.北京：人民邮电出版社.2022.4张良均，谭立云.PythOn数据分析与挖掘实战（第2版）M.北京：机械工业出版社.2019.第7章案例分析基于PySpark的信用贷款风险分析教案课程名称：PySPark大数据分析与应用课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论32学时，实验32学时

44、）总学分：4.0学分本章学时：8学时三十七、材料清单（31）PySpark大数据分析与应用教材。（32）配套PPT。（33）引导性提问。（34）探究性问题。（35）拓展性问题。三十八、教学目标与基本要求61 .教学目标本章结合企业真实案例，培养学生运用所学知识解决问题的能力，提高分析、判断和创新能力。同时培养学生的合作精神和沟通能力。在案例教学过程中，引导学生根据所给的案例数据进行分析、推理和判断、找到解决问题的方法的策略，包括数据探索分析、数据预处理、数据特征选择，训练数据与测试数据划分、预测模型选择和训练、模型的验证。通过案例教学，培养学生解决问题的能力：通过编程练习和应用实例加深对机器学

45、习理论的理解，更好地御用所学的知识和技能。62 .基本要求（1）掌握数据探索与数据预处理的操作过程。（2）掌握使用PySpark编程实现分类模型。（3）了解GBTS分类模型。（4）掌握分类模型的评估。三十九、问题63 .引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。（27）构建机器学习模型前，数据探索的目的和意义（28）为什么要进行数据探索？（29）数据预处理对后续模型建立的意义。（30）机器学习模型的选择。64 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。（21）数据探索的主要内容有哪些？（数据收集与整理、数据可视化、探索变量间的关系，探索变量分布和趋势，探索异常值和离群点）。（22）数据预处理的方法有哪些。（处理缺失值，重复信息、异常信息，字符编码、数据特征提取等）。（23）构建模型是训练数据与测试数据的选择。（24）GTBS模型构建参数的确定，模型泛化能力如何？（25）模型在分布式环境中的运行。6

展开阅读全文