《《数据清洗与预处理》课程标准.docx》由会员分享,可在线阅读,更多相关《《数据清洗与预处理》课程标准.docx(18页珍藏版)》请在课桌文档上搜索。
1、数据清洗与预处理课程标准课程代码26311026XQX适用专业大数据技术应用专业适用学制3年(5年一贯制、5+2贯通培养)编制人审核人版本号202302一、课程名称数据清洗与预处理。二、适用专业大数据技术应用专业。三、课程学时与学分72学时,4学分。四、课程性质本课程是大数据技术应用专业的一门专.业核心课程,是从事数据采集工程师、数据分析师等岗位必须学习的课程,将为后续学习数据可视化、大数据分析等课程奠定基础。本课程开设在第4学期,学习该课程之前需具备一定的数据采集、数据存储能力,Python程序设计基础、数据库技术应用是该课程的前导课程。本课程学习的知识和技能可以为考取大数据分析与应用X证书
2、(初级)做知识和技能准备。五、课程目标通过本课程的学习,能完成电商商品数据清洗与预处理任务、电商用户评论数据清洗与预处理任务、智能制造数据清洗与预处理任务、学生信息管理数据清洗与预处理任务、动物图像数据清洗与预处理任务,达到以下具体目标:(一)素养目标1 .培养学生的政治思维、政治洞察力与政治敏感性,培养学生的社会主义核心价值观、爱国主义情操。(培养规格1)2 .了解大数据、网络信息等产业文化,遵守职业道德准则和行为规范,具备社会责任感和担当精神。(培养规格3)3 .具备大数据思维,具备较强的逻辑思维能力。(培养规格7,培养规格8)4 .形成诚实、守信、善于沟通、合作和富有爱心的思想品质。(培
3、养规格9)5 .具备创新、创意的思维和团队协作精神。(培养规格9)6 .具备吃苦耐劳的优秀品质与较强的抗压能力。(培养规格10)(二)知识目标1 .了解数据清洗与预处理在大数据真实项目分析流程中的重要作用。(培养规格6)2 .掌握数据清洗工具KettIe的安装、配置与基本使用方法。(培养规格16)3 .掌握PythOn第三方库PandaS的安装、配置与使用方法。(培养规格11)4 .掌握结构化数据去重、缺失值处理、数据转换等基本的预处理方法。(培养规格16)5 .掌握非结构化数据文本编码、文本替换、分词等处理方法。(培养规格16)6 .了解图像数据的预处理方法与实践工具。(培养规格16)(三)
4、能力目标1 .能够使用数据清洗工具Kettle处理结构化数据。(培养规格16)2 .能够使用数据清洗工具Kettle处理非结构化文本数据。(培养规格16)3 .能够使用PythOn第三方库读取、处理结构化数据,并能导出数据。(培养规格16)4 .能够使用Python第三方库处理文本数据,进行文本编码检测、简单的分词处理。(培养规格16)5 .能够使用Python第三方库读取、展示图像数据,并能完成简单的预处理。(培养规格16)6 .具备考取大数据分析与应用X证书(初级)的能力。(培养规格16)六、课程内容与要求本课程以多种行业场景下的数据清洗与预处理任务为载体,坚持立德树人的根本要求,结合学生
5、学习特点,遵循职业教育人才培养规律,落实课程思政要求,有机融入思想政治教育内容,紧密联系工作实际,突出应用性和实践性,注重学生职业能力和可持续发展能力的培养。合理设计:学习单元、能力点、学习内容与要求。本课程按照数据类型和复杂性、数据清洗工具的使用复杂程度、技能水平从单一技能到综合技能、技术沿革从传统技术到智能技术的规律编排学习单元,合理序化教学内容。学习单元15在知识体系上是并列关系。其中,1、4属于结构化数据清洗与预处理,使用KettIe数据清洗工具;2、3、5属于非结构化数据清洗与预处理,使用Python语言进行数据清洗与预处理任务。表1课程内容与要求序号学习单元能力点学习内容与要求学习
6、成果建议学时1电商商品g、土数据清洗与预处理L在数据脏、舌L、差的情况下,能够使用Kettle数据清洗工具执行数据替换、删除等操作,以保证数据准确性。2.能够熟练掌握数据去重、缺失值填补等常用的数据预处理方法与实现方式。3.在数据不规范的情况下,能够利用人工检验或脚本校准处理数据,保证数据内容的符合行业标准。L了解电商网站商品相关数据的含义、特点及意义。2 .掌握数据清洗工具Kettle的安装步骤。3 .了解Kettle的概念模型,掌握Kettle的操作规范流程。4 .掌握使用Kettle校验将电商商品数据源基本格式规范的方法。5 .掌握在Kettle中创建、执行商品数据去重、缺失值替换等转换
7、实例的操作过程,掌握使用Kettle导出处理数据的方法。6 .了解数据清洗与预处理专有名词、规范专业术语与行业用语的使用方式,与团队保持顺畅沟通交流。L经过数据预处理的高质量商品数据集1份。167.了解大数据行业法规法则,自觉维护行业良好风气。2电商用户评论数据清洗与预处理1 .能够编写Python脚本程序对商品用户评论数据进行预处理。2 .能够使用正则表达式对文本字符串进行处理,去除多余字符、空格等。3 .能够使用分词工具对文本数据进行分词。4 .能够使用Python第三方库对中文编码格式进行处理,保证数据内容的符合行业标准。1 .了解电商用户评论数据数据的含义、特点。2 .了解中文分词的含
8、义、停用词表的作用。3 .掌握Python第三方库Pandaschardet的安装配置步骤、基本使用方法。4 .了解正则表达式的语法规则,学习Python内置标准库re的使用方法。5 .掌握使用Pandas对文本数据进行预处理的步骤。6 .掌握Pandas、chardet对文本数据编码格式进行判断的方法,根据需求进行编码转换。7 .熟悉使用正则表达式进行文本替换的语法规则。8 .掌握使用Pandas对文本数据进项简单分1.经过数据清洗与预处理的高质量电商用户评论数据集1份。16词处理的基本流程。9.了解了解软件与信息技术行业信息,掌握大数据行业前沿技术动态,不断进行自我知识更新与学习。3智能制
9、造数据清洗与预处理L能够熟练使用Python第三方库PanClaS的核心数据结构DataFrame完成数据读入、简单数据处理任务。2 .能够使用Python工具完成数据替换、删除、去重等数据预处理任务,保证数据无噪声。3 .能够使用数据清洗工具利用将数据按比例缩放,使数据之间具有可比性。1 .了解智能制造设备运行数据的特点、字段含义及意义。2 .掌握Python第三方库Pandas的安装配置步骤、基本使用方法。3 .掌握使用Pandas对智能制造设备运行数据进行初步诊断的步骤。4 .熟悉使用Pandas进行数据去重、缺失值处理、标准化、格式转换等清洗任务的方法。5 .掌握使用Pandas导出数
10、据的方法与常用配置项。6 .了解行业发展动态了解行业现状与热门资讯,分析行业未来发展趋势与底层逻辑,随时调整自我职业规划。7 .掌握与团队协作、沟L经过数据清洗与预处理的高质量:招聘网站数据集1份。16通解决问题的方式方法,开展外部交流,有效跨部门推进工作进程。4学生信息管理数据清洗与预处理1 .能够使用数据清洗工具KettIe对接主流数据库,完成多源数据整合。2 .能够使用数据清洗工具Kettle完成数据预处理任务,保证数据准确性。3 .在数据不规范的情况下,利用人工检验或脚本校准处理数据,保证数据内容的符合行业标准。1 .了解学生信息管理数据在各个业务数据库的分布情况,为多源数据整合做准备
11、。2 .根据学生信息管理数据的特点和业务需求,学习制定数据清洗与预处理的策略。3 .掌握数据清洗工具Kettle的操作规范流程。4 .掌握使用Kettle完成多个数据源整合的步骤,顺利导入目标数据库。5 .熟悉在Kettle中创建、执行学生管理数据合并、转换、去重、排序等转换实例的操作过程。6 .掌握使用Kettle导出处理数据的方法。7 .掌握与团队协作、沟通解决问题的方式方法,开展有效跨部门沟L经过数据清洗预处理的学生信息管理数据集若干份。12通,推进工作进程。8.了解大数据行业最新前沿技术发展动向,不断进行自我知识更新与学习。5动物图像数据清洗与预处理1 .能够使用Python图像处理工
12、具完成图像数据读取、图像展示、简单预处理等任务。2 .能够使用Python图像处理工具对不规范的图像处理进行处理,统一输出标准化的图像数据。3 .能够熟练使用Python图像处理工具调用常用的数字图像处理算法完成图像处理的预处理任务,保证图像数据符合行业标准。1 .了解数字图像处理的基础知识,理解数字图像的存储方式。2 .掌握Python第三方库OpenCVNumPyPillow的安装与配置步骤。3 .熟悉使用Python图像处理工具读取图像数据、渲染展示图像的步骤。4 .掌握使用Python图像处理工具进行动物图像旋转、缩放、平移、裁剪等操作的方法。5 .掌握使用Python图像处理工具进行
13、图像模糊、图像锐化、图像阈值化等图像预处理的步骤。6 .自学能力:能够主动通过自学了解软件与信息技术行业信息,掌握大数据行业最新技L经过预处理的动物图像数据集1份。12术,熟悉数据采集处理等岗位相关技能。7.了解大数据行业法规法则,自觉维护行业良好风气。七、课程实施(一)师资队伍1 .专任教师职业能力:具备优秀的专业课教学开展与组织能力,掌握Python编程能力、大数据组件使用能力、数据清洗与预处理能力,能够以情境任务要求处理数据。知识结构:了解数据处理工程师、数据分析师的各项职业岗位要求;在专业领域中,具备大数据技术、数据分析等较为深入的专业知识背景。资质:具备中职学校专业课任教资格和企业实
14、践经历。2 .兼职教师职业能力:企业优秀讲师或行业企业专家,具备有3到5年的数据处理相关行业从业经验,参与过多个大数据分析项目开发过程,具有较强的专业技能,具备良好的专业课教学开展与组织能力,具备优秀的Python编程能力,掌握主流的大数据组件,数据清洗与预处理实战工具,能够以情境任务要求处理数据。知识结构:在行业领域中,深入了解数据处理工程师、数据分析师、算法工程师的各项职业岗位要求;在专业领域中,具备大数据技术、数据分析等深入的专业知识背景。资质:具备数据清洗、数据处理相关行业从业背景和企业工作经历。(二)实验实训条件1 .校内实训基地根据不同的项目学习需要,选择教室、校企合作实习实训基地
15、、实训设备等进行教学。(1)实训场地:数据清洗与预处理实训室、大数据实践创新中心;(2)实训设备:笔记本电脑45套、可视化大屏6套、台式计算机40台、服务器1台,满足数据清洗与预处理的要求。2 .校外实训基地目前大数据技术应用有1个联想校外实训室,能够同时满足50名学生进行实习实训。能够满足学校教师、企业专家共同办公,满足专业人才学徒制人才培养要求,符合企业研发、生产要求。本校外实训基地具备如下条件:(1)联想组织机构健全,领导和工作(或技术)人员素质高,管理规范,在新一代信息技术领域发展前景好。(2)基于联想“端一边一云一网一智”技术框架下,其研究方向与经营的业务与本专业对口,且联想属于世界
16、五百强企业,社会形象好。(3)符合学生专业实习实训条件,并且能够满足学生顶岗实训一个月以上。(4)有相应的技术人员担任实训指导教师。(三)教学资源1.教材按照教材必须在政治上坚持四项基本原则,符合党和国家的方针和政策,能运用辩证唯物主义和历史唯物主义的观点阐述本课程的基本规律的原则选择教材。教材必须符合本课程教学大纲的要求,符合学生层次的实际,教材内容的阐述要循序渐进,富于启发,有利于对学生能力和素质的培养。充分考虑教材的变动与更新,保证教材内容有用、新鲜和实用。为保证教学质量,优先选择国家规划教材。数据清洗(机工版)主要介绍了数据清洗技术的基本概念与应用,提供了详实的理论知识,并涵盖了主流的
17、数据清洗工具如Kettle.Python.R等,配套教学资源丰富多样,作为主要教材;数据清洗(清华版)在此基础上提供了多种数据清洗的综合实训内容,能够对核心技能点加大练习力度,作为辅助教材。两本教材相辅相成有助于同学们提高数据清洗与预处理的实操能力,在教材内容基础上也可以结合学习单元自主开发模块化教材,包括活页式工作页、学习页、评价表等,同时也可采用校企合作资源库课程资源包。表2教材配备表序号教材名称作者出版社出版时间是否为国规教材1数据清洗机械工业出版社2020年07月否2数据清洗清华大学出版社2021年08月否2.图书文献配备数据清洗与ETL技术、数据清洗等图书可用于学生课余时间巩固课堂所
18、学知识和技能,拓展视野,有助于学生了解数据清洗、预处理过程与数据仓库构建之间的紧密联系,加强理解数据清洗与预处理的重要作用,提高数据清洗工具如Kettle、Python的实操能力,对于拓展数据清洗技术技能有辅助作用。亦可用于专业教师教科研等工作的开展,方便师生查询、借阅。表3图书文献配备表序号教材名称作者出版社出版时间1数据清洗与ETL技术冯广清华大学出版社2022年04月2数据清洗黑马程序员清华大学出版社2020年04月3.数字教学资源配置自主开发资源:ppt、微课、试题库、案例等。(四)教学方法面对新的教学变革,采用线上线下混合式教学模式组织教学,在教学中渗透理实一体化、思政育人的教学理念
19、。该课程是大数据技术应用专业核心课程之一,在教学的过程中应注重锻炼学生的实操能力为主,把数据清洗与预处理的知识技能融入到课程的实操训练当中,通过本门课程的学习,学生能够使用相应的数据清洗工具完成结构化数据、非结构化数据的清洗与预处理任务。在教学过程中采用:讲演法、任务驱动法、项目教学法、案例分析法等教学方法,辅以餐垫法、工作站法、展览馆法等特色的教学组织方式,提升学生自主探究、合作学习的意识,培养良好的学习习惯;在每个学习单元,学生进行自主探究学习与小组合作讨论学习,加强操作训练;以企业生产过程中实际的工作任务作为案例,在实践中引导学生学会分析问题、解决问题。在教学过程中应充分利用实训环境,按
20、照行动导向六步骤,采用任务驱动法等教法,引导学生开展自主、探究、合作的学习活动,在实践中引导学生学会分析问题、解决问题。通过教师示范操作,强调岗位标准,强化学生的职业规范,提升学生数据清洗与预处理实操技能,提高学生自主探究的能力,逐步养成严谨科学的职业习惯。在解决问题的过程中,学生养成耐心、细致、精益求精的工作态度,强化学生的质量意识。本课程在课堂上除了板书讲解等教学手段外,还采用多媒体教学课件、学习网站、视频演示、模拟系统,职教云平台等现代化教学手段,使用了大数据、人工智能、虚拟仿真实训等信息技术,以提高学生的学习兴趣、拓展学习方法,使学生可以有更多的途径获取知识和技能。(五)教学评价严格落
21、实培养目标和培养规格要求,围绕大数据技术应用专业的人才培养目标,通过教师、企业、学生三个评价主体从核心素质、关键知识、综合能力、实践成果四个维度,通过课堂评价(占比20%).项目评价(占比50%).课程评价(占比30%)三种形式收录反映学生成长过程和发展水平的描述与实证材料,全面评价学生综合素质,客观反映学生的个性差异和特长,突出评价对学生全面发展的促进作用。1.课堂评价(20%):通过教师评价、学生互评、学生自评三个主体侧重核心素质的评价。课堂评价采用线上线下混合评价方式,借助职教云、雨课堂、云班课等信息化平台对学生在课堂上的学习过程、互动情况等展开评价,结合学生自评、互评等多种评价方式,利
22、用数字信息化直观展示学生的整体情况,让教师在课程中帮助学生更清晰的认识自己。学习笔记的检查20%(学生将学习笔记在规定时间内拍照上传信息化平台):评价标准为四级式:A、B、C、D,要求完整、字迹工整、有重点、难点的标记。学习材料的保存15%(教师线下课堂检查):评价标准为四级式:A、B、C、D,要求完整、字迹工整、有错误工作页进行了正确的修改。教师评价40%(借助信息化平台开展评价):学生出勤(10舫、学习成果展示(10%)s学习过程表现(师生互动、课堂练习、随堂测试等)(10%).实操(10%)o学生互评15%:组内其他同学的评价(10%),组外同学的评价(5%)。学生自评10%:自己对自己
23、的评价。2.项目评价(50%):阶段测评项目评价以小组为单位,进行综合素质评价及每一个项目作品成果评价,针对每一个项目,累计各个工作阶段实施评分、素质评分、项目成果评分,将评分数据由学习平台进行统计,最终项目结束后按照评分公布优秀项目组,学生素质通过多维能力雷达图展示,实现学生的增值性评价,学生养成职业认同感。其中素质评分表如下表所示,每个项目素质评价内容相同,各项目评价考核表详见附件1项目评价考核明细表,每个项目考核内容不同。表4素质评分表团队姓名评价项目考勤仪容仪表工位整洁有序对待工作任务的态度对待工作任务的整体把控能力自主学习能力团队沟通、协作能力创新能力素质成绩第组3.课程评价(30%
24、):期末考试理论考试(30%):试卷,从试题库中抽取100分的试题进行考核,试题类型有主观题:80%,填空题、选择题和判断题组成;客观题:20%,简答题、论述题。考核时间为:90分钟、闭卷。考核内容为:学习内容中涉及到的所有内容,重点为技术类要求掌握的知识以及其它能够用试卷考核的内容。项目测试(70%):为学生提供5个真实案例项目,每个小组随机抽取一个工作项目,并且按照任务书的要求完成1个完整的工作项目。考核时间:6节课。前四节课为项目制作,最后两节课为项目结果说明展示。考核人员:企业员工和专业教师组成。考核内容:电商商品数据清洗与预处理、电商用户评论数据清洗与预处理、智能制造数据清洗与预处理
25、、学生信息管理数据清洗与预处理、动物图像数据清洗与预处理。重在考核学生通过运用综合能力,做出的实践成果,详见附件2数据清洗与预处理课程综合评价表。附件L项目评价考核明细表1)考核项目1一一电商商品数据清洗与预处理考核项目1电商商品数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目1一一电商商品数据清洗与预处理考核评价表班级:姓名:学号:考核项目1电商商品数据清洗与预处理序号评价标准分值自我评价30%小组评价30%教师评价40%1能够准确介绍电商商品数据的基本信息,能够做到可视化展示102能够介绍数据清洗工具KettIe的安装与配置步骤,并演示测试用例203能够快速使用KettIe导
26、入电商商品数据,并使用相关的控件展示原始数据204能够准确使用KettIe提供的转换控件完成数据预处理任务,并能总结预处理所使用的方法305能够独立完成从Kettle导出数据的任务,使用相关工具展示经过预处理后的商品数据集,与原始数据对比说出前后的变化20合计1002)考核项目2电商用户评论数据清洗与预处理所示:考核项目2电商用户评论数据清洗与预处理考核评价表班级:姓名:学号:考核项目2电商用户评论数据清洗与预处理序号评价标准分值自我评价30%小组评价30%教师评价40%1能够快速使用相关工具展示原始电商用户评论数据,判断数据质量情况202能够正确处理数据中文编码乱码问题,给出解决方案153能
27、够正确介绍PythOn使用正则表达式处理文本的步骤,快速使用正则表达式处理文本数据存在的问题254能够熟练使用Python第三方库完成中文分词处理205能够使用Python第三方库完成数据的预处理任务,总结所使用的预处理方法2()合计1003)考核项目3一一智能制造数据清洗与预处理考核项目3智能制造数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目3一一智能制造数据清洗与预处理考核评价表班级:姓名:学号:考核项目3智能制造数据清洗与预处理序号评价标准分值自我评价30%小组评价30%教师评价40%1能够快速介绍智能制造设备运行数据的字段含义及特点,制定数据清洗与处理的策略202能够熟
28、练安装、部署PythOn第三方库ParIdas,介绍核心数据结构DataFranIe的特性和使用方法103能够使用PandaS对数据进行描述性分析,比较infoO和describeO函数的使用场景204能够快速使用PandaS完成智能制造数据清洗与预处理任务,介绍数据预处理的完整过程305能够熟练使用PandaS导出预处理的数据,熟练使用相关配置参数,获得目标数据格式20合计1004)考核项目4一一学生信息管理数据清洗与预处理考核项目4学生信息管理数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目4学生信息管理数据清洗与预处理考核评价表班级:姓名:学号:考核项目4学生信息管理数据清
29、洗与预处理序号评价标准分值自我评价30%小组评价30%教师评价40%1能够正确介绍学生信息管理数据在各个业务数据库的分布情况,制定相应的数据清洗与预处理策略。102能够熟练掌握Kettle的操作规范流程103能够独立完成多源数据导入Kettle,并展不导入结果304能够熟练使用KettIe创建数据合并、转换、去重、排序等转换实例,并执行305能够快速从Kettle中导出数据,并展示处理结果20合计1005)考核项目5一一动物图像数据清洗与预处理考核项目5动物图像数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目5一一动物图像数据清洗与预处理考核评价表班级:姓名:学号:考核项目5动物
30、图像数据清洗与预处理序号评价标准分值自我评价30%小组评价30%教师评价40%1能够准确介绍数字图像的定义、存储方式等基础知识102能够快速安装、配置图像数据处理有关的PythOrl第三方库103能够编写Python程序读取图像数据,并可视化展示204能够快速完成速图像旋转、缩放、平移、裁剪等操作255能够快速完成速图像模糊、图像锐化、阈值化等图像预处理任务256能够将经过预处理的动物图像数据保存为规定格式,并能说出不同图片格式的差异点10合计100附件2:数据清洗与预处理课程综合评价表数据清洗与预处理课程综合评价表序号姓名课堂评价(20%)项目评价(50%)课程评价(30%)学习笔记(20%)学材保存(15%)教师评价(40%)同学评价(15%)自评(10%)项目项目项目项目四项目五理论考试(30%)项目测试(企业参与)(70%)123456789