《第5章建立回归模型.docx》由会员分享,可在线阅读,更多相关《第5章建立回归模型.docx(5页珍藏版)》请在课桌文档上搜索。
1、第5章建立回归模型一、教学目标1 .理解回归模型的基本思路和理论框架,能够识别回归模型适用的典型业务场景;2 .理解回归模型的3要素,以及线性回归和逻辑回归的基础理论知识;3 .掌握使用Excel建立和检验线性回归模型和逻辑回归模型的方法;4 .掌握解读线性回归模型和逻辑回归模型的结果,以及基于模型做出业务改进建议的方法;5 .掌握数据分析报告模型分析与解读部分的写作方法。二、教学方式与课时安排1 .课堂讲授:6学时2 .演示汇报:3学时三、教学重点与难点本章内容包含较多统计学技术细节。对于非数据科学专业学生的数据技能训练课程,或数据科学专业新生的专业基础课,学生可能缺乏全面理解其中部分技术细
2、节的知识储备。本书提供了一些配套微课讲解这些相关内容。如学生程度较好或学时较为富余,老师可配合微课较为深入、详尽地介绍相关内容。但仍建议将授课重点放在理解回归分析的思路框架,帮助学生建立用回归方法剖析问题的思路上,即优先理解回归模型“可以解决什么问题”“如何将一个业务问题规范为一个回归问题”“如何使用一个回归模型结果解决业务问题”“为什么要选用这样的模型形式”“这个目标函数的含义是什么”,其次才是回归模型“如何推导”“如何估计”“如何评价”“如何检验”等。系统地学习回归分析中的技术性内容可留待统计学或回归分析等课程。本课程的教学重点仍然是学会用数据的思路去剖析和解决实际问题,学生可以在软件输出
3、结果中找到并使用与模型估计、评价、检验相关的指标并对其做出解读即可。四、教学过程3 .课堂讲授:6学时(1)导入(45分钟):a.讲解。老师回顾图1.2,讲解模型分析的重要性。b.讲解。老师介绍案例背景。c.讲解。老师讲解回归模型的基本构成元素:一个可量化的关键业务要素Y,多个可量化且对关键指标有影响力的X,Y与X之间的关联关系。d.提问。老师根据案例背景和回归模型的基本构成要素,提问学生在“知识网红”案例中可以定义哪些Y、每一个Y应当如何定义。e.讨论。学生分组,一半小组指定题目“哪些专家可以成为知识网红”,一半小组指定题目“什么样的话题更受欢迎”。各小组基于章案例数据讨论Y是什么、X有哪些
4、、每个X对于Y的影响预估是什么样的(正相关还是负相关、影响力大小等)。这个过程要注意引导学生,并非所有的数据都是现成准备好的,要根据自己的建模需求进行加工,可作为第三章相关内容的回顾(比如在“哪些专家可以成为知识网红”这个问题中,原始数据中并没一个现成的变量“是否是知识网红”,就需要学生自己根据专家的业务量做出划分)。两个题目各选择代表小组上台陈述,老师做出提问和点评,点评主要基于回归模型的基本构成要素的框架来进行。(2)五种常见的回归模型(20分钟)a.讲解。老师介绍五种常见的回归模型。b.提问。老师列举各类典型场景,学生回答应当使用哪种回归方法、如何定义Y,可以考虑寻找哪些X。(3)线性回
5、归模型-导入(10分钟)a.讲解。老师回顾线性回归适用的Y,详细讲解Y连续在实际中的处理方式。讲解X的重要性。b.提问。老师提出一些实际数据的例子,学生回答,是否可使用线性回归模型,并回答理由;尽可能多地列举出可能的X,并陈述可以从哪个数据源获取相关数据,是否需要对数据进行一定的加工,是否有一些X难以获取、是否可替代等。(4)线性回归模型-理论(40分钟)a.讲解。老师讲解使用线性回归模型分析数据的基本流程,确定场景适用、确定数据符合模型基本假设(如不符合可做一定转换)、估计模型、检验模型、通过变量选择等方法调整模型形式、评价模型、诊断残差、解读模型、应用模型。b.讲解。老师讲解线性回归模型的
6、基础形式,重点理解参数的含义。c.讲解。老师讲解线性回归模型的基本假设,重点理解线性关系、如过数据呈现非线性关系要如何处理。d.讲解。老师讲解线性回归模型的参数估计,重点理解理解目标函数的含义,即为什么以它为目标函数。e.讲解。老师讲解F检验和t检验,重点理解两个检验的零假设和备择假设分别是什么含义,实践中希望看到什么样的检验结果。如果看到F检验通过而部分变量t检验未通过的情况,要进行变量选择。重点理解如果不进行变量选择则模型不稳定,预测结果不可靠。f.讲解。老师讲解线性回归模型的评价,重点理解:R2公式所表达的意义:衡量模型可以解释的数据变动在整体数据变动中所占的比例。g.讲解。老师讲解线性
7、回归模型残差中几种典型问题,重点理解每种问题产生的原因、可使用的解决方法。h.提问。老师以提问形式带领学生回顾线性回归模型相关的知识点,提问重点是bg中要求重点的理解的内容。(5)线性回归模型-实现(25分钟)a.演示。老师演示5.2.1和5.3.2小节中安装插件、建立线性回归模型、根据建模结果改进线性回归模型等相关操作;如学生程度较好,可由老师提出要求,学生自行完成操作。b.提问。老师展示模型结果,由学生逐一找到(4)dg中相关的结果,并对结果做出解读,老师对回答做出评价,复习线性回归模型相关理论知识。(6)线性回归模型解读(15分钟)a.讲解。老师讲解如何对线性回归模型参数做出解读。可借助
8、微课5-8进行翻转课堂。b.提问。老师展示图5.16,学生回答结果中各部分的用途、并根据数据对模型的可靠性等做出评价,对模型结果做出具体解读。通过复习再次回顾线性回归相关的知识。c.提问。老师展示图5.16,给出几组X值,要求学生应用模型计算预测值,并将模型预测结果转化为Y的原始量纲,对预测结果的可靠性做出评价。可适度发散,通过预测实例引导学生思考:比较用于预测的X取值位于用于建模的X取值范围内,和两者相差过大两种情况,对预测预测结果的可靠性是否有影响。(7)逻辑回归模型导入(10分钟)a.讲解。老师回顾逻辑回归适用的Yo讲解在编码时如何确定正事件和负事件。b.提问。老师要求学生举出一些适用逻
9、辑回归的实际问题,并明确在这些场景中Y应如何定义,可选取哪些X,数据都可从何渠道获得。(8)逻辑回归模型-理论(40分钟)a.讲解。老师讲解使用逻辑回归模型分析数据的基本流程,与线性回归相似。b.讲解。老师讲解逻辑回归模型的基础形式,重点在LOgit变换:为什么要进行这个变化(Y是0-1变量,通过变换可以套用线性回归的模型形式);通过变换套用线性回归模型形式,但为什么没有误差项(可借助微课5-9进行翻转课堂)。c.讲解。老师讲解逻辑回归模型的参数估计,重点理解理解目标函数的含义,即为什么以它为目标函数。d.讲解。老师讲解评价逻辑回归模型的常用指标,重点理解临界值、混淆矩阵、灵敏度和特异性、Ro
10、C曲线和AUe值的定义和用途。e.提问。老师以提问形式带领学生回顾逻辑回归模型相关的知识点,提问重点是bd中要求重点的理解的内容,如:给出RoC曲线,要求选择临界值、计算AUC值,根据计算结果评价模型;给出TP、FN、TN、FP,要求计算TPR、FPR等指标,根据计算结果评价模型;针对同一问题,给出多个逻辑回归模型,要求学生选择哪个模型更好。(9)逻辑回归模型实现(25分钟)a.演示。老师演示5.2.1和5.4.2小节中安装插件、建立逻辑回归模型、根据建模结果改进逻辑回归模型等相关操作;如学生程度较好,可由老师提出要求,学生自行完成操作。b.讲解。老师讲解原始系数和指数化系数区别,如何在两者间
11、互换。c.提问。老师展示模型结果,由学生逐一找到(8)cd中相关的结果,并对结果做出解读,老师对回答做出评价,复习线性逻辑模型相关理论知识。(10)逻辑回归模型-解读(10分钟)d.讲解。老师讲解如何对逻辑回归模型参数做出解读。可借助微课5-11进行翻转课堂。e.提问。老师展示图5.21,学生回答结果中各部分的用途、并根据数据对模型的可靠性等做出评价,对模型结果做出具体解读。通过复习再次回顾线性回归相关的知识。f.提问。老师展示图5.21,给出几组X值和不同的临界值,要求学生应用模型计算预测值,引导学生观察临界值选取对于预测结果的影响,对预测结果的可靠性做出评价。(Il)数据分析报告写作(25
12、分钟)a.讲解。老师讲解数据分析报告中模型分析部分的重要性和写作方法。b.讨论。学生分组,每组分到一个模型结果(图5.16或图5.21)+一种报告形式(文字版或演示版),所有小组应覆盖全部4种组合。学生讨论列出在指定形式的数据分析报告中汇报相关模型的详细内容大纲。文字版报告要列出每个自然段的段落大意,并将引用的相关图表也插入到相关位置。演示版报告要列出每一页PPT的内容摘要+该页要呈现的图表。完成后部分小组进行汇报,老师做出评价反馈。全部汇报完成后,老师可对4种组合做一定对比,帮助学生复习第2章相关知识。4 .演示汇报:3学时(1)学生分组汇报,老师点评。(2)点评中请注意几类学生在初学时经常遇到的问题并进行矫正:a.在建立和优化模型时对于某些指标理解不到位,模型尚有可优化空间。b.对于模型评价指标理解不到位或汇报不全面。c,只有技术细节,没有对模型的解读和应用。d.在应用模型进行预测时,对其实际意义理解错误或不够深入。(3)要求学生根据点评再次修改并提交报告。