2024年应用及操作处理大数据技能知识考试题库与答案.docx

资源描述

《2024年应用及操作处理大数据技能知识考试题库与答案.docx》由会员分享，可在线阅读，更多相关《2024年应用及操作处理大数据技能知识考试题库与答案.docx（29页珍藏版）》请在课桌文档上搜索。

1、2024年应用及操作处理大数据技能知识考试题库与答案一、单选题1 .图像平滑会造成什么效果？A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确参考答案：A2 .在处理非结构化数据时，哪种技术常用于提取有用信息？A.数据清洗8 .文本挖掘C.数据聚合D.统计分析参考答案：B3.在数据科学项目中，数据科学家如何验证模型的泛化能力？.在训练数据集上进行测试B.在验证数据集上进行测试C.在未见过的测试数据集上进行测试D.通过交叉验证参考答案：C4 .在数据科学中，哪种方法常用降维以减少数据的复杂度？A.标准化B.正规化C.主成分分析（PCA）D.交叉验证参考答案：C5 .以下哪个不是数

2、据预处理阶段的常见步骤？A.数据清洗8 .数据集成C.数据可视化D.数据转换参考答案：C6 .在使用决策树算法时，哪个参数可能导致模型过拟合？A.树的深度B.最小样本分割数C.两者都可能D.两者都不可能参考答案：C7 .在数据仓库中，数据集市(DataMart)与数据仓库的主要区别是什么？A.数据集市包含的数据量更小8 .数据集市不需要ET1.过程C.数据集市是面向特定业务部门的D.数据集市不支持复杂查询参考答案：C8.以下哪个不是机器学习中的监督学习算法？A.K-最近邻B.决策树C.K-11eans聚类D.逻辑回归参考答案：C9.在处理时间序列数据时，哪种方法常用于平滑数据以减少噪声？A.移

3、动平均B.傅里叶变换C.标准化D.决策树参考答案：A10.在数据科学项目中，哪个步躲通常用于发现数据中的隐藏模式或关系？A.数据清洗B.数据可视化C.特征工程D.建模与预测参考答案：B11.在数据科学项目中,特征选择(FeatUreSe1.ection)的主要目的是什么？A.减少计算时间B.提高模型的可解释性C.两者都是O.两者都不是参考答案：C12.以下哪个不是数据清洗(DataC1.eaning)过程中可能遇到的挑战？A.缺失值处理B.异常值检测C.数据加密D.数据类型不一致参考答案：C13.以下哪个不是A/B测试中的关键要素？,实验组和对照组B.假设检验C.数据可视化D.样本大小计算参考

4、答案：C14 .在进行数据清洗时，处理异常值(OUt1.ierS)的一种常用方法是什么？A.填充为中位数或众数B删除异常值所在的行或列C.使用插值法进行填充D.标准化或归一化数据参考答案：B15 .以下哪个不是数据挖掘的常用技术？A.关联规则挖掘B.聚类分析C.回归分析D.神经网络参考答案：D16.以下哪个不是K-means聚类算法可能面临的挑战？A需要预先指定聚类数量(K值)B.对初始聚类中心的选择敏感C.只能处理球形簇D.无法处理大规模数据集参考答案：D17.以下哪个不是自然语言处理(N1.P)中的任务？A.情感分析B.命名实体识别C.回归分析D.机鼎翻译参考答案：C18.在数据科学项目中

5、，A/B测试的结果如何统计上显著？A.当且仅当实验组和对照组的差异在统计上显著时B.当实验组的性能始终优于对照组时C.当实验组的性能标准差小于对照组时D.当实验组的样本数量大于对照组时参考答案：A19 .在使用随机森林进行特征重要性评估时，哪个指标通常用于衡量特征的重要性？A.特征在树中出现的次数B.特征在树中作为分裂节点的平均增益C.特征值的范围D.特征在数据集中的缺失率参考答案：B20 .以下哪个不是数据清洗过程中可能遇到的挑战？A.缺失值处理B.异常值检测与处理C.数据整合与合并D.数据加密与安全性(数据加密和安全性更多是关于数据保护，而不是数据清洗的直接挑战)参考答案：D21 .关于S

6、Park的说法中，哪个是错误的？A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作参考答案：C22 .对数值型输出，最常见的结合策略是？A、投票法B、平均法C、学习法D、排序法参考答案：B23 .以下属于考虑词语位置关系的模型有？A、词向量模型B、词袋模型C、词的分布式表示D、TF-IDF参考答案：A24 .对于SVM分类算法，待分样本集中的大部分样本不是支持向量，下列说法正确的是？A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对参考答案：C25

7、 .在数据仓库中，哪种类型的事实表通常包含详细的业务活动数据？A.累积快照事实表26 事务事实表C.周期快照事实表D.无事实表（此选项不符合实际，仅为排除项）参考答案：B26.哪种类型的机器学习算法不依赖于数据实例的标签进行训练？A.监督学习B.无监督学习C.半监督学习D.强化学习（强化学习虽然不完全依赖标签，但它通常涉及奖励信号，不完全等同于无监督学习）参考答案：B27.在数据科学中，A/B测试主要用于什么目的？A.评估不同机器学习算法的性能B.评估不同数据预处理方法的效果C.评估网站或应用的不同版本对用户行为的影响D.评估不同数据可视化工具的优劣参考答案：C28.在使用深度学习进行图像分类

8、时，哪个层通常用于输出最终的分类结果？A.卷积层B.池化层C.全连接层（或称为密集层）D.激活层（但这里特指用于输出的激活层，如SoftmaX）参考答案：D29.在数据科学项目中，哪个步骤通常涉及将原始数据转换为可用于模型训练的形式？A.数据收集B.数据清洗C.特征工程D.模型训练参考答案：C30.当图像通过信道传输时，噪声一般与什么无关？A.信道传输的质量B.出现的图像信号C.是否有中转信道的过程D.图像在信道前后的处理参考答案：B31.在留出法、交叉验证法和自助法三种评估方法中，哪种更适用于数据集较小、难以划分训练集和测试集的情况？,留出法B.交叉验证法C.自助法D.留一法参考答案：C32

9、.在数据科学中，通常可以采用哪种方法有效避免数据加工和数据备份的偏见？A.A/B测试B.训练集和测试集的划分C.测试集和验证集的划分参考答案：B33.下列不属于深度学习内容的是？,深度置信网络B.受限玻尔兹曼机C.卷积神经网络D.贝叶斯学习参考答案：D34 .在大数据项目中，哪个阶段可能涉及使用数据工程师来优化数据查询性能？A.数据采集B.数据清洗C.数据存储与管理D.数据分析与可视化参考答案：C35 .以下哪个不是NOSQ1.数据库的特点？A.不保证事务的ACID特性B.易于扩展C.支持复杂的SQ1.查询D.灵活的数据模型参考答案：C36 .在数据仓库设计中，星型模式与雪花模式的主要区别在于

10、？.存储的数据量B.表的连接方式C.数据更新的频率D.数据的来源参考答案：B37 .以下哪种算法常用户推荐系统中，基了用户的历史行为预测其兴趣?参考答案：ABD46.RDD具有()和O特征。A.可容错性；B.简洁性;C.并行数据结构；D.结构化；参考答案：AC47.以下哪层是卷积神经网络的组成部分。A.卷积层B.中间层C.池化层D.全连接层参考答案：ACD48.神经网络的拓扑结构可.以分为()和随机型网络等。A.前向型B.后向型C.反馈型D.自组织竞争型8. JSON格式可以表示比二维数据还复杂的高维数据C.二维数据可以看成是一维数据的组合形式D.字典不可以表示二维以上的高维数据参考答案：AB

11、C52 .下列哪些项属传统循环神经网络的性质0A.上一时刻的网络状态信息将会作用于下一时刻的网络状态B.并行处理序列中所有信息C容易梯度爆炸/消失D.易于搭建参考答案：AC53 .关于总体和样本的说法,正确的是：A.总体也就是研究对象的全体B.如果总体是某一条生产线上生产的全部产品，那么样本可以是每间隔10秒抽取的产品C.样本是从总体的随机抽样D.如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生54 .数据可视化涉及到O等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。A.计算机图形学B.图像处理C.计算机视觉D.计算机辅助设计参考答案：ABCD55

12、 .下列场景适合使用Python的是()。A.可作为脚本语言,快速编写小型程序、脚本等B.可应用在数据科学、交互式计算及可视化领域C.可作为胶水语言,整合如C+等语言代码O.Python适用于低延时、高利用率的应用场景参考答案：ABC56 .下列关于PCA说法正确的是()。A.在使用PCA之前,我们必须标准化数据B.应该选择具有最大方差的主成分C.应该选择具有最小方差的主成分D.可以使用PCA在低维空间中可视化数据57 .以下哪几项属于汉语未登录词的类型()。,存在于词典但出现频率较少的词B.新出现的普通词汇C.专有名词D.专业名词和研究领域名称参考答案：BCD58 .以下关于降维方法,叙述正

13、确的是O。A.主成分分析是一种常用的非线性降维方法B.核化线性降维是一种常用的线性降维方法C.流形学习是一种借鉴拓扑流形概念的降维方法D.度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习参考答案：CD59 .关于降维说法正确的是O。A.PA是根据方差这一属性降维的B.降维可以防止模型过拟合C.降维降低了数据集特征的维度D.降维方法有P1.A等60 .大数据的资产属性体现在()。,具有劳动增值B.涉及法律权属C.具有财务价值D.涉及道德与伦理参考答案：ABCD61 .以下算法中可以应用;图像分割的是0。A.边缘检测技术B.阈值分割技术C.基区域的分割技术D.区域生长方法参考

14、答案：ABCD62.下列关于密度聚类说法错误的是(_)。A.DBSCAN是种著名的密度聚类算法B.密度聚类从样本数量的角度来考察样本之间的可连接性C.密度聚类基于不可连接样本不断扩展聚类簇易获得最终的聚类结果D.密度直达关系通常满足对称性参考答案：BCD63.随机森林在做数据处理方面有什么优势()。A.不需要做缺失值处理B.不需要处理噪音C.不需要做特征选择D.不需要平衡数据集参考答案：ACD64.特征向量的归一化方法有哪些OA.线性函数转换B.对数函数转换C.反余切函数转换D.减去均值,除以方差参考答案：ABCD65.“以数据为中心”是数据产品区别于其他类型产品的本质特征,表现在()方面。A

15、.数据驱动B.数据密集型C.数据范式D.数据可视化参考答案：ABC66.以下关于集成学习的说法正确的是：()。A.随机森林是减少模型的方差,而GBDT是减少模型的偏差B.组成随机森林的树可.以并行生成,而GBDT是串行生成C.随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和参考答案：ABC67.常用的数据审计方法可以分为O。A.预定义审计B.自定义审计C.可视化审计D.结构化审计参考答案：ABC68.随机森林的随机性主要体现在()。A.决策树选择的随机性B.数据集的随机性C.待选特征的随机性D.参数选择的随机性参考答案：BC69.有两种策略常用来缓解BP网络的过拟合,分别是O和0。

16、A.晚停B.早停C.正则化D.加入损失函数参考答案：BC70.预剪枝使得决策树的很多分子都没有展开，会导致OoA.显著减少训练时间开销B.显著减少测试时间开销C.降低过拟合风险D.提高欠拟合风险参考答案：ABCD71.一个监督观测值集合会被划分为0。A.训练集B.验证集C.测试集O.预处理集参考答案：ABC72 .关丁梯度消失和梯度消失，以下说法正确的是：(_)。73 .A.根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是99,在经过足够多层传播之后，误差对输入层的偏导会趋于0B.可以采用Re1.U激活函数有效的解决梯度消失的情况C根据链式法则，如

17、果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大D.可以通过减小初始权重矩阵的值来缓解梯度爆炸参考答案：ABCD74 .循环神经网络主要被应用于哪些场景(_)。A.语音识别B.语音建模C.机渊翻译0.图像识别参考答案：ABC75 .以下属于频率域图像滤波的方法有()。A.中值滤波B.均值滤波C.布特沃斯滤波D.高斯滤波参考答案：CD76 .卷积神经网络中常用的池化函数包括O。A.最大池化函数B.1.2范数C.相邻矩形区域内的平均值D.基于据中心像素距离的加权平均函数参考答案：ABCD77.ET1.技术主要涉及O操作。.抽取B.转

18、换C.加载D.分析行运算,并计算出最终结果。参考答案：ABCD131.针对维数灾难，我们主要采用的降维方法有哪些OoA.多维缩放B.主成分分析C核化线性降维D.流形学习E、度量学习参考答案：ABCDE132.特征工程一般需要做哪些工作()。,正则化B.标准化C.特征处理D.特征选择参考答案：CD133.图像识别的精度会受到以下那些因素的影响()oA.数据类别数量不平衡B.输入图像尺寸不同C.基于统计的分词方法D.基于阅读的分词方法参考答案：ABC140.可视分析学是一门以可视交互为基础，综合运用（）等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的分析推理学科。A.物理学B.图

19、形学C.数据挖掘D.人机交互参考答案：BCD141.下列模型属于机器学习生成式模型的是O。A.朴素贝叶斯B.隐马尔科夫模型C.线性回归模型D.深度信念网络参考答案：ABD142 .可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作O。A.能够直观反映成对数据之间的空间关系B.能够直观反映多维数据之间的空间关系C.能够静态演化事物的变化及变化的规律D.能够动态演化事物的变化及变化的规律E、提供高性能并行计算技术的强力支撑参考答案：BD143 .下面关于reduce函数功能描述正确的是()。A.合并VaIUe值,形成较小集合B.采用迭代器将中间值提供给reduce函数C.map()函数处

20、理后结果才会传输给reduce()D.内存中不会存储大量的VaIUe值参考答案：ABCD144.下列哪些是情感分析的途径O。A.关键词识别B.数据增强C.统计方法D.概念级技术参考答案：ABCD145.下列哪些是面向对象技术的特征O。A.封装B.继承C.多态D.分布性参考答案：ABC146.任何函数都可以修改,所以尽量少用全局变量，主要原因包括()。A.不够安全B.一直占用内存C.容易失效0.一直占用字符参考答案：AB147 .交叉检验模型评估较差可能是由于()原因导致的。A.模型过拟合B.模型欠拟合C.模型过度复杂D.模型过度简单参考答案：ABCD148 .文本分类过程包括0。A.选择训练文

21、本B.选择文本特征C.建立文本表示模型D.选择分类方法参考答案：ABCD149 .长短时记忆神经网络三个门是哪些()A.进化门B.输出门C.输入门D.遗忘门参考答案：BCD150 .数据管理指对数据生命周期的每个阶段里可能引发的各类数据质量问题，进行()等一系列管理活动，并通过改善和提高组织的管理水平是的数据质量获得进步提高。A.识别B.度量C.监控D.预警参考答案：ABCD151 .以下属于自然语言处理范畴的是()。A.情感倾向分析B.评论观点抽取C.文章分类D.新闻摘要抽取参考答案：ABCD152 .PythOn函数包括下述哪些内容O。A.函数名称B.参数C.执行语句D.返回值参考答案：ABCD153 .关于数据产品研发，下列说法错误的是O。A.从加工程度看，可以将数据分为一次数据、二次数据和三次数据B.一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C.二次数据是对次数据进行深度处理或分析后得到的“增值数据”

展开阅读全文