2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx

上传人:夺命阿水 文档编号:1656631 上传时间:2024-11-24 格式:DOCX 页数:117 大小:104.01KB
返回 下载 相关 举报
2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx_第1页
第1页 / 共117页
2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx_第2页
第2页 / 共117页
2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx_第3页
第3页 / 共117页
2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx_第4页
第4页 / 共117页
2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx_第5页
第5页 / 共117页
点击查看更多>>
资源描述

《2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx》由会员分享,可在线阅读,更多相关《2024年数据价值挖掘技能竞赛考试题库大全-下(多选题汇总).docx(117页珍藏版)》请在课桌文档上搜索。

1、2024年数据价值挖掘技能竞赛考试题库大全一下(多选题汇总)多选题1 .与自然语言处理相关的工具包Jieba,、Gensim.4N1.TK14SCikit-1.earn的区别是。A、Jieba专注于中文分词操作B、N1.TK主要用于一般自然语言处理任务(标记化,POS标记,解析等)C4GenSim主要用于题和向量空间建模、文档集合相似性等D、Scikit-Iearn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档骄率特征提取(TfidfVeCtoriZer)等。答案:ABCD2 .下面哪些函数中,是有效的类构造函数有。Axdef_1.nit_(se1.f):def_

2、init_(se1.f,var=0):C、def_init_):D4ef_init_(se1.f.a.b.c):答案:ABD3 .以下图像技术中属于图像处理技术的是。A4图像编码Bx图像合成C、图像增强D4图像分类答案:AC4 .可视化高维展示技术在展示数据之间的关系以及数据分析结果方面。A、能够直观反映成对数据之间的空间关系B、能够直观反映多维数据之间的空间关系C、能够静态演化事物的变化及变化的规律。、能够动态演化事物的变化及变化的规律答案:BD5 .Python函数包括下述哪些内容。A、函数名称B4参数C、执行语句O4返回值答案:ABCD6 .情感分析的应用场景有O。A、数据挖掘B4信息检

3、索C4文本分词D4市场营销答案:ABD7 .如果希望减少数据集中的特征数量,则可以采取的措施是。.A、使用正向选择法(ForwardSeIection)使用反向消除法(BaCkWardE1.iEination)G逐步选择消除法(Stepwise)D计算不同特征之间的相关系数,删去相关系数高的特征之一答案:ABCD8 .参数估计可以分为O。A、点估计B、一致估计C4区间估计D4无偏估计答案:AC9 .在正则化公式中,入为正则化参数,关于人的描述正确的是()。A4若正则化参数人过大,可能会导致出现欠拟合现象B4若人的值太大,则梯度下降可能不收敛Cv取一个合理的人值,可以更好地应用正则化O4如果令人

4、的值很大的话,为了使COStFUnCtion尽可能的小,所有的值(不包括60)都会在一定程度上减小答案:ABCO10 .直方图修正法包括()。A.直方图统计B4直方图均衡C、直方图过滤Dv直方图规定化答案:BD11 .实时计算类应用主要通过。来实现。A4流计算蛆件B4内存计算组件GMPP数据库D4HadOoP的后台定时分析计算任务答案:AB12 .神经网络的拓扑结构可以分为()和机型网络等。A4前向型B4后向型C4反馈型D4自组蛆竞争型答案:ACD13 .下面关于连续型随机变量以及连续型概率密度函数的说法,正确的是OA.“一个客服一天可能接听到多少个电话”是一个连续型随机变量B4正态分布是一种

5、连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D4连续型概率密度函数曲线下方的面积之和为1答案:BCD14 .ET1.技术主要涉及O操作。A、抽取C4加载Ds分析答案:ABC15 .关于Python分隔代码块,描述错误的是。A4内嵌代码的每一行,都比外面的if语句的缩进更多Bs代码以“begin”开头,“end”结尾C、每行代码的缩进都一致D4代码块被封装在花括号中答案:BCD16 .下面对范数规则化描述,正确的是。A、1.O是指向量中0的元素的个数B41.1范数是指向量中各个元素绝对值之和C、1.2范数向量元素绝对值的平方和再开平方D、1.O是指向量中非0的元

6、素的个数答案:BCD17 .常用的代价函数有A.均方误差Bv均方根误差C.平均绝对误差Dv交叉烦答案:ABCD18 .常见的图像降噪方式包括O.A4中值浅波Bv均值滤波C4平均滤波D4加权平均滤波答案:ABCD19 .以下选项中,属于MaPRedUCe特征的有().A4以主从结构的形式运行B4容错机制的复杂性C4任务备份机制的必要性D4数据存储位置固定答案:ABC20 .以下关于1.1.和1.2范数的描述,正确的是。.A.1.1.范数为X向量各个元素绝对值之和。Bv1.2范数为X向量各个元素平方和的1/2次方,1.2范数又称Euc1.idean范数或Frobenius范数C41.1范数可以使权

7、值稀疏,方便特征提取D41.2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD21 .图像数字化应该包括哪些过程。A、采样Bv模糊C4量化D、统计答案:AC22 .以下关于数据维度的描述,正确的是。A,采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据Cs二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据答案:ABC23 .最常见的分词算法可以分为。A4基于字符串匹配的分词方法B4基于理解的分词方法C4基于统计的分词方法D、基于阅读的分词方法答案:ABC24 .在SPark中,弹性分布式数据集的特点包括()。A、可分区

8、可序列化C、可直接修改D4可持久化答案:ABD25 .下列关于Ridge回归的说法,正确的是()。A、若入=0,则等价于一般的线性回归Bv若入=0,则不等价于一般的线性回归G若入=+8,则得到的权重系数很小,接近于零D4若入=+8,则得到的权重系数很大,接近与无穷大答案:AC26 .以下有关特征数据归一化的说法,正确的是。A、特征数据归一化加速梯度下降优化的速度B、特征数据归一化有可能提高模型的精度C4线性归一化适用于特征数值分化比较大的情况D、概率模型不需要做归一化处理答案:ABD27 .下列哪些是面向对象技术的特征包含。.A、封装B1继承Cx多态O4分布性答案:ABC28 .一个监督观测值

9、集合会被划分为。As训练集B4验证集C4测试集D.预处理集29 .。是Spark比MapReduce计算快的原因。As基于内存的计算Bv基于DAG的调度框架C4基于1.ineage的容错机制Dv基于分布式计算的框架答案:ABC30 .ET1.包含下列哪些过程O.A、数据抽取数据转换G数据加载D4数据展现答案:ABC31 .下列选项中属于传统循环神经网络的性质有()。A4上一时刻的网络状态信息将会作用于下一时刻的网络状态B4并行处理序列中所有信息C、容易梯度爆炸/消失D,易于搭建答案:AC32 .pt.axh1.ine(y=0.O,c=r,Is=-,1.w=2),对这句代码说法正确的是()。A、

10、在0.0处添加竖直参考线B、添加水平参考线Cs参考线是虚线形式D、网格线是红色的答案:BC33 .卷积神经网络中常用的池化函数包括。A、最大池化函数Bv1.2范数Cs相邻矩形区域内的平均值。、基于据中心像素距离的加权平均函数答案:ABCD34 .Spark的技术架构可以分为哪几层()。A4资源管理层B4Spark核心层C4应用层0月&务层答案:ABD35 .RNN在N1.P领域的应用包括。A4语言模型与文本生成B4机器膈译C4语音识别D4图像描述生成答案:ABCD36 .下列关于EM算法描述正确的是()。A4EM算法是常用的估计参数隐变量的利B、EM算法即是期望最大化算法C4EM算法常被用来学

11、习高斯混合模型的参数D4EM算法是一种迭代式的方法答案:ABCD37 .循环神经网络的输出模式包含()。Ax多输出B4单输出C4同步多输出D、异步多输出答案:ABD38 .下列不属于聚类性能度量内部指标的是。A、DB指数B、DUnn指数CxJaccard系数D、FM系数答案:CD39 .下面关于随机变量及其概率分布的说法,正确的是。A,随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C,扔5次硬币,正面朝上次数的可能取值是0、12、3、4、5,其中正面朝上次数为0与正面朝上次数为5的概率是一桂的D、扔5次硬币,正面朝上次数的可能取值是01、

12、2、3、4、5,其中正面朝上次数为5的概率是最大的答案:ABC40 .关于现阶段大数据技术体系,说法正确的是O.A4基础设施提供数据计算,数据存储数据加工(DataWrang1.ing或DataMUnging)等服务B、数据流处理统计工具,日志分析都属于常用的开源工具C4数据资源代表的是生成数据的机构D、数据源与APP为数据科学和大数据产业生态系统提供数据内容答案:ABcO41 .数据挖掘的主要功能包括概念描述、趋势分析孤立点分析及。等方面。A、关联分析分类和预测C、聚类分析D、偏差分析答案:ABCD42 .以下属于数据挖掘与分析工具的有()。A、Tab1.eauBvPythonCSPSSDv

13、A1.teyx43 .许多功能更为强大的非线性模型可在线性模型基础上通过引入。而得。A,层级结构Bv高维映射G降维Dv分类答案:AB44 .ET1.技术主要涉及()操作。A、抽取B、转换G加载D4分析答案:ABC45 .以下属于频率域图像灌波的方法有。A、中值滤波B4均值滤波C、布特沃斯滤波D4高斯浅波答案:CD46 .以下方法中可用于图像分割的有。A、霍夫曼编码B4分水岭算法D、区域增长法答案:BCD47 .以下对模型性能提高有帮助的是。A、数据预处理B4特征工程C4机器学习算法D4模型集成答案:ABCD48 .大数据的资产属性体现在。A4具有劳动增值B4涉及法律权属C、具有财务价值D、涉及

14、道德与伦理答案:ABCD49 .对于决策树的优点描述,正确的是()。Ax可读性强Bv分类速度快Cx只用于回归问题D4是无监督学习答案:AB50. HadoopMapReduce是MapReduce的具体实现之一,HadoopMapReduce数据处理过程涉及四个独立的实体,包括O,A、 C1.ientB、 JobTrackerCTaskTrackerDsHDFS答案:ABCD51 .在数据科学中,计算模式发生了根本性的变化从集中式计算分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是GoOg1.e云计算三大技术,这三大技术包括O。A、Had。PYARN资源管理器BvGFS分布式存储

15、系统C4MapReduce分布式处理技术D4BigTabIe分布式数据库答案:BCD52 .下面届于可视化高维数据技术的是().Av矩阵Bv平行坐标系C、星形坐标系D4散布图答案:ABC53 .随机森林在做数据处理方面的优势是。.A、不需要做缺失值处理B4不需要处理噪音C、不需要做特征选择D4不需要平衡数据集答案:ACD54 .回归分析有很多种类,常见的有。A、线性回归Bs系数回归C4逻辑回归D4曲线回归答案:ACD55 .使用极大似然估计的前提条件有。.A、数据服从某种已知的特定数据分布型Bv已经得到了一部分数据集C4提前已知某先验概率D4数据集各个属性相对独立答案:AB56 .基于Hado

16、op开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有OA、MapReduceBvSparkC、 HDFSDHBase答案:CD57. TF-IDF的缺点包含。A4字词的重要性随它在文件中出现的次数成正比Bv将一些生僻字误当作文档关键词C4只考虑特征词和文本之间的关系,忽略了一个特征项在不同类别间的分布情况D4没有考虑特征词的位置因素对文本的区分度答案:BCD58. 下面对范数规则化描述,正确的是。.A、1.O是指向量中O的元素的个数B、1.1.范数是指向量中各个元素绝对值之和C、1.2范数向量元素绝对值的平方和再开平方D、1.O是指向量中非0的元素的个数答案:B

17、CD59. Pandas中主要的数据结构是。.A、 DataBDataFrameCFrameD、Series答案:BD60 .若b=np.array(True.Fa1.se.Fa1.se),以下能输出Fa1.SeTrueTrue的是A、print(b-1)Btprint(b)C、print(np.1.ogica1.-not(b)D4print(b)答案:BC61 .下面关于reduce函数功能描述正确的是O。A、合并VaIUe值,形成较小集合B4采用迭代器将中间值提供给reduce函数C4map)函数处理后结果才会传输给reduce)D、内存中不会存储大量的VaIUe值答案:ABCD62 .字

18、符串的格式化可以使用。A、HBiformatCxinputD、+答案:AB63 .异常值的检测方法有。A,直接通过数据可视化进行观察B、通过统计分布进行判断C4通过相对距离进行度量D、通过相对密度进行度量64 .下列属于描述IJenSim库的特性的是O.A,训练语料的预处理B、主题向量的变换C4文档相似度的计算D.文章切分词语统计计算答案:ABC65 .以下。是SCiPystats可实现的连续随机变量方法。A、rvsB、pdfC、ppfD1cdf答案:ABCD66 .特征选择方法有。.A、IC赤池信息准则B、1.ARS嵌入式特征选择方法C、1.VW包裹式特征选择方法D4Re1.ief过滤式特征

19、选择方法答案:BCD67 .下列关于集合操作结果正确的有。Axname=d,4s,nameadd(,sd),name值为:,sd,d.s)B、name=,sd,d,s,namere11xve(s),name值为:sd,*dCname=(*sd,.d,s)namec1.ear),name值为:)D、name=*sd,d,s*nameupdate(,df,),name值为:sd,d,*f,s,j,)答案:ABC68 .Python中jieba库的基本实现原理是什么。.A4分析汉字与汉字之间的关联几率概率Bs分析汉字词组的关联几率概率C、根据用户自定义的词组进行分析D4还可以分析汉字与英文之间关联几

20、率概率答案:ABC69 .数据科学以数据尤其是大数据为研究对象,主要研究内容包括0.A4数据加工Bv数据管理C4数据计算D、数据产品开发答案:ABco70 .在PythOn中查看关键字,需要在PythOn解释器中执行。和().这两条命令。A%IiStkeywordB、importkeywordCvkeywordD、import,kw1.ist71 .大数据的资产属性体现在。A4具有劳动熠值B4涉及法律权属C4具有财务价值D、涉及道德与伦理答案:ABCD72 .以下说法正确的是。A4条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器B4在估计概率值时使用的拉普拉斯修正避免了因训

21、练集样本不充分而导致概率估值为零的问题C4由于马尔可夫链通常很快就能趋于平稳分布,因此吉布斯采样算法的收敛速度很快D4二分类任务中两类数据满足高斯分布且方差相同时,线性判别分析产生贝叶斯最优分类器答案:ABD73 .我们想要训练一个M1.模型,样本数量有100万个,特征维度是5000,面对如此大数据,有效地训练模型可以采取的措施是OA4对训练集随机采样,在随机采样的数据上建立模型B4尝试使用在线机器学习算法C、使用PCA算法减少特征维度答案:ABC74 .Spark中的SChedU1.er模块可以分为()A、DAGScheduIerB、ResourceScheduIerGTaskScheduI

22、erDxJobScheduIer答案:AC75 .下列哪些是传统RDBMS的缺点().A、表结构schema扩展不方便Bv全文搜索功能较弱C4大数据场景下I/O较高Dx存储和处理复杂关系型数据功能较弱答案:ABCO76 .ApacheFIume主要解决的是日志数据的收集和处理问踵,F1.ume的主要设计目的和特征是O。A、高可靠性B4可扩展性Cx管理复杂D4不支持用户自定义答案:AB77 .循环神经网络主要被应用的场景有。A、语音识别Bv语音建模C4机器爵译D4图像识别答案:ABC78 .RNN网络的激活函数要选用双曲正切而不是Siggd的原因有O.A4使用Siggd函数容易出现梯度消失B.S

23、iKnIod的导致形式较为复杂C4双曲正切更筒单D、SiKnIoid函数实现较为复杂答案:AB79 .完整性约束通常包括()A、实体完整性B4域完整性C、参照完整性D、用户定义完整性答案:ABCD80 .数据安全不仅包括数据保密性,还包括。A、完整性B4可用性C,不可否认性D4可审计性81 .Python的优点有QAs变量不用预定义类型Bv数据结构功能强大C4语言可解稗性强Dv变量类型固定答案:ABC82 .鉴别了多元共线特征,下一步可能的操作是()。A4移除两个共线变量不移除两个变量,而是移除一个Cv移除相关变量可能会导致信息损失,可以使用惩罚线性回归模型(如ridge或1.assorere

24、ssion)Ds-答案:BC83 .模块可以分为以下的通用类别包含().Av使用Python编写的.py文件Bs已被编译为共享库或D1.1.的C或C+扩展C4把一系列模块组织到一起的文件夹D4使用C编写并链接到Python解释的内置模块答案:ABeD84 .关于梯度消失和梯度爆炸,以下说法正确的是:(_)。A、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是099,在经过足够多层传播之后,误差对输入层的偏导会趋于OB4可以采用Re1.U激活函数有效地解决梯度消失的情况C、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在

25、经过足够多层传播之后,误差对输入层的偏导会趋于无穷大。、可以通过减小初始权重矩阵的值来缓解梯度爆炸答案:ABCD85 .数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括O。A4精确性B、可辨认性C4可分离性D、视觉突出性答案:ABco86 .以下。函数是累积函数.AxcumsumB、 argminCumprodD、argmax答案:AC87 .以下关于集成学习的说法,正确的是。.A、随机森林是减少模型的方差,而GBDT是减少模型的偏差B4组成随机森林的树可以并行生成,而GBDT是串行生成C、随机森林的结果是多数袤决表决的,而GBDT则是多棵树累加之和D、

26、-答案:ABC88 .在数据安全领域常用的P2DR模型中,P、D和R代表的是().At策略昉护C4检测Dv响应答案:ABCO89 .1.STM应用场景有()A、物译语言Bv语音识别C4图像识别D4股票预测答案:ABD90 .相对于HadooPMaPRedUce,SPark的特点有()A、通用性B4易用性Cv速度快D4容错性答案:ABC91 .对以下代码说法正确的是。.A.该图表是一个蓝绿色的散点图B4图表中有红色实线的网格线C、图表中有图例D4该图画的是Sin曲线答案:CD92 .数据增值存在于哪些过程中。A、数据对象的封装Bs数据系统的研发C4数据的集成应用Dx基于数据的创新答案:ABCO9

27、3 .可能导致交叉检验模型评估较差可能是由于。的原因导致的有。A、模型过拟合Bv模型欠拟合Cv模型过度复杂D4模型过度简单答案:ABeD94 .在选择高斯函数作为核函数的支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则导致该结果的原因有可能是OA4其他参数保持不变,C值过大Bv其他参数保持不变,C值较小C4其他参数保持不变,。较大D4其他参数保持不变,。较小答案:AD95 .下面是Python注释语句的是().A%,he1.IoB、he1.1.oCxhe1.1.oD4#答案:BD96 .下面关于随机变量及其概率分布的说法,正确的是。A4随机变量可以分为离散型随机变量和连续型随

28、机变量B4随机变量的概率分布指的是一个随机变量所有取值的可能性Cs扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为0与正面朝上次数为5的概率是一样的Ds扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率是最大的答案:ABC97 .以下方法是tf-idf的变种的有O。AvTFCBvEWCCvITCD、IG答案:AC98 .常见的聚类性能度量外部指标有。AxJaccard系数BvDB指数CvFM指数D、以上答案都正确答案:AC99 .聚类性能度量的指标主要分为外部指标和内部指标,其中属于内部指标的是O,A、JaCCard指数FM指数

29、GDB指数D、Unn指数答案:CD100 .影响聚类算法效果的主要原因有O.A4特征选取B,模式相似性测度C4分类准则D4已知类别的样本质量答案:ABCIO1.下面哪些是SPark的组件OA、SparkStreamingB、M1.ibCGraphXD、SparkR答案:ABC102.下列关于AUC面积的描述,正确的是O,A4UC被定义为ROC曲线下与坐标轴围成的面积B,AUC面积的值大于1C、A1.JC等于0.5时,则真实性最低,无应用价值D、AUC越接近1.0,检测方法真实性越高答案:ACO103 .MapReduce对mapO函数的返回值处理后才传给reduce()函数,其中涉及哪些操作。

30、A、合并B4排序C4分区D、抽样答案:ABC104 .特征选择的目的是。A、减少特征数量、降维B、使模型泛化能力更强C、增强模型拟合能力D、减少过拟合,答案:ABD105下面对1.DA判别分析的思想描述,正确的是O.A4同类样例的投影点尽可能近B、异类样例的投影点尽可能远C、同类样例的投影点尽可能远D、异类样例的投影点尽可能近答案:AB106 .列式数据库(如BigTabIe和HBaSe)以表的形式存储数据,表结构包括O等元素。A4关键字Bv时间戳G列簇D、数据类型答案:ABC107 .Numpy数组中将一个数组分割成多个小数组数组的分割函数包括。.Axhsp1.itBB、 vspiitCC、

31、 SP1.itDD、 sp1.it答案:ABCD108 .下列跟人工智能场景相关的是OA、图像识别Bv人脸识别G语音识别D语义分析答案:ABCD109 .以下选项中是正确的字符串有OA1*abcabB、*abcabC、,abc,abnDs“abcab”答案:BD110 .DGI定义的数据治理任务包括OA、数据质量的评估Bv主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务Dv应对并解决因不遵守规则而产生的问题答案:BCD111 .大数据偏见包括。A、数据源的选择偏见B4算法与模型偏见C、结果解读方法的偏见D4数据呈现方式的偏见答案:ABCO112 .关于DroPoUt说法,正确的

32、是OA4Drop。Ut背后的思想其实就是把DNN当作一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNNB、DNN网络将DroPOUt率设置为p,也就是说,一个神经元被保留的概率是1-p当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0C4丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。由于这个原因,每一次训练它都像是在训练一个新的网络D、ropout方法通常和1.2正则化或者其他参数约束技术(比如MaXNOrm)一起使用,来防止神经网络的过拟合答案:ABCD113 .下列场景适合使用Python的是()A、可作为脚本语言,快速编写小型程序脚

33、本等Bv可应用在数据科学、交互式计算及可视化领域C、可作为胶水语言,整合如C+等语言代码D、PythOn适用于低延时高利用率的应用场景答案:ABC114 .关于HiVe的说法正确的是。A、HiVe是基于HadOOP的数据仓库工具B、HiVe可以将结构化的数据文件映射为一张数据库表Cs最初,HiVe由Goog1.e开源,用于解决海量结构化日志数据统计问题D、HiVe的主要应用场景是离线分析答案:ABD115 .下列关于词袋模型说法正确的是。.A4词袋模型可以忽略每个词出现的顺序B、词袋模型不可以忽略每个词出现的顺序C4TenSOrFIOW支持词袋模型D、词袋模型可以表出单词之间的前后关系答案:A

34、C116 .下列关于密度聚类说法,错误的是O。A4DBSCAN是一种著名的密度聚类算法B、密度聚类从样本数量的角度来考察样本之间的可连接性C4密度聚类基于不可连接样本不断扩展聚类簇,以获得最终的聚类结果D、密度直达关系通常满足对称性答案:BCD117 .数据挖掘算法的组件包括OA4模型或模型结构评分函数Cx优化和搜索方法D、数据管理策略答案:ABCD118 .Python中jieba库支持哪几种模式为。A、精准模式B4匹配模式C4全模式D搜索引擎模式答案:ACD119 .下列关于特征的稀疏性说法,正确的是O。A4稀疏性指的是矩阵中有许多列与当前学习任务无关Bv稀疏样本可减少学习任务的计算开销C

35、4学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法答案:ABC120 .以下属于规则的分词方法的是O。A4正向最大匹配法B4逆向最大匹配法Cv双向最大匹配法0.条件随机场答案:ABC121 .以下。是一元通用函数。A、np.add)B、np.maximum)C、np.exp)Dvnp.sqrt)122 .我们想要减少数据集中的特征数即降维,以下方案合适的是OA,使用前向特征选择方法Bv使用后向特征排除方法C4我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现。如果表现比原来还要好,我们可以去除这个特征。、查看相关性表,

36、去除相关性最高的一些特征答案:ABCD123 .在SPark的基本流程中,主要涉及O。A、DriVerProgramB、 CIusterManagerC、 WorkerNodeD、 Executor答案:ABCD124 .以下关于HBaSe说法正确的是O.A4面向列的数据库B4非结构化的数据库C、支持大规模的随机实时读写D4采用松散数据模型答案:ABCD125 .下列说法中正确的是O。A4云计算的主要特点是非常昂贵B、大数据是多源异构、动态的复杂数据,即具有4V特征的数据C4大数据是数据科学的研究对象之一D4MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)答案:BC

37、D126 O是SPark比MaPRedUCe计算快的原因。A、基于内存的计算B、基于DAG的调度框架C、基于1.ineage的容错机制D、基于分布式计算的框架答案:ABC127 .下面关于单样本Z检睑的说法,正确的是。.As在PythOn中,单样本Z检验可以使用SCiPy.stats,ttest1.s()实现B4单样本Z检验适用于样本量较大的情况C、单样本Z检骗假设要检验的统计量(近似)满足正态分布O4单样本Z检脸常用于检验总体平均值是否等于某个常量答案:BCD128 .下列属于CNN关键层的是O。A%输入层B4卷积层C4激活层D.池化层129 .在正则化公式中,人为正则化参数,关于人的描述正

38、确的是OAs若正则化参数人过大,可第会导致出现欠拟合现象B4若人的值太大,则栩度下降可能不收敛C4取一个合理的人值,可以更好地应用正则化D4如果令人的值很大的话,为了使C。StFUnCtion尽可能的小,所有的值(不包括60)都会在一定程度上减小答案:ABCD130 .下列有关MaPRedUCe计算框架的描述正确的是。.A、MapReduce可以计算任务的划分和调度BvMapReduce可完成数据的分布存储和划分C4MapReduce可以实现处理系统节点出错检测和失效恢复D4MaPRedUCe可实现处理数据与计算任务的同步答案:ABCO131 .以下关于MaPRedUCe1.0版本说法正确的是

39、()A4扩展性差Bs可靠性差C4资源利用率低Dv无法支持多种计算框架答案:ABeD132 .HighBias(高偏差)的解决方案有。AvBoostingB4复杂模型(非线性模型增加神经网络中的层)C4更多特征D、-答案:ABC133 .常用的数据审计方法可以分为().A、预定义审计Bs自定义审计C.可视化审计Dv结构化审计答案:ABC134 .以下关于HTM1.标签嵌套规则的说法,正确的是().A、块元素可以包含内联元素或某些块元素,但内联元素也可以包含块元素B4HTM1.标签包括块级元素和内欲元素C4内嵌元素一般用在网站内容之中的某些细节或部位,用以“强调区分样式上标下标锚点”等,通常包括:

40、aabbrbbrfontiImginputkbd1.abe1.qsse1.ectsma1.IsPansubttuvar等D4其中块级元素一般用来搭建网络架构布局承载内容,通常包括的标签有:addressdirdivd1.dtddformh1h6hriSindexmenunoframesnoscriptoIppretabIeuI等答案:BCD135.在数据科学中,计算模式发生了根本性的变化从集中式计算,分布式计算网格计算等传统计算过渡至云计算,有一定的代表性的是GoOg1.e云计算三大技术,这三大技术包括O.A、Had。PYRN资源管理器B4GFS分布式存储系统CMapRedue分布式处理技术D

41、BigTabIe分布式数据库答案:BCD136.在Python中,以下导入模块方式正确的是。A、import模块名B4import模块名as模块的别名C4from模块名import函数名Dvfrom模块名import函数名A.函数名B答案:ABCO137 .下面定义函数正确的是OAvdefcac(*numbers):Sum=Oforninnumbers:sufn=sum+n*nreturnsumBxdefca1.c(*numbers):Sim=Oforninnumbers:sum=sum+n*nreturnsumCvdefca1.c(*nufnbers.n):sum=0forninnumber

42、s:sum=su11+-n*nreturnsumDxefca1.c(*numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum答案:AB138 .字典的遍历正确的有OA4forin变量i,字典:使用i遍历所有的键,有键就可以通过变量访问其值Bvfor变量iin字典:使用i遍历所有的键,有键就可以通过变量访问其值C4for变量i,变量jin字典items):使用变量i遍历所有键,通过变量j遍历所有值D、forin变量i,变量j字典items):使用变量i遍历所有键,通过变量j遍历所有值答案:BC139 .与自然语言处理相关的工具包Jieba.、Ge

43、nsim.、N1.TK.xSCikit-1.earn的区别是O。A、Jieba专注于中文分词操作B、N1.TK主要用于一般自然语言处理任务(标记化,PoS标记,解析等)C4GenSirn主要用于题和向量空间建模、文档集合相似性等D.Scikit-Iearn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档频率特征提取(TfidfVeCsriZer)等答案:ABCO140 .下面属于范数规则化的作用的是()A、保证模型尽可能的简单,避免过拟合B、约束模型特征C4最小化问即D4最大化问题答案:AB141 .以下关于1.1.和1.2范数的描述,正确的是OA41.1.范数为X向量各个元素绝对值之和。Bv1.2范数为X向量各个元素平方和的1/2次方,1.2范数又称Euc1.idean范数或Frobenius范数C、1.1.范数可以使权值稀疏,方便特征提取D、1.2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD142 .某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量,构建抢修热点.以下模型算法构建步骤中合理的顺序是O。A,将历史数据进行随机自助法重抽样,生成N

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号