大数据技术导论形考答案.docx

资源描述

《大数据技术导论形考答案.docx》由会员分享，可在线阅读，更多相关《大数据技术导论形考答案.docx（22页珍藏版）》请在课桌文档上搜索。

1、1、数据科学不仅可以推动数学、计算机科学、统计学、天体信息学等学科的发展，而且又能够大力助推（）的发展与进步。A基础科学B流体力学C基本理论D产业隐藏弊案正确答案：D2,如果X的平均值和标准差分别为54000和16000,使用Z分数规范化方法，X的值89500被转换为（）A1.56B1.25C2.219D1.19隐藏答案正确答案：C3、Cyber空间是指以计算机技术、现代通信网络技术、（）等信息技术的综合运用为基础，以知识和信息为内容的新型空间。A电子技术B虚拟现实技术C软件技术D人工智能隐藏答案正确答案：B4、数据约简主要有特征约简、样本约简、（）和数值约简等。A维数约简B归一化C数据变换D

2、一致性除藏答案正确答案：A5,假定某属性X的最小值、最大值分别为12000和98000,将屈性x=73600映射到0.0,0.1中的值为（）.A0.716B0.912C0.325D0.679隐藏答案正确答案：A6、增殳数据抽取方式只抽取()的数据。APB级数据B不变的数据C发生变化的数据D有价值的数据隐藏答案正确答案：C7、每一次计算请求称为()A线程B进程C任务D作业除藏答案正确答案：D8、批量计算技术属于()计算技术。A离线B在线C流式D在线隐藏答案正确答案：A9、数据平滑法主要分为()、指数平滑法和分箱平滑法。A统计法B最短距离法C移动平均法D聚类方法隐藏答案正确答案：C10、离线计算模

3、式中的已知数据存储于（）。A内存B硬盘C高速缓冲存储器D闪存正确答案：B11、（）是结构化数据，网页是半结构化数据。A关系数据库数据B视频C图像D声音隐藏答案正确答案：A12、MapReduce模型适于（）计算。A实时B在线C离线D流式隐威答案正确答案：C13、建立挖掘模型、选取或改进挖掘模型都需要验证，最常用的验证方法是（）。A样本学习B统计分析C逻辑推理D数学期望隐答案正确答案：A14、数据获取与存储管理是大数据处理周期的笫（）步。A1B2C3D5正确答案：A隐藏答案15、大数据主要来自（）与互联网世界。A电子世界B物理世界C因特网D广域网隐威答案正确答案：B16,网页数据是（）。A网站外

4、部数据B日志数据C网站内部数据D高速缓存数据正确答案：A隐藏答案17、大数据的5个W特性是数据量、多样性、（）、速度、A稀疏性B关联性C实用性D价值降藏答案正确答案：D真实性。18、（）是N。SQ1.数据库中最常用的存储方式。A键值存储方式B按地址存储方式C图存储方式D列表存储方式隐藏答案正确答案：A19、数据挖掘是从数据集（可能是不完全的、有噪声的、不确定性的、备种存储形式的）中挖掘出隐含在其中的、人们事先不知的、对决策有用的（的过程。A语义网B产生式C知识与信息D规则隐威答案正确答案：C20、数据科学是关于（）的科学。A算法B数据C信息隐藏答案D知识正确答案：B21、数据挖掘主要注重解决分

5、类、聚类、关联和定量定性（）等问题，其重点是寻找未知的模式与规律。A预测B检测C研究D学习隐藏答案正确答案：A22、数据清洗算法的衡量标准主要包含（）、错误返回率和精确度。A冗余度B返回率C可用性D一致性隐威答案正确答案：B23、奈奎斯特采样定理指出采样频率应该大于信号中最高频率的（）倍时，采样之后的数字信号才能够完整地保留原始信号中的信息。A2B4C6隐做答案D3正确答案：A1、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重复）数据规范化的主要方法是（）、（）和（）等。A最小-最大规范化方法B模糊规范化方法CZ分数规范化方法D小数定标规范化方法除藏答案正确答案：ACD2、（本题

6、每个括号里需要从ABCD四个选项中选填个字母，不可电第）不完整数据的清洗是指对缺失值的填补，主要采用的方法是（）、（）、（）AKNN近邻缺失数据填充B就近补齐C随机值填充D平均值填充隐藏答案正确答案：ABD3、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）（）是样本相对于均值的偏差平方和的平均，（）是绝对指标，其值大小不仅取决于样本数据的分散程度，（）是标准差与均值的比值。（）是指一组测量值内最大值与最小值之差，又称范围误差或全距。A极差B变异系数C标准差D样本方差隐藏答案正确答案：DCBA4、（木题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）脏数据主要是指（）

7、、（）和（）A重复数据B不完整数据C非结构化数据D异常数据隐藏答案正确答案：ABD5、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）OldSQ1.适用于（），NeWSQ1.适用于（）,NOSQ1.适用于（）。A事务处理应用B日志数据存储C数据分析应用D互联网应用隐藏答案正确答案：ACD6、（本题每个括号里需要从ABCD四个选项中选填个字母，不可玳知）策类就是将数据集分组为多个类或簇，在同一个簇中的数据对象（记录）之间具有较高的（）,而不同簇中的对象的（就比较大。我们将散落在外不能归并到任何一类中的数据称为（）.A相似度B模糊度C奇异点D差别降藏答案正确答案：ADC7、（本题每

8、个括号里需要从ABCDIJq个选项中选填一个字母，不可重且）网络爬虫流程主要分为（）、（）和（）三部分。A存储数据B寻找网址C解析网页D获取网页隐藏答案正确答案：ACD8、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）均值就是（）,将一组数据中出现次数最多的数值叫（）,（）是指从小到大排列或从大到小排列的一组数据中，处在中间位置上的一个数据，一组n个观测值按数值大小排列，处于p%位置的值称第P（）百分位数平均数中位数正确答案：CBDA9、（本题每个括号里需要从ABCD四个选项中选填个字母，不可电第）移动平均法是按对过去若干历史数据求算术平均数，并把该数据作为以后时期的预测值。

9、移动平均法分有（）、（）和多次移动平均法。A零次平均法B一次移动平均法C二次移动平均法D多次移动平均法隐藏答案正确答案：BC10、（本题每个括号里需要从ABCD四个选项中选填个字母，不可重究）从分析的结果来看，大数据分析主要分为（）、（）;从分析的方式来看，大数据分析主要分为离线数据分析、（）和（）.A探索性数据分析B在线数据分析C交互式分析D定性数据分析隐藏答案正确答案：ADBC11、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）由于数据随着（）而变化，可以将（）变化可视化，然后解探导致数据变化的原因。A环境B时间C数据D知识隐藏答案正确答案：BC12、（本题每个括号里需要

10、从ABCD四个选项中选填一个字母，不可重且网站内部数据主要有（）和（）A口志数据B寄存器数据C数据库数据D内存数据正确答案：AC13、（本题每个括号里需要从ABCD四个选项中选填个字母，不可聿复）由大及小的数据展现方式是先给出个（）的画面，可以引导读者具体深入到一个（）的点。A一般B整体C聚焦D局部隐藏答案正确答案：BC14、（本题每个括号里需要从ABCD四个选项中选填个字母，不可重复）在（）比较的可视化展现中，可以对数据集中（）的不同方面给出一个有力的叙述与说明。A数据B平滑处C不关心D突出隐藏答案正确答案：AD15、（木题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）去重是指在

11、不同的时间维度内，重复一个行为产生的数据只计入一次。按（）维度去重主要分为按小时去重、按日去重、按（）去或、按月去重或按（）去重。A自选时间段B周C时间隐藏答案D空间正确答案：CBA16、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）异常数据检测方法主要分为（）、基于邻近度的技术和（）。隐减答案A基于模型的技术B基于平均数计算C基于最大值计算D基于密度的技术正确答案：BC17、（本题每个括号里需要从ABCD四个选项中选填个字母，不可重复）数据集成需要考虑的问题是（）、（）和（）。A数据容量问题B数据冲突的检测与处理问题C实体识别问题D冗余问题隐藏答案正确答案：ABD18、（本

12、题每个括号里需要从ABCD四个选项中选填一个字母，不可聿身）翦于约简维数的大小分类，维数约简可以分为（）、（）和（）A硬维数约简B可视化C统计维数约简D软维数约简隐藏答案正确答案：ABD19、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）数据质量的四要素是数据的准确性、（）、数据的完整性和（）.隐藏答案A数据的随机性B数据的一致性C数据的可用性D数据的及时性正确答案：BD20、（本题每个括号里翁要从ABCD四个选项中选填一个字母，不可重且）在大数据抽取中，可以分为初始化转移阶段和增量转移阶段。初始化转移阶段采用（）的方式，增量转移阶段采用（）方式进行有选择的抽取。A同构异质数

13、据抽取B是数据抽取C同构同质数据抽取D全量数据抽取隐藏答案正确答案：DB21、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重复）样本约简主要包括系统抽样、（）和（）等。A随机抽样B重点抽样C确定抽样隐藏答案D分层抽样正确答案：AD22、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可由曳）大数据抽取过程就是从（）中抽取数据并传送到（）中的过程。A数据源B信息C数据库D目的数据系统隐藏答案正确答案：AD23、（本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且）在NeWSQ1.+NoSQ1.混合模式中，NewSQ1.承担高价值密度（）的存储和分析处理工作，NoS

14、Q1.承担存储和处理海量（）。A半结构化数据B结构化数据C非结构化数据D分布式存储与计算正确答案：BC24、(本题每个括号里需要从ABCD四个选项中选填一个字母，不可重且)在样本数据较(的情况下，的机性越),效果越好。隐藏答案止确答案：BC1、在数据预处理过程中，可以根据需要，通过数据转换构造出数据的新闻性，使之更有助于处理数据。()A正确隐藏答案B错误正确答案：正确2、HadOoP处理平台能够完成在线处理。()A正确B错误隐藏答案正确答案：错误3、字段之间的相似度S是根据所有字段的内容而计算出的一个表示两字段相似程度的数值。()A正确B错误隐藏答案正确答案：正确4、回归分析是研究现象之间是否

15、存在某种依存关系，并对有依存关系的现象，探讨其相关方向以及相关程度。(A正确隐藏答案B错误正确答案：错误5、数据集成是指将不同来源、不同格式、不同特点与不同性质的数据在逻辑上或物理上有机地集中，存放在不一致的数据存储(如数据仓序)中。()A正确B错误隐藏答案正确答案：错误6、k-NN近邻缺失数据填充算法是一种简单快速的算法，它利用本身具有完整记录的属性值实现对缺失屈性值的估计。()A正确B错误正确答案：正确7、MapReduce计算能够完成实时计算。()A正确B错误隐藏答案正确答案：错误8、幅图画最伟大的价值莫过于它能够使我们实际看到的内容比期望看到的内容丰宫得多。()A正确B错误隐藏答案正确

16、答案：正确知识点:9,采用NOSQ1.+NewSQ1.混合模式构建数据中心，可以发挥NOSQ1.数据库的事务处理能力和NeWSQ1.在实时性、g杂分析、即席查询等方面的优势，以及面对海量数据时较强的扩展能力。()A正确B错误隐藏答案正确答案：错误10、大数据主要来白物理世界与互联网世界。()A正确B错误隐藏答案正确答案：正确11、数据规范化可将原来的度量值转换为无量纲的值，通过酹屈性数据按比例缩放，将一个函数给定属性的整个值域映射到一个新的值域中，即每个旧的值都被一个新的值替代。()A正确隐藏答案B错误正确答案：正确12、大数据处理周期是指从数据获取、挖掘和分析，进而快速获得有价值信息的过程。

17、()A正确B错误隐威答案正确答案：正确13、OIdSQ1.+N。SQ1.混合模式能够很好地解决互联网大数据应用对海量结构化和非结构化数据进行存储和快速处理的需求。()A正确B错误隐藏答案正确答案：正确14、非结构化数据是指在获得数据之前就可知其结构的数据。()A正确隐藏答案B错误正确答案：错误15、数据挖掘工要注重解决分类、聚类、关联和定危定性预测等问题，其重点不是寻找未知的模式与规律。()A正确B错误正确答案：错误16、网络数据获取是指通过网络爬虫等方式从网站上获取数据信息的过程，这样可将非结构化数据、半结构化数据从网页中提取出来，并以非结构化的方式将其存储为统一的本地数据文件。()A正确B

18、错误隐威答案正确答案：正确17、数据科学的组成要素主要包括数学、统计学知识，以及领域的专业知识。()A正确B错误除藏答案正确答案：正确18,分类就是自动将数据对象分成多个类或簇，划分的原则是在同个簇中的数据对象具有较高的相似度，而不同簇中的数据对象相似度差别较大。()A正确B错误隐藏答案正确答案：错误19、只有通过消洗之后，才能通过分析与挖掘得到可信的、可用于支撑决策的信息。()A正确B错误隐藏答案正确答案：正确20、维数约简是使用编码机制来增大数据集的规模.()A正确B错误隐藏答案正确答案：错误21、通过招抽象的指标数据转换成我们熟悉的容易感知的数据时，用户便更不容易理解图形要表达的意义。(

19、)A正确隐藏答案B错误正确答案：错误22、噪声是指测量数据中的随机错误和偏差，通过数据平滑技术可以识别噪声。()A正确B错误隐藏答案正确答案：错误23、虽然约简后的数据集变小心而且不能保持原始数据的完整性，但在这样的数据集上挖掘，仍然能够获得与约简前相同的分析结果。()A正确B错误隐威答案正确答案：正确24、离线数据分析是指将待分析的数据先存储于硬盘中，然后进行数据分析，离线数据分析用于较复杂和耗时的数据分析和批处理。()B错误隐藏答案正确答案：正确25、探索性数据分析是从某种假设出发，去探索其内在的数据规律性。()A正确B错误隐敝答案正确答案：错误26、计算机科学是算法与算法变换的科学，数据

20、科学是关于数据的科学，数据科学是为研究探索Cyber空间中数据界的理论、方法和技术。()A正确B错误隐藏答案正确答案：正确27、数据分析是从个假设出发，需要自行选择方程或模型来与假设匹配，而数据挖掘不需要假设，可以自动建立模型。()A正确隐威答案B错误正确答案：正确28、同构同质数据库是指同一类型的数据模型、同一型号的数据库系统：同构异质数据库是指同一类型的数据模型、不同型号的数据库系统。()A正确B错误隐威答案正确答案：正确29、分箱平滑法是种数据局部平滑方法，它是通过考察所有的数据来平滑存储数据。()B错误隐藏答案正确答案：错误30、MapReduce计算将数据存储到内存中，然后对存储在硬

21、盘中的静态数据进行集中计算。()A正确B错误隐减答案正确答案：错误31、在通常情况下，聚类算法不是计算两个样本间的相似度，而是用特征空间中的距离作为度量标准来计算两个样本间的相异度。()A正确B错误隐藏答案正确答案：正确32、全量抽取类似于数据迁移或数据第制，它将抽取数据源中发生改变的数据,把这些改变的数据从数据库中抽取出来,并转换成抽取工具可以识别的格式。()A正确B错误隐威答案正确答案：错误33、文本由记录组成，可以将整条记录看成一个字符串来计算其相似度，再按某些规则合成得到文本相似度。()A正确B错误隐威答案正确答案：正确34、离线数据处理技术比在线数据处理技术成熟，MapReduce分

22、布编程模型是种三层计算，核心问题就是利用并行化解决大数据量或大计算量的问题。()B错误隐藏答案正确答案：正确35、大数据量集成一般将处理过程分布到源数据上进行并行处理，并仅对结果进行集成。()A正确B错误隐敝答案正确答案：正确36、传统数据获取与大数据获取方式相同。()A正确B错误隐藏答案正确答案：错误37、科学大数据的重要特点之,是有一定的科学规律可循。()A正确B错误隐藏答案正确答案：正确38、如数据不完整、数据不一致、数据重第等，数据也能够有效地被利用。()A正确B错误隐藏答案正确答案：错误39、数据快速大量地产生并存储在Cyber空间中的现象称为数据爆炸。()A正确B错误隐藏答案正确答案：正确40、网站内部数据与网站本身最为密切相关的数据是网站分析最常用的数据来源。(A正确B错误隐藏答案正确答案：正确41、相关分析是一种统计判别的分组技术，根据就一定数量样本的一个分组变量和相应的其他多元变量的已知信息进行判别分组。()A正确B错误隐藏答案正确答案：错误42、特征约简是在提高原有判别能力的前提卜.，从原有的特征中删除不重要或不相关的特征。(A正确B错误隐藏答案正确答案：正确43、大数据抽取过程是搜索部分数据源，按照某种标准选择合乎要求的数据，并将被选中的数据传送到目的地中存储。()A正确B错误隐威答案正确答案：错误

展开阅读全文