大数据课堂测验2.doc_课桌文档desk33.com

资源描述

《大数据课堂测验2.doc》由会员分享，可在线阅读，更多相关《大数据课堂测验2.doc（7页珍藏版）》请在课桌文档上搜索。

1、1、简述大数据的来源与数据类型大数据的来源非常多，如信息管理系统、网络信息系统、物联网系统、科学实验系统等，其数据类型包括构造化数据、半构造化数据和非构造化数据。2、大数据产生的三个阶段1被动式生成数据2主动式生成数据（3）感知式生成数据3、大数据处理的根本流程1数据抽取与集成2数据分析3数据解释4、大数据的特征 4V1O Volume，Variety，Value，Velocity，On-Line5、适合大数据的四层堆栈式技术架构6、大数据的整体技术和关键技术大数据的整体技术一般包括：数据采集、数据存取、根底架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据处理关键技术一般包

2、括：大数据采集、大数据预处理、大数据存储及管理、开发大数据平安大数据分析及挖掘、大数据展现和应用大数据检索、大数据可视化、大数据应用、大数据平安等。7、新一代数据体系的分类新一代数据体系中，将传统数据体系中没有考虑过的新数据源进展归纳与分类，可将其归纳到线上行为数据与内容数据两大类别。8、EDC系统的定义临床试验电子数据采集Electric Data Capture，EDC系统，在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心Sites直接远程收集临床试验数据的一种数据采集系统。9、EDC系统的根本功能数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统平安、

3、在线交流、医学编码和支持多语言。10、EDC系统的优点1提高了临床研究的效率，缩短了临床研究周期2通过逻辑检查提高了数据质量3对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块网络爬虫Spider、数据处理Data Process、URL队列URL Queue和数据Data。13、大数据集成在大数据领域中，数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地，而将处理过程适当的分配给这些数据。这是一个并行处理的过程，当在这些分布式数据上执行请求后，需要整合

4、并返回结果。14、数据集成时应解决的问题数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非构造化数据中抽取信息和将数据处理移动到数据端。15、网络数据处理的四个模块及主要功能分词Words Analyze、排重Content Deduplicate、整合Integrate和数据，如图2-17所示。这四个模块的主要功能如下。1分词：对抓取到的网页内容进展切词处理。2排重：对众多的网页内容进展排重。3整合：对不同来源的数据内容进展格式上的整合。4数据：包含两方面的数据，Spider Data和Dp Data。16、大数据建模概念大数据建模是为了理解事物而对事物做出的一种抽象，

5、是对事物的一种无歧义的书面描述。17、大数据分析模式分类根据实时性，可分为在线分析和离线分析根据数据规模，可分为内存级、BI级和海量级根据算法复杂度的分类18、大数据建模流程定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。19、大数据建模应遵循的规律以业务目标作为实现目标业务知识是每一步的核心做好数据预处理试验对寻找解决方案是必要的数据中总含有模式数据挖掘增大对业务的认知预测提高了信息作用能力大数据建模的价值不在于预测的准确率模式因业务变化而变化20、数据可视化的概念数据可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像，然后在屏幕上显示出来，利用数据

6、分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。21、数据可视化流程22、数据可视化工具的特性1实时性2简单操作3更丰富的展现4多种数据集成支持方式23、数据可视化在生物领域中的应用测序数据可视化分子构造数据可视化关系网络可视化临床数据可视化24、Hadoop优点1可扩展Scalable2低本钱Economical3高效率Efficient4可靠Reliable25、Hadoop的核心模块HDFS、MapReduce、mon及YARN，其中HDFS提供了海量数据的存储，MapReduce提供了对数据的计算，mon为在通用硬件上搭建云计算环境提供根本的效劳及接口，YARN可以控制整个

7、集群并管理应用程序向根底计算资源的分配。26、YARN的根本设计思想将MapReduce中的JobTracker拆分成了两个独立的效劳：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster则负责单个应用程序的管理。27、HiveHive最早是由Facebook设计，基于Hadoop的一个数据仓库工具，可以将构造化的数据文件映射为一*数据库表，并提供类SQL查询功能。28、HBaseHBase即Hadoop Database，是一个分布式、面向

8、列的开源数据库。HBase主要用于需要随机、实时读写的大数据。29、AvroAvro是一个数据序列化系统。类似于其他序列化机制，Avro可以将数据构造或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换。30、ChukwaChukwa是开源的数据收集系统，用于监控和分析大型分布式系统的数据。31、PigPig是一个对大型数据集进展分析和评估的平台。32、Spark原理Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的

9、分布式计算，拥有MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。33、Spark的优点轻量级快速处理支持多语言支持复杂查询实时的流处理可以与Hadoop数据整合34、HDFS的设计目标高效的硬件响应流式数据大规模数据集简单的一致性模型异构软硬件平台间的可移植性35、HDFS架构解释以下图答案在P107-P10836、以一个文件File A大小100MB为例，说明HDFS的工作原理。读操作流程写操作流程答案在P109-P11137、HD

10、FS的4类源代码根底包实体实现包应用包WebHDFS相关包38、MapReduceMapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。39、HDFS接口远程过程调用接口与客户端相关接口HDFS各效劳器间的接口40、HDFS和MapReduce的关系HDFS在集群上实现了分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。MapReduce在HDFS的根底上实现任务的分发、跟踪、执行等工作，并收集结果。41、MapReduce技术特征易于使用良好的伸缩性大规模数据处理42、MapReduc

11、e工作机制答案在P116-P11743、MapReduce执行流程Map映射和Reduce化简是它的主要思想，Map负责将数据打散，Reduce负责对数据进展聚集，用户只需要实现Map和Reduce两个接口，即可完成TB级数据的计算。向MapReduce框架提交一个计算作业时，它会首先进展Split分片，将File文件分配为多个数据片段，保证作业的并行效率。然后Map把计算作业拆分成假设干个Map任务，然后分配到不同的结点上去执行，每一个Map任务处理输入数据中的一局部。当Map任务完成后，它会生成一些中间文件，把这些文件重新组织作为Reduce阶段的输入，该过程称为Shuffle洗牌，洗牌的

12、操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。44、monmon为Hadoop的其他模块提供了一些常用工具程序包，主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供根本的效劳，同时为软件开发提供了API。45、大数据的一致性策略CAP，即一致性Consistency、可用性Availability和分区容错性Partition Tolerance46、大数据分区技术通过一定的规则将超大型表分割成假设干小块来分别处理。表

13、进展分区时需要使用分区键来标志每一行属于哪一个分区，分区键以列的形式保存在表中。47、几种常见的数据分区算法范围分区列表分区哈希分区48、分布式环境下的数据缓存技术特点高性能动态扩展性高可用性易用性49、NoSQL数据库种类键值Key-Value存储列存储Column-Oriented文档Document-Oriented存储图形存储Graph-Oriented。50、四种类型NoSQL的特点及典型产品存储类型特性典型工具键值存储可以通过键快速查询到值，值无需符合特定格式Redis列存储可存储构造化和半构造化数据，对*些列的高频率查询具有很好的I/O优势Bigtable、Hbase、C

14、assandra文档存储数据以文档形式存储，没有固定格式CouchDB、MongoDB图形存储以图形的形式存储数据及数据之间的关系Neo4J51、BigtableBigtable是Google开发的一个分布式构造化数据存储系统，运用按列存储数据的方法，是一个未开源的系统。52、Bigtable数据库的架构答案在P135.53、Bigtable数据库特点适合大规模海量数据，PB级数据。分布式、并发数据处理，效率极高。易于扩展，支持动态伸缩。适用于廉价设备。适合于读操作，不适合写操作。不适用于传统关系型数据库。54、云计算定义云计算是一种用于对可配置共享资源池网络、效劳器、存储、应用和效劳通过网络

15、方便的、按需获取的模型，它可以以最少的管理代价或以最少的效劳商参与，快速地部署与发布。55、云计算根本特征规模经济性强大的虚拟化能力高可靠性高可扩展性通用性强按需效劳价格低廉支持快速部署业务56、云计算效劳模式根底设施即效劳IaaS、平台即效劳PaaS、软件即效劳SaaS是云计算的三种应用效劳模式57、云计算部署模式公有云、私有云和混合云58、虚拟化技术把有限的、固定的资源根据不同需求进展重新规划以到达最大利用率的思路，在IT领域就称为虚拟化技术。59、云计算数据中心的构成云计算数据中心本质上由云计算平台和云计算效劳构成60、云计算平安关键技术可信控制密文检索与处理数据存在与可使用性证明数据隐

16、私保护虚拟平安技术云资源控制可信云计算61、大数据解决方案系统架构及各层功能平台层：其中的大数据存储平台提供大数据存储效劳，大数据计算平台提供大数据计算效劳，多数据中心调度引擎为多区域智能中心的分析架构提供数据调度效劳。功能层：包括大数据集成、存储、管理和挖掘局部，各局部为大数据存储和挖掘提供相应功能。效劳层：基于 Web技术和 Open API 技术提供大数据最终的展现效劳。62、医学大数据的种类医院医疗大数据区域卫生信息平台大数据基于大量人群的医学研究或疾病监测大数据自我量化大数据网络大数据生物信息大数据63、大数据挖掘与传统数据挖掘方法的区别传统数据挖掘大数据挖掘样本数量少量数据样本分

17、析与事物相关的所有数据，研究的样本数量趋近于总体数量事物之间的关系遵循事物之间的因果关系寻找事物之间的相关关系追求的目标追求绝对的准确性追求效率和趋势挖掘方式采集方法，内容分类，采信标准等都已存在即有规则，方法论完整挖掘新鲜事物，还没有形成清晰的方法、路径及评判标准64、医学大数据挖掘的特点医学数据挖掘隐私性医学数据的多样性医学数据的不完整性医学数据的冗余性医学数据的动态性65、医学大数据挖掘的主要方法自动疾病预测趋势和行为关联分析聚类分析模糊系统与进化算法66、医学大数据挖掘的应用方向临床决策支持系统医疗数据透明度医学图像挖掘生物信息学DNA分析公众*67、基于互联网大数据生物监测组成局部互联网大数据的获取、从海量数据中提取出与生物事件相关的数据及建立数据与生物事件爆发的相互关系68、基于互联网的大数据生物监测的应用基于搜索引擎的生物监测、基于社交网络的生物监测及基于社交网络的情绪监测69、区域卫生信息平台是连接规划区域内医疗卫生机构、行政业务管理单位及各相关卫生机构各机构的根本业务信息系统的数据交换和共享平台70、ETLE*traction- Transformation-Loading即数据抽取E*tract、转换Transform、装载Load的过程，它是构建数据仓库的重要环节

展开阅读全文