《2023年一周学习笔记及问题.docx》由会员分享,可在线阅读,更多相关《2023年一周学习笔记及问题.docx(23页珍藏版)》请在课桌文档上搜索。
1、一周学习笔记一.公司组织架构及流程(售前相关)8a产品在平常演进和市场推广过程中,会涉及研发、售前、售后、销售等众多组织部门,需要诸多部门、众多岗位的参与和配合。1 .公司部门以及架构各业务部门、单元的职能和接口人介绍如下: 产品行销部:产品行销部部门经理赵伟总(公司副总裁、GMO)0部门涉及市场组、测试培训中心、售后实行组和专业服务组,此外还涉及专职研发的工具开发组。产品行销部专注于8a产品的市场推广、技术支持和项目实行工作; 研发:研发最终负责人为公司CTO武新总。与8a产品有关的研发部门涉及研发一部、研发二部和工具开发组,其中工具开发组负责人杨伟伟; 电信事业部(CoM):电信事业部部门
2、经理袁丁总。部门涉及销售和售前人员,专注于电信行业的8a产品推广;天津营销中心(TJC):天津营销中心部门负责人张良总,涉及销售、售前技术支持、方案组等业务单元。8a市场组与TJC工作往来频繁,所支持的销售很多来自TJCo产品行销部组织架构:2 .各相关配合部门重要负责人市场组:8a产品线市场组负责人庞松,组内按照行业划分,涉及JG行业、OEM合作伙伴、金融行业以及安全行业;测试培训中心(T&T):测试培训中心负责人杨伟伟,下设POC测试组和培训组;PoC组:小组负责人孙卡,POC按照行业领域划分为三个小组,涉及电信(孙卡)、安全(赵景喜)、李运涛(XX)。POC职责是在项目签约前为用户提供产
3、品能力测实验证(注:很多项目在签约前,用户会提出对产品进行功能验证和性能测试等规定)培训组:小组负责人沈丽平,成员涉及陈婷、白帆。培训组负责完毕对公司内部新入职工工和用户的产品培训工作;(注:很多项目商务协议明确规定提供产品培训,此外很多项目售前推动阶段需要为用户或者集成商提供产品培训)专业服务组:专业服务组负责人白军奎,专业服务组的职责涉及:(1)作为通向研发的唯一接口,负责完毕行销部与研发的所有交流协调工作;(2)发版申请过程中,完毕对售前的技术支持工作;(3)为一线技术人员提供专业技术支持。产品服务部:产品服务部是8a产品售后项目实行部门,部门负责人杜国旺。部门下设多个小组,如实行组、维
4、护组等。3 .通常一般产品周期的流程售前人员为保障项目顺利推动,会参与到很多流程工作中,有些流程仅限于产品行销部内部,有些会与商务部、销售等部门有工作交集。本节按照项目推动的顺序,全面介绍8a市场组售前也许碰到的工作流程和解决原则。下图为8a一个项目完整生命周期示意图,图中标注了所有也许需要售前参与或主导推动的工作流程,一个项目从技术交流到最后完毕实行验收,不一定要经历下述所有阶段或流程,但为保证可认为售前人员提供有价值的参考,本手册将具体叙述下述所有流程。3. 1技术交流任务申请响应发起方:销售经理响应方:售前经理流程介绍:销售经理通过电话、邮件等方式告知8a行销部对口的售前负责人,规定协助
5、完毕与用户(最终用户或集成商)的技术交流,交流的方式涉及技术文档编写、电话解答或者与销售一起前往客户现场为对方进行产品宣讲和技术交流。输入条件:假如销售规定售前前往客户现场完毕技术交流,则需要销售邮件提供任务申请单.doc(模板参见第四章附件1:任务申请单d。c);输出物:假如售前出差到客户现场,交流结束后需要编写出行报告.d。c(模板参见第四章附件2:出行报告.doc)4. 2解决方案评估发起方:售前经理响应方:专业服务组流程介绍:在了解客户需求并为客户编制解决方案阶段,也许涉及部分场景过于复杂或某些技术性能指标售前经理不能拟定,此时需要借助公司技术专家团队共同完毕技术评估和方案编制。在专业
6、服务组无法解决时,需要售前经理主导请求调动更多技术专家,共同完毕方案审议。输入条件:出行报告、需求调研报告等;输出物:解决方案;3. 3外发版本发起方:销售经理响应方:售前经理流程介绍:在售前阶段为提供客户现场测试版本,或者项目签约售后实行阶段提供现场正式发货版本,销售经理睬发起发版流程。一方面销售经理在CRM上提交发版申请,商务发版负责人会邮件告知响应售前经理启动发版程序。售前经理在收到商务发版负责人邮件告知后,须填写T3_GBase8a项目发版申请V1_ProjectName_YYYY-MM-DD_YourName.xls,回复邮件主送商务发版负责人,抄送上级主管、专业服务组负责人。输出物
7、:发版申请单注:发版申请单请参见附件3a3_GBase8a项目发版申请V1_ProjectName_YYYY-MM-DD_YourName.x/s)3.4PoC测试申请发起方:售前经理响应方:POC负责人流程介绍:某些项目由于用户方规定,需要协调PoC人员为用户完毕产品功能、性能验证测试。售前经理在收到用户方请求后,须向POC负责人发起POC申请。POC负责人确认通过后会为项目指派POC测试工程师,售前经理牵头协调用户方、销售、POC工程师,完毕PoC测试。输入条件: POC技术评估表(注:文档模板请参见附件4GPS_南大通用8aP0C项目技术评估表_V1.3.xlsx); 测试用例;(必须)
8、表结构;(可协商) 测试预期;(可协商)输出物:POC响应确认邮件;3.5投标流程发起方:招标单位响应方:售前经理(和销售经理)流程介绍:在确认招标单位发起公开招标后,售前经理启动投标流程。8a产品线市场组售前经理负责投标响应文献技术部分的编制,商务部分由商务部专人负责。项目的售前经理负责评估投标文献编写的工作量,视情况向市场组负责人申请人力支持。项目售前经理负责牵头投标工作,涉及分工、框架搭建、整合、组织评审、校对、投标等。输入条件:招标单位发起公开招标,并获得招标文献;输出物:投标响应文献;发起方:售前经理响应方:售后负责人流程介绍:当项目签约或确认项目将要签约时,售前经理须向售后申请启动
9、项目交接流程。项目交接意味着项目由售前主导阶段进入了售后主导阶段,同时意味着项目即将启动部署实行。项目售后交接属于项目关键节点,售前经理需要将售前阶段的材料、方案、文档当整理齐备,为售后实行尽也许的提供详尽的素材。交接 过程结束 报备输入条件:项目交接表(注:请参见附件5南大通用项目交接信息表_V1.1项目名称_填写时间填写人员.xls)输出物:项目交接会议纪要;二.产品相关知识(8a产品线为主)1.8a产品线产品的技术特点GBase8a列存储数据库基础上开发的一款SharedNothing架构的分布式并行数据库集群,具有高性能、高可用、高扩展特性,可认为超大规模数据管理提供高性价比的通用计算
10、平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。1.L产品技术特点GBase8aMPPC1uster具有以下技术特性: 低硬件成本:完全使用X86架构的PCServer,不需要昂贵的Unix服务器和磁盘阵列; 集群架构与部署:完全并行的MPP+SharedNothing的分布式架构,采用Non-Master部署,节点对等的扁平结构;海量数据分布压缩存储:可解决PB级别以上的结构化数据,采用hash分布、random存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以招所用空间减少广20倍,并相应地提高了有效的I/OJ性能; 数据加载高效性:基于策略的数据加
11、载模式,集群整体加载速度可达2TBh; 高扩展、高可靠:支持在线扩展,实际扩展能力达成64个SafeGroup(最多643二192个节点),同时提供断点续做和非对称方式的数据重分布模式。支持全量、增量备份/恢复; 高可用、易维护:数据通过2个副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化监控工具和公司管理器等管理工具,简化管理员对数据库的管理工作; 高并发:读写没有互斥,支持简化模式的MVCC,支持数据的边加载边查询,单个节点并发能力大于300用户; 行列转换存储:提供行列转换存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时; 标准化:支持SQL92标准;支
12、持CAPI、ODBC、JDBC、ADO.NET等国际接口规范;1.2 8a产品架构图1.3 MPP+sharenoting架构GBase8aMPPCIUSter采用完全并行的MPP+SharedNothing的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,并且整个系统中不存在单点瓶颈,具有非常强的扩展性。1.4.核心组件GBase8aMPPCluster产品总共包含三大核心组件,即GCluster、GCware和GNodeoGCWare用于各节点GCluster和GNode实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单
13、元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点GClUSter和GNode实例间共享信息(涉及集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GCluster中最基本的存储和计算单元OGNode是由GCWarc管理的一个8a实例,每个GC1uster节点上有一个GNode实例运营。GNode负责集群数据在节点上的实际存储,并从GCIuster接受和执行经
14、分解的SQL执行计划,执行结果返回给GClustero数据加载时,GNode直接从集群加载服务接受数据,写入本地存储空间。1.5.高可用GBase8aMPPC1USter通过SafeGroup组内冗余机制来保证集群的高可用特性: 每个SafCGr。UP可提供1个或2个副本数据冗余; SafeGroup内数据副本自动同步; 复制引擎自动管理数据同步;图42SafeGroUP高可用性管理示意图1. 6.高性能在线扩展GBase8aMPPC1uster具有在线扩展技术:通过SafeGroup动态扩展集群节点,实际可扩展到643(192)个节点;每个节点可以解决IoTB有效数据,同时提供计算和存储能力
15、;GCware负责新节点的数据同步; 通过Safegoup动态扩展集群节点 可以实际扩展到192个节点(64X3) GCware负责新节点的数据同步 U / 扁平,对等高扩展能力MPP集群图41GBase8aMPPCluster在线扩展技术示意图由于GBaSe8aMPPClUStCr采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。jQ00Scaleout(MPP)图4-4GBase8aMPPCIUSter高性能高扩展示意图数据加载功能作为GBase8aMPPC1uster的一部分而存在,目的是将用户从其他数据源得到的原始数据文献,按照某种加载规则分发
16、至集群节点,集群各节点接受数据入库保存到本地磁盘。集群加载采用C/S架构,涉及数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接受到客户端的数据加载请求后,服务器端负责原始数据文献切分和数据文献的下发;各节点调用本地的集群加载服务接受数据入库并保存到本地磁盘。数据加载服务器数据片图45数据加载示意图1.8.OLAP函数GBase8aMPPCIUSter提供OLAP函数,用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可根据分析人员的规定,快速灵活地进行大数据量的复杂查询解决,以便他们准确掌握公司的经营状况,了解被服务对象的需求,制定对的的方案。1.9.行列混合存储GB
17、ase8aMPPCluster采用的行列混合存储的存储结构,改善了当列数较多,查询命中的数据记录又非常离散时,会频繁访问I/O的状况,大大缩短了延迟查询响应耗时,从而提高了查询效率。GBase8aMPPClUSter提供的行列混合存储技术,它通过创建行存列的机制,减少I/O访问的次数,从而有效地提高I/O性能。2.竞争对手情况GBase8aMPPC1USter核优势GBase8aMPPC1USter相比其他同类数据库产品,核心优势如下: 高性能:复杂查询、即席查询性能是传统数据库的10倍以上 高性价比PCServer+Linux+本机磁盘盘,超过小型机+Unix+阵列的性能 高速同步加载超过2
18、TB/Hour的装载速度 高压缩率:420倍以上压缩比,节省存储,可存储长期历史数据 扩展能力强:在线增长节点,无需停业务 管理维护简朴智能索引免维护,工具完善易操作IBMDB2DPFIBMDB2DatabasePartitionFeature的整体架构如下:GBase8aMPPCIUSter与IBMDB2DPF的对比优势,如下:对比项0racleDB2DPFGBase8aMPPCluster架构DPF是基于DB2中的传统分区功能开发的MPP模块。存储结构还是依存于传统的存储结构。真正的面向OLAP的MPP架构。各个节点服务器之间完全独立。功能没有列存储技术,使用高端设备来实现高性能列存储,高
19、效I/O,大幅度提高性能压缩率低,最多只能到5:1左右高压缩比,420倍压缩资源管理机制缺少,需要过多的人工干预。依存人工建立的大量数据索引。智能优化,无需人工干预性能由于一般采用SAN架构,随着数据量增大,可扩展性比较差无需磁阵,X86服务器水平线性扩展性价比许多功能都是按模块单独销售,如高可用性;随着业务的发展,业务对数据仓库需求侧重点也会不同,而按模块销售会使业务会受到严重制约可扩展性性能高,功能模块多,价格低,性价比优势显著服务支持费用高,响应慢本地服务,成本低,响应快TeraData2 I DB2I DB2 DB2tion , Partition PartitionPartition
20、StorageserverStorage serverTeraData的整体架构如下:gfcHl mt)61 SS S8 S3 18 *8 88 l8 IB S3 8S 88 Bfi SI 88:俄:K Il 63 S*:Il Il Il SIGBase8aMPPCluster与TeraData的对比优势,如下:对比项TeraDataGBase8aMPPCluster架构私属硬件互换机,软硬件绑定通用X86服务器功能由于设计原理因素,装载数据时只有对空表加载时才干获得好的性能表中数据多少对加载速度无影响压缩率低,通常只能达成80%左右列存储,高压缩比,420倍压缩管理维护升级时中断业务时间过长
21、,一般需要一周左右升级只需几个小时性价比购买、升级费用非常昂贵性能高,价格低,性价比优势显著服务支持费用高,响应慢本地服务,成本低,响应快HPVerticaHPVertica为纯软件的MPP产品,GBase8aMPPC1uster与HPVertica的对比优势,如下:对比项HPVerticaGBase8aMPPCluster功能严重依靠projection提供不同方案的性能。拥有多个分析视图,Projection表的数量也将增长(相同数据的多个副本),而这抵销了压缩的带一份数据,采用智能索引技术进行自动性能优化来的好处性能对用户并发查询数据库数据支持不够好,此时假如查询到达可运用的内存上限,性
22、能下降则非常明显;并发数水平线性扩展假如任何查询需要调优,往往会受限于ProjectiOn中的复制数据,灵活性较差,性能受到影响智能索引,自动优化,无需复制数据内例国案无众多EMCGreenPlumEMCGreenPlum的整体架构如下:GBase8aMPPCluster与EMCGreenPlUm的对比优势,如下:对比项EMCGreenPlumGBase8aMPPCluSter架构存在Master节点,容易形成单点故障。且当集群节点较多时,容易产生单点性能瓶颈。对于Master节点之间的切换和故障解除后的恢复,过程中易于引起系统运营环境的混乱,导致无法正常工作。为纯粹的扁平结构的ShareNo
23、thing架构,不存在性能上的单点瓶颈和单点故障问题。GreenpIum基于PostgerSQL数据库软件实现,事实上整个系统相称于一个数据库联邦,因此当Greenplum遭遇断电等极端情况时,由于每个P0stgerSQL系统的当时情况存在差异,导致节点所有断电后无法自动所有重启,需要人工干预。GBase产品支持所有节点断电重启后正常运营;这种需求对中移动带来的益处是在极端的电力失效场景下,整个MPP系统仍可以迅速恢复对外提供服务。受限于POsgerSQL,在单节点上没有型亍架构,对多CPU多核的使用效率不ro可充足发挥单节点上多核SMP多核优势,实现节点上双向并行。功能无增量备份,每次备份都
24、是全备,这样备份归档会占用很多空间支持全量备份和增量备份不能缩减节点可以扩展节点,也可以缩减节点压缩态数据不支持更新和删除操作高压缩数据仍然可以增删改性能系统空间膨胀过快,空间回效率低下,时间长,并且严重影响系统性能,如系统表空间也许膨胀将近百倍系统空间很小,对性能无影响对并发查询数据库数据支持不够好,一般支持几个复杂长时间SQL查询,当任务更多时会自动失败单机300并发,水平线性扩展与常见ETL、报表工具连通时兼容性及性能都比较差接口完全标准化,兼容性好,与主流中间件、ETL.报表工具都可对接管理维护无图形化管理工具GUI工具:公司管理器、监控管理工具Master与Standby切换、回切相
25、关繁琐,管理维护不方便,并且经常失败完全对等的扁平架构,无MaSter节点,无切换问题1几款数据库集群产品特性对比.xs三.常见技术问题(1)GBase8a是MPP集群架构,是否有临时表概念?什么情况会用到临时表?是自动的还是须要人工设定?答:GBase8a若采用集群方式部署,运营时有也许会根据需要自动生成临时表。一般情况下,数据在加载到集群中各节点时,表的分布有三种:复制表、分布表和非复制表。由于非复制表只保存一份,存在数据丢失隐患,所示实际中很少用到。平时用到最多的是分布表和复制表,对于参与关联运算较多的维度表或小表,采用复制表方式存储,减少节点间拉表成本;对于大的事实表,一般采用分布表方
26、式,分布可以采用随机分布或Hash分布。假如两个分布表做等值Join,为了减少节点间拉表的运营成本,GBaSe8a会自动评估决定是否将其中相对小的分布表临时合并成复制表,这样在每个节点与另一张分布表做JOin0被临时合并并复制的表在这个过程中就生成了临时表。临时表是为提高运算性能系统自动采用的一种策略。运算结束后,临时表会被释放。(2)索引是什么机制?答:GBaSe8a在数据入库时,可以自动在每一列上建立粗粒度的智能索引,索引包含记录信息,可以直接使用,减少不必要的磁盘10。对于多表关联和等值查询的应用场景,针对经常访问的数据列,可以人工为其建立HaSh索引,数据在加载到集群时通过HaSh分布
27、的方式分不到集群每一个节点上,发挥每一个节点的运算能力,实现任务分摊,达成集群效能的最大运用。(3)如何理解索引的“粗粒度”?答:GBaSe8a的智能索引在字段上基于数据包自动建立索引,常驻内存,即为粗粒度。(4)如何理解全文检索?答:全文检索面向的为半结构化数据,如微博、短信等半结构化内容用全文索引效率就明显提高。其他如文本、网页等内容,文本存在DFS中,索引存在数据库中,全文抽取插件可以支持8种文献格式。总的原则是小数据存在字段中,大文献存在DFS中。全文的关键字和索引内容存在数据库中,采用单字切分技术,和语种无关,命中率可达Io0%。(5)8a的应用场景?答:重要有即席查询、R-OLAP
28、应用、数据仓库和数据集市、低价值密度的数据查询分析等(如日记)。从应用角度在金融领域用于反洗钱、信用卡分析、绩效考核数据、用户上网分析、审计平台等。电信领域用于日记管理、经分系统等。(6)你们SeleCt*操作是否比较麻烦?答:对,由于需要把每个字段都列出来。但是自8512版本我们支持行、列混合存储,对于经常被SeIeCt*的场景,可以使用行存列的方式实现。(7)如何理解列存储与行存储在增删改查方面大数据优势的原理及具体体现答:行存:增删改查需要建立索引,根据索引一行一行排查找到具体行进行增删改查,同时要记录日记等文献。花费大量I/Oo列存:增原理:8a大批量数据入库时,可以边查询操作,边入库
29、,两不耽误。使用的是AB版本,查的是原数据版本,入库则入副版本,副本入完后与原数据版本置换同步;改原理:修改时原数据加标记一包头偏移量处加标记,修改后新数据插入到最后(等于增)。每列最后一个包不进行压缩,减少插入数据的工作量;删原理:删除时原数据加标记一包头偏移量处加标记,以后查操作会跳过该标记内容;大数据查:只涉及需要查找的列,并且每列有智能索引,可以先按包排查,再在筛出的包内排查。不需像行存同样所有的列每条记录去排查;智能索引:不是物理存在的表,是加载数据库时提取包头内容在内存形成的表。(8)外部数据源加载到多个分发节点时,假如部分节点加载成功,部分节点加载失败,成功部分数据是否保存还是回
30、滚?答:加载假如报SUCCeSS,则是所有可用节点数据都加载成功,假如有任何一个节点加载出问题,则所有节点都没有任何数据加载进去。(9)群组中安全组的节点个数是否必须同样?答:可以不同样,但是建议实际应用中保持同样。(10)能否与psqI连接,或可以与哪些常用的客户端工具配合使用,是否支持标准SQL所有语法?答:不能与Oracle的P1/sqI连接,GBase8a客户端有自己的公司管理器,支持标准SQL语法。(11)与开发语句如JAVA,C,NET等语句的连驱动的完善?答:有。GBase8a有完善的符合国际标准化的接口,如JDBC、ODBC、ADO.NET以及CAPI。(12)hash分布选取
31、列的原则:答:选取groupby和j0in的Varchar歹J;选取的列反复值不应当太大,否则各节点分布不均匀。(13)Sql语法跟mysql很类似,交流时如何向客户说明跟mysql关系?答:目前主流的数据库,都支持SQL92标准。8a产品以mysql为原型开发,跟第三方Bl工具支持mysq1接口,方便客户部署和迁移。四.学习过程中碰见的问题和体会1 .在学习过程中,对8a以及8aMPP数据库的原理有一定的了解,但没有具体测试数据以及场景的应用数据做支撑,希望可以获取一些以往招标或者测试过程中具体场景的一些数据,根据不同的应用场景和相应的数据做对比,这样可以对8a产品的特性结识更加清楚。2 .
32、在学习中,查找到一个用户需求的公式即最小磁盘空间需求(MDSR),MDSR=原始数据*数据库以及相关工作空间*副本选项因子*RAID因子*操作系统和文献系统因子*数据库压缩因子,MDSR=原始数据*1.2*3*16/15*1.2*25%=原始数据*1.152,我想问的是这个公式在8a产品中是通过总结具有普遍意义,还是各个因子要根据具体项目需求进行调整?3 .在学习以往项目实例中,发现用户的数据ETL需求不较多,但在我所拥有的资料中,对ETL相关的内容比较少,多数都是介绍8a产品特性的内容,根据以往的售前的经验,用户对ETL相关的技术是否注重,售前的工作需要对ETL相关技术进行学习了解吗?4 .8a产品的报价有两种,一种是根据数据量,另一种是根据节点数,我看到的相关内容是一般的数据成本是1wTB,单节点40w,我想知道这个成本以及报价是否具有普遍性,假如后续跟用户交流过程中,用户问及8a产品的大体报价时,是否可以跟用户报如上的价格?五.下周工作计划和安排1 .继续学习8a产品特性,结合以往案例,结合各个项目用户不同的需求,对8a产品相关特性进行进一步理解;2 .学习Had。OP有关内容,并了解8a产品与HadooP混合组网的案例学习;