《AI时代的数据处理技术-23页.docx》由会员分享,可在线阅读,更多相关《AI时代的数据处理技术-23页.docx(20页珍藏版)》请在课桌文档上搜索。
1、!据处理的深度也在增加THEDATASCIENCEHIERARCHYOFNEEDSIEARN/OPIIM1.ZEAGGREGATE/1.ABE1.EXP1.oRE/TRANSFORMMOVSTORECO1.1.ECTW:Eed1.m.SnvhxKuoW*1.f1.I1.fccOOT大模型崛起引领大数据新需求*OCEANeASg大模型崛起引领大数据新趋势*OCEANeASg趋势一:在线离线一体化问题在线横型(第88)薇Q与高线不一致.数据不T2-in-1.Architecture:TP&AP化机分布式一体化架构HIFW1IS生多租户架构Otad.MW三受8MySQ1.和OrX:1。*ySQ1.三
2、W三与妥和户度莱容.实加赚得离*OCEANeASgOceanBase:分布式HTAP数据库;分析和决策对于企业来说非常重要:OCeanBaSe采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)实时:混合负我TuGraphDB:分柘5站更用,支持口用施阴由谓透含ISOGQ1.TuGraphDataf1.ow:灌阴计督系维,支持国际标矗*0询语自ISOGQt以在线数据库内容为准,同步到近线系统图风控方案中的在线离线一体化:解决方案避免不同语言语义的不一致性很多细节/匕如Node1.imit趋势二:向量数据库与关系数据库一体化一体化的优,点应用场景搭珞向I1.ISI据处如B力和关系型跤
3、据曾建健力结合在TB的技术策咯蚂蚁VSAGV5AG是面向蝇蚊的通用向索引库,包含目萌主流的向量素弓I实现/针对场景的优化搔供通用向琳哈木和梅乂接口(与Fa1.SS形式类保)Add/Bui1.d埠BZftUI构It向B素引KnnScarch/RaFSeHCh:向检索(诋回行号和距两)SmHac/Deseria1.ize:两三索引序列化/反序列化,HHMWiSWtfJHNSW 生产可用的DiSkANN 支持INT8类型向压索(非SQ/PQ) PQ(进行中) 自造向X今加速(S【MD指令集加速) 索引分区 TOPI/T。PK召囹优化 向何距离计算优化VSAG与Faiss的区别VSAG提供!住实现的H
4、NSW 提供生产可用的DiSkANN 支持INT8理向检本(非SQPQ) 拇供x86.ARN1.平台里Ii麻JSIMD运行 大量IOW1.eVd的算法,可自由怛合(WF.PQ、SQ、RefIM) 提供最佳实酬GPU支持 拇供Bmry匈牍弓M法 WF去对于批量检索有很大加说窃1康使用,无需I法专业知识,不需要法选史,C1.Ja通过简单接入,可以快谏我骞向量松利8力,楣有内存和城盘两个场景下吸致解次方案的索引附向检察工具箱,可以深度定制句检求法,对于特定的ismodHJ以石更好的怪虎,IW用户对于检索法冷数非潴了解,石最好的GPU算法实观.面对高写入/BQPS场景有巨大优势在OceanBase中集
5、成VSAGOcwnBasc提供模引入VSAGOcednBaseProxyVectorSMrChRequeMOceanBase新增南二级索弓I与CkaCBse吟本地二级索引刈OccanBascNodeErteniionSOccanBascNodeEten0n5检索过程与分析型索引奥像HMVrROcen-万点i!H1.康对所”MW网行合并VSAG1.ibVSAGbErtenwonsOceanBaseNodeVSAG1.ib趋势三:数据处理与AI计算一体化视型训幅数据处理一Data+AI典甄景CommonCraw1.是一个海的,非t狗化的、多语言的网页数据集,包含近10年的随机网珞数相,PB嫁规例,
6、可从AmaZonS3上免残获取.GPT+3训谦数柩的60%来自CommonCraWtCCNet是Facebook发布板轴月洗流程,希望从CommonCrawi中能终提取出高成的文本S3三鬃CCNet献xafiWNjW7tmfTva/Sca1.aPythonPyTorchJensorfIow.PaddicPdddkSQ1.SparkDataFramePandas.NumpySciPyzNotcpdd*OCEANeASg数据与AI独立生态的问题1.两类软硬件生态的开发、调试、部署彳雌护都更加复杂2.系统间数据传输开销降低性能3.需要招聘两类程序员,或精通两者的程序员一种尝试:BigD1.aod1.
7、-9qMfta).4d.S1.10.AtM.a93ortMfta()I1.1.,-,|Ab:;,.H-tf.C1.40*1.1.1.Cfittion13OPtnkIX41.nU,te1.-ya.of,深度学习的JaVa化问题vprk-8ptK,bx1.4riMetwf1.tv1.a1.1.1.r*.Iiop1.rSd-a4rk.txtrs1.*dftrA1.nr4d-x:r4d-txt_Mkdvb1.(K)fi1.1.44.m*aatY4ytto.Mav1.t4ffyv)只支持CPU,不支持GPU和异构加速器王新开发深度学习模块,不能复用TF中的功能SPark本身性能有缺陷r*Mcit1.tf*1.n*d*M1.p91.1.c1.oXuSIwh11Gk11j*mYmqGJOS-q*r,3恢3cFdnrIKcQ.H*UuWJnBpWfJ4r40Oow&nePXIIcAHtc*d2wedr9O*tw*W3c*11gMN11eJDWibuiedCbMPV1.DK1.&Ui337纥2K3