《人工智能数据集工作介绍-20240429.docx》由会员分享,可在线阅读,更多相关《人工智能数据集工作介绍-20240429.docx(24页珍藏版)》请在课桌文档上搜索。
1、大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点QMa中国信通院人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量.高质量、多样化的训练数据集,成为拉开能力差距的关键要素。数量:万级别类型:单一质V:一般数量:类型:千万级单一(9777少7/,1OIJ0/54质量:较高ImageNet(100OW)数量:类型:质量:亿级多样极高ROOTS(1.6T)59种语言(46种自然感言,13种编程语言)I浅层学习时期(-2012)深度学习时期(2012-2018)预训练模型时期(2019-)2022年起f人工智能正在由模型中心”转向数据为中心QMCT中国信通院2022年产学研提出
2、“以数据为中心的人工智能(Data-centricAI),高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。11人工智能领域的权威学者吴恩达,发起了以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。通过添加数据标记.清洗和转换数据、数据缩减、增加数据多样性.持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。吴恩达:80%的高质量数据与20%的模型训练构成了更好的AI模型。2021年举办了首届“以数据为中心的人工智能竞赛,比赛仅允许通过改进数据来提升模型的性能。80%20%PREPACTIONSou
3、rceandpreparehighqualityingredientsCookamealSourceandpreparehighqualitydataTrainamodel80%的高质量数据与20%的模型训练构成了更好的Al模型。李飞飞团队:实现可信AI,数据的设计、完善、质量评估是关键iniclligcncc网IMTAdvances,challengesandopportunitiesincreatingdatafortrustworthyAlWeixin1.iang1,GirmawAbebeTadesse2,DanielHo,Fei-Fei1.i,MateiZaharia,CeZhang4
4、andJamesZou三三数据集贯穿于大模型全生命周期,输出高质量数据集CftICT中国信通院公开获取管理节点获取节点获数据质量管理-FPft-.1数据训练工程数据标注PrOmPt工程数据过滤数据合理分布和配、分批训练第1批:百科1+书籍1+行业l+第2批:网页2+书籍2+期刊2+行业2+.第n批:百科n+书籍n+期刊n+行业n+.标注平台PromPt期辅助撰写1任务管理高阶撰写低质过滤I有毒过滤I规则清洗模型清洗深度过滤内容分类规则过滤分类器毒性评估内容分类预训练数据集预训练SFT数据集随抽检多人可视PromPt数据集专家标注行业数据集数据清洗微调激发Rank标注微调!lS7t楫型清洗深度过
5、滤内容分类预训练大模型微调大模型通用大模型R1.HF行业大模型数据质量提升数据质量评估数据毒性评估数据数量评估数据分布评估数据内容评估优化优化优化优化我国Al数据发展仍落后美国,处于全面追赶的地位CAlCT中国信通院与美国相比,我国AI数据发展在数据集数量、数据集质量、数据发展顶层设计、Al数据产业链和生态服务四个方面仍落后于美国。中文数据集数量不足全球流量靠前的100o万个网站中,网站语言为中文的仅占1.4%,远低于英语接近60%的水平。全球最大的人工智能开源社区HUggingfaCe已发布开源数据集超过5万个,其中中文数据集仅有150多个,CC中的中文只占4%,且大部分是励卜网页。Al数据
6、集质量低现有公开数据集与大模型预训练需求不匹配,多数无法直接使用缺乏对高质量数据集的定义和规范要求数据质量评估方法和体系缺失数据治理技术发展尚不完善AI数据发展顶层设计不完善打造开放数据资源、布局公共数据集一直是美方政策布局的重点。美国家人工智能研究和发展战略计划中,提出将“开发用于人工智能训练及测试的公共数据集和环境O我国目前尚缺乏国家层面推动公共数据集建设的顶层设计,目前仅有北京、上海两地在政策文件中明确提出了要建设高质量数据集。Al数据产业链和生态服务不成熟数据毒性检测、数据偏见检测、数据优化等技术发展仍不成熟自动化数据治理、数据标注、数据合成、数据质量评估、数据纠偏等工具平台缺失统一的
7、数据治理标准、数据服务生态协同和调度机制缺失。Al数据之困,美国商务部就开放数据资产寻求公众建议CACT中国信通院核心征询问题2024年4月17日,美国商务部官网发布人工智能和开放政府数据资产信息征集请求,向行业专家、研究人员.民间社会组织等公众成员征询有关开放数据资产发展的宝贵见解,旨在了解如何改进商务部开放数据资产的创建、策划和分发方式,以促进生成性人工智能等人工智能技术的发展和进步。FEDERA1.REGISTERTheDailyournaloftheUnitedStatesCovefnmeotNobceAlandOpenGovernmentDataAssetsRequestforInf
8、ormation三ACTION:NotkvlmpiratIuCiafo11ntion.SUMMARY:*11*VS.1.mrtwMofCOtmBeNecotiimitudtahndiCrflrexy.dJnmombon.andtheFeSPomiUeIUeanddwemuMtoalPUbtiCm.CiTMXlJyar9MitAotts.andotherInrmbfecibcIMbIir口Otttbtd5vNnrwtUlrr4h*QpmbtaMXtSandbtdwauiMhofiGndMR.DATES:0t,一Cccntneoesmustbr9mhvdoCrbeforeJuly2024.0tMM
9、NOsfrwvatoaOMM:Comm*Bmfbforf*vd9t,2W4CoflwnenetClose-M024DocwwMytt;DocwwMCItBUOfISftFR27411Ngr立,4i3Gao1、数据传播标准:格式、元数据和文档、元数据标准方面原始数据与派生数据的不同等;2.数据可访问性和检索:直观易用的数据门户、清晰的标签和易读格式、用户对其数据的需求等;3、合作伙伴参与:行业和学术利益相关者与政府合作方式、潜在合作领域等;4、数据完整性和质量:增强公共数据完整性和准确性最佳实践方式、真实性偏见、隐私、公平性和道德等相关挑战的应对方式、数据来源和处理方法的透明度等;5、数据伦理:
10、清晰的法律和道德指导方针、识别和减轻人工智能算法偏见的政策等。大模型高质量数据面临新需求和新挑战,亟需工作新思路CAICT中国信通院1.一F发展需求AJI高质量高质量数据能够高模型精:度与可解释性,减少训练时;长大规模独立熠加训练数据量、模型参数规模或者延长模型训练时间,提出I糜效果j全维度丰富的数据能够提高模型:化能力I:Data-centricAl模型相对固定,通过提升数据的质量和数量,来提升训练效果中文语料本身供给不足开放数据生态不完善质量缺少文献、代码等高质数据公开数据与模型训练不匹配供需数据资源流通规则不健全数据资源对接生态链缺位生态缺少共性关键技术和工具缺乏协同调度和保障机制重点工
11、作顶层支撑成立人工智能数据工作专班,高效推进大模型数据工作标准评测搭建人工智能数据集标准;体系,构建方升大模型1基准测试数据集和体系质量研究构建人工智能数据集质量1评估体系,搭建质量评估I平台I生态合作I依托中国人工智能产业发展联盟数据委员会,开展人工智能数据服务产业链!I图谱编制,举办人工智能!-v-r-hy-.*MM*aM*工作二:评测一方升大模型基准测试体系CftICT中国信通院1.指标体系行业能力测试(IOT)金融医疗软件工程教育法律科研政务电信能源应用能力测试(AOT)智能客服知识管理知识检索数据分析数据分析通用能力测试(GOT)智能体应用具身智能应用网页处理任务规划理解能力生成能力
12、推理能力知识能力学科能力多语言能力长文本能力思维链能力角色扮演能力工具使用能力内容可靠内容鲁棒视觉问答视觉推理图像描述图像生成3D处理J图像理解视频理解语音处理2.测试方法标签筛选、动态更新、灵活抽样3.测试数据集107个数据集,300万条测试数据安全能力测试(SOT)信息安全介4隋私企业机密模型安全4.测试工具自动化框架,智能化评估方升是秦国的商鞅实行变法时所发布的标准量器,是我国最早的标准量器13工作二:评测一联合产学研共建评测数据集资源池CAICT中国信通院中国信通院于2024ICT深度观察研究成果报告会上发布方升大模型评测体系,北京智源研究院、认知智能全国重点实验室、天津大学共同见证体
13、系发布。国网智能电网研究院、首都之窗、电信研究院、甲骨易等9家单位成为首批方升合作伙发布仪式现场行业能力)o*Hn.2w1mi安全助manww.momMlcm4KTtt*94MSOO3敷ER4BDWIfH*HEMinitswiMmMuUIUBWUtmitIMinttiW三n11t2内容安凌ItidtsMintiewEMmDatifCGACV4应用能力man.sw.MflEB手ffiW三110i*.IrKe2aWQ三11tt2WmnInKt2MM11tt2W八”KJwWUttDttlW代m不敏IKtlMuUinfiiwAlAGENTlM*5IhSmtmR*VttmoBMSRrw佗建安全&MS7I
14、IUg口IIISWCMOfaeE0三A情慰史叁 m* IMimttiw1.CYu通用力so.m.TOW.mraatnujI生36M7MlM所感助艮力mctZlt目航ISW知识力,MiiUlHlirwru三MBI5IWWWBiHrit力rS4曲目故M长文本叨ft2IhlSrWM:JIl色扮3H5*12AuUlUtt.Roled工IIMtt力noMiOtHBiW内容可.BK*eIlMaRnlTMCHAiUCT(AI)内容桂flr*2lUJi11ttMBKYMi*n*ow一3安全IrtCt5HUUBUB1W工作二:评测一建立大模型评测实施框架和工具平台cc中国信通院梳理大模型基准测试工作流,并参照工
15、作流开发大模型基准测试框架测试框架在测试数据集的质量管理、高质量测试数据集的智能抽取以及大模型自动化结果评估等具有优势大模型基准测试WorkflOW测试需求分析测试数据构建测试环境准备基准测试执行测试结果评估测试报告生成,测试标准确定“测试范围选择“测试重点分析,测试方案设计动态化测试数据库“统一测试数据格式“测试数据标签管理A测试数据自动清洗,测试数据智能采样A测试数据智能生成A测试框架自动测试A支持APl接口测试人支持本地部署测试VAP建档(推荐)模型下载链接+部署说明文档上测试任务切分,测试任务队列A分布式测试A自动化评估A大模型评估A专家人工评估A统计分析A权重设置与推荐A综合评分及排
16、位A缺陷分析A报告生成工作三:质量研究一构建人工智能高质量数据集质量评估体系CAICT中国信通院口结合传统大数据质量要求和人工智能模型训练应用需求,按照“可用+好用+落地的设计原则展开人工智能高质量高质量数据集评估标准制定工作,并输出面向人工智能的数据集质量通用评估方法总体要求一级指标数据质其他完整性符合性集成度逻辑模态噪声准确性事些匕型不能正描述方家的口性戢巳经过期,大数据质量要求可用好用准确性时间空间人工智能数据集质量要求IS08000(国际标准-数据标准质量体系)DQAM(国家标准-蹦质量评估型)些故裾记集是复的记Ir重复饯完整性规范性准确性及时性一致性均衡性相关性I无偏性I原创性数据集
17、任务覆盖信息覆盖领域覆盖模态覆盖用于满足模型功能性要求元数据语义有效采集时间代表性数据源来源记录数据链路智能贡献性数据结构安全隐私用于加快侬瓯并且使得输出结果领域专业数据真实用于满足模型逻辑推理能力要求更新频率响应速度用于保证模型应用效果和准确性复杂度时间空间上下文采集过程元数据管理版本控制抗攻击性用于确保模型的稳定性用于改善模型泛化能力用于提高模型预测准确性确保模型生成结果不会系统性地偏向某一特定群体用于增强模型新颖性和减少过拟合风险用于提高模型信任度,以及促进问题诊断优化工作三:质量研究一搭建人工智能高质量数据集评估平台CAICT中国信通院按照规则检测+人工抽样+模型效果的三道关卡融合方案
18、展开人工智能高质量数据集评估平台的搭建工作,优化并实现评估指标的有效落地,破解当前评价体系实施难题,确保评估标准精准衔接实际工作。数据集完整性结构完整性I,j喂型快速试验可控数据集调整规则检测规范性I及时性一致性检测方法缺失值检测格式验证跨表一致性类别均衡检验最近邻分类器唯一性验证人工抽样信息覆盖I领域专业数据真实,无偏性领域相关I逻辑相关检测方法简单随机抽样I系统抽样分层抽样I整群抽样G便抽样I判断抽样模型效果几乎适用于所有指标需要按照场景需求选择测试模型需要选择合适的模型性能评测指标测评指标如何影响模型效果数据集指标数值改变是否影响模型性能参数改变主观指标人工抽样适用于难以客观量化的指标,
19、作为检测数据集质量的第二道关卡f客观指标三;规则检测适用于客观可量化指标,作为:检测数据集质量的第一道关卡应用指标模型效果用于检测数据集是否可以帮助提升模型性能,是评估物居集质量最后也是最重要的一道关卡工作四:生态合作一成立AlIA数据委员会cc中国信通院成立背景:AnA产业数据组于2021年5月成立,围绕人工智能数据集开展多项合作研究工作,建设数据集资源分享平台。为促进通用人工智能发展,解决大模型数据短缺及质量问题,2023年9月正式升级为AHA数据委员会。职责定位主要任务组织架构成员单位旨在促进数据要素的流通和应用,提升数据质量和数据管理能力。为产学研用搭建开放交流合作平台,通过技术研究、
20、供需对接等方式,全面月胞产业发展。技术+服务+产业”对接平台资源和需求梳理技术应用研究推广可信治理标准建设产业公共服务应用场景探索工作机制组长单位中国信通院中国螺嚷堀人工智能实验室、华为、科大讯飞专家咨询组汇聚产业链一线专家截至2024年3月,数据委员会已有成员单位148家,涵盖产业智库、学术研究机构、辘交易所、Al数据拥有方、数据加工方和雌需求方等主体。覆盖人工智能数据全产业链工作四:生态合作一启动人工智能数据服务产业链图谱编制AAB工温舱温芯;晶黑人工智能数据服务产业是人工智能高质量数据集的核心生产力。人工智能数据服务产业图谱旨在清晰展现人工智能数据服务领域关键技术.工具平台、运营服务、人
21、才培养以及行业应用等产业关键要素,涵盖数据采集、清洗、标注、评估、共享、流通等数据全生命周期环节。模型生命周期:场景定义需求分析A数据引入f模型训练*II算法验证算法部署4工程优化f联调测试一发布上线,持续监测A迭代反馈人工智能高质量数据集数据采集数据清洗数据合成数据标注质量评估开放共享交易流通人工智能数据服务产业链数据要素市场化AIIA数据委员会2024年第一季度工作进展总结CAICT中国信通院1月密切与各方沟通,开展系列线上、线下活动;召开方升大模型基准测试体系解读会;2月推动数据集系列标准研制持续建设基准测试数据集;3月筹备海南组会,推进报告编制;联合上海人工智能实验室开展系列线上直播活
22、动:讲解大规模城市场景合成数据集、面向数学召开大模型数据开发管理能力标准启动会,推动标准研制进展;4月成立工作专班,启动图谱编制推理的高质量预训练语料;推动方升大模型基准测试参与联盟第十二次海南全会,筹备组会;召开数据委员会2024年度第一次组长工作会;召开中国式人工智能发展新范式、新文明座谈会;数据集建设,为国内夕听源大模型进行首轮测试;支撑国家数据局、发改委数据相关工作;完善大模型数据资源地图1.人工智能数据工作专班正式成立;和治理路径编制工作;持续推出高质量的面向行业和应用的基准测试数据集;正式启动人工智能数据服务产业链图谱编制工作;支撑国家数据局、工信部相关工作。CAICTBtt*ll
23、tt9SUt下一步工作计划依托中国人工智能产业发展联盟数据委员会,联合人工智能数据相关产学研用各类主体,助力国家部委做好顶层设计,深耕人工智能高质量数据集标准体系研究,打造人工智能数据全产业链技术服务能力,完善人工智能数据生态服务,推动人工智能高质量数据集快速发展。-Q顶层支撑,持续开展人工智能数据标注产业发展调研与研究,支撑国家数据局、工信部等国家部委做好国家人工智能数据顶层设计。标准评测,制定完善人工智能数据标准体系,形成人工智能数据服务关键技术.工具平台.质量控制等系列标准。“建立多语言、多场景、多任务的评测数据集和基准测试体系。质量研究,深入研究人工智能高质量数据集评估方法,搭建面向人工智能数据集的质量评估体系与平台,促进数据资产开发共享与交易流通。生态合作,协同生态伙伴组织召开系列人工智能数据服务全产业链技术服务高质量发展沙龙和论坛,促进各类产业研用主体高效合作。