《工行人工智能研究报告.docx》由会员分享,可在线阅读,更多相关《工行人工智能研究报告.docx(31页珍藏版)》请在课桌文档上搜索。
1、工行人工智能研究报告目录一、人工智能技术隐步成熟,全面赋能金融创新变革(一)技术革新发展机遇,前瞻布局产业高地(二)智慧金融重塑业态,普惠民生倡导低碳二、内外循环生态互动,夯实产业技术基础(一)金融业人工智能生态日趋完善(二)基础设施产业链多样化良性发展(三)智能模型能力全方位成长三、科技向善不忘初心,安全可信顶层设计(一)科技伦理治理日渐完善(二)算法应用评估初成体系(三)模型安全评估逐步深化四、打造金融智慧中枢,创新应用百花齐放(一)企业级技术平台筑基智能化转型(二)智能应用全面赋能五、政产学研用协同引领,智能化金融远景可期(一)政:监管加强政策引导,建设有序开放生态(二)产:行业深耕产品
2、打磨,助力全面产业升级(三)学:学科建设与时俱进,培养复合创新人才(四)研:科研引领技术升级,把握技术演化趋势(五)用:强化研判提升规模,探索特色运营模式一、人工智能技术隐步成熟,全面赋能金融创新变革作为一种突破性前沿技术,人工智能日渐成为现代生产、生活不可或缺的组成部分,引领新一轮产业变革,推动社会经济数字化转型发展。一直以来,党中央和国务院高度重视人工智能等新技术健康发展,先后印发新一代人工智能发展规划等系列指引和发展规划,鼓励和推动产业智能化升级。商业银行是国民经济资金流转的枢纽,承担着调节、优化资源配置的重要职能,如何利用大数据、人工智能等新兴技术创新金融产品、服务实体经济、促进供给侧
3、结构性改革,成为商业银行智慧转型发展的新命题。(一)技术革新发展机遇,前瞻布局产业高地1 .人工智能取得技术突破,引领新一轮生产力革命早期人工智能主流理论专注于知识和经验的符号化表示和推理,形成了以专家系统为代表的实用技术由于系统高度依赖人工经验的总结,开发成本高、泛化能力弱,应用规模局限在特定领域。九十年代机器学习理论兴起,探索基于结构化数据自动提高预测水平的计算机算法(如图1所示)o2000年前后,互联网公司运用海量数据在搜索和推荐领域所取得的巨大成功令机器学习应用备受瞩目,大数据的价值也日益为业界所重视,相关理念激发建设了一系列非结构化标准数据集,如计算机视觉领域的ImageNet等。大
4、规模开源数据集的建成和GPU算力的持续提升,助推深度学习算法的技术突破,图像识别领域达到乃至超越人工专家级识别水平,进而快速发展成为人脸识别、自然语言、语音识别等各个垂直领域的主流技术。2016年谷歌公司打造的围棋智能机器人AIphaGo战胜韩国祺手李世石,产生颠覆观念效应,让世界惊叹人工智能时代的来临。应用特定领域碎片化应用消费级产品应用MLOPS.AI中台方法技术机器学习工具包深度学习工具包机器学习(浅模型)深度学习命题漫辑a家系统(基于规则)领域专用软件专家系统架构体系和方法论机器学习专家系统 (嬖员演) 贝叶斯网络-BM 深蓝(ae)O 201AUtoML .!图像番网萋破番学习呼础技
5、术杳善术MLoPS中台图1人工智能技术和应用发展略图深度学习技术基于深度神经元网络模型,在训练数据的规模和算力支撑有保障的情况下,模型训练的收敛过程稳定、模型准确率高、技术通用性强,被认为是继蒸汽机、电机、信息技术后的第四波技术浪潮。2013年,德国提出工业4.0概念,首次提出以数字化、智能化为核心来强化工业实力。如今,数字化、智能化理念已经成为包括银行业在内的各行各业发展和转型的主题词。人工智能技术也日益应用在广泛的经济和社会领域,从消费级的商业产品演进到企业级的体系性运用,助力打造企业核心竞争力。2 .国家规划人工智能战略,全面推动产业升级换代以习近平同志为核心的党中央高度重视科技发展,前
6、瞻布局人工智能等新兴技术领域,推动出台系列国家政策规划。2015年,国务院先后倾布中国制造2025关于积极推进互联网+”行动的指导意见,首次将人工智能纳入产业发展重点任务。2016年,人工智能写入十三五规划;2017年,国务院发布新一代人工智能发展规划,正式将人工智能上升到国家战略层面。2019年,人工智能作为新基建的重要领域纳入政府工作报告,受到产业界的高度关注。在顶层规划的引领下,工信部、科技部等部委和省市地方政府陆续推出专项规划和实施意见,积极孵化和扶持人工智能产业。在国家战略和政策的有力推动下,基于健全的产业体系和完善的信息基础设施,我国已形成人工智能规模化应用和技术迭代的良性循环,发
7、展水平居于世界前列。科技研发方面,斯坦福大学人工智能报告统计显示我国2021年会议论文发表和专利申请数量世界排名第一。综合实力方面,根据2021年7月世界人工智能大会发布的全球人工智能指数,我国在基础支撑、创新资源和环境、科技研发和产业应用四个维度的综合评测排名世界第二,仅次于美国。市场规模方面,随着AI应用产业的不断扩大,IDC预测2025年我国人工智能市场支出规模有望突破184.3亿美元,占全球总规模的8.3%,世界排名位列第二(如图2所示)。中国人工智能市场支出预测,2020-2025图2我国人工智能市场发展预测(IDC2022)(二)智慧金融重塑业态,普惠民生倡导低碳人民银行组织印发金
8、融科技发展规划(2022-2025年),提出以人为本、全面推进人工智能技术在金融领域深化应用的指导思想,着力打造以数字、智慧、绿色、公平为特征的金融服务能力。1 .人工智能推动智慧金融商业银行持续运用人工智能技术赋能业务实践,在客服、营销、风控等方面取得显著成效。智能坐席、智能外呼等新应用正在重塑银行服务业态。根据中国银行业协会的统计数据,2021年客服中心和远程银行从业人员比2020年减少4200人,降幅7.72%,一改逐年递增的势头。智能营销、智能投研等应用基于AI模型预测客户需求和金融市场动向,助力银行把握市场先机。英伟达2022年的金融行业AI应用情况调研显示,超过30%的受访机构认为
9、人工智对营收带来超过10%的提升率。智能风控综合运用联邦学习、图挖掘、人工智能等前沿技术对支付、信贷、投资业务中的各种风险进行全面监控和预警。以反欺诈模型为例,AI模型相对传统规则模型在精准率上提升可达60-70%,在银行业已得到广泛的采用。2 .智能技术促进普惠金融商业银行充分运用金融科技新技术,结合内外部数据,完善小微企业的数字信贷流程和信用评价模型,为小微企业提供方便快捷的线上融资服务,切实纾解企业融资难、融资贵等问题。如基于大数据和区块链技术,对核心企业与上下游中小微企业间的交易数据进行智能化信贷决策分析,批量、便捷地提供金融服务。适老化?口无障碍改造方面,各大商业银行结合图像识别、语
10、音识别、虚拟现实等新技术,基本已完成网点布局、人工和柜面服务、手机APP等多方面的改造,为不同人群打造无障碍的金融服务体系。以电话银行为例,中国银行业协会的调研显示62%的电话银行已具备自动识别老年客户的功能,47%的电话银行设有老年客户直通人工服务选项。3 .智慧碳查赋能绿色经济商业银行积极响应国家碳达峰、碳中和目标,探索利用人工智能等技术建立绿色信息监测与分析模型,搭建风险知识图谱提升绿色金融风险管理能力,为企业提供绿色信贷、绿色债券等多元化碳金融产品和服务。针对绿色信贷中的信息不对称、标准不统一等难题,头部商业银行基于物联网、区块链、5G等技术建设绿色项目综合信息平台,打造绿色信用评价体
11、系,运用大数据、机器学习等技术手段提升绿色信贷的智能定价和业务营销能力。为有效应对绿色债券业务中环境信息披露内容质量的把控难点以及洗绿”行为鉴别等问题,业界探索利用AI技术对新闻、媒体、论坛等广泛信息进行事件提取和关联性分析,核验披露信息准确性。4 .互联感知加持农村金融商业银行贯彻落实乡村振兴战略,结合县域村镇银行线下渠道和手机银行APP.微信小程序等线上渠道,促进金融服务渠道的融合化发展,提供差异化定制服务,扩大农村金融覆盖面和服务质量。在此基础上,积极加强与农村经营主体的信息共享合作,发挥数据要素倍增作用,引导资金、技术等现代生产要素向农村特色产业集群W优势农业领域聚集。头部商业银行已在
12、涉农信贷领域中引入卫星遥感、电子围栏等技术,强化农产品全产业链数据资源的整合分析,助力农业生产经营和管理数字化改造,赋能信用额度评估和贷后管理。二、内外循环生态互动,夯实产业技术基础人工智能集成了计算机科学、生物学、语言学等诸多学科领域,产业链贯穿数据存储、计算芯片、算法框架、服务平台和应用集成等系列环节,其快速发展离不开健全的产业生态体系。商业银行应当积极对接国际先进技术理念,主动参与营建国内产业生态,强本固基、勇于创新,持续推动人工智能金融应用水平迈上新的高度。(一)金融业人工智能生态日趋完善1 .标准机构制定行业规范产业发展,标准先行。随着人工智能应用的推广普及,各标准化组织纷纷制定人工
13、智能相关的标准规范。国际标准方面,截止2022年10月,国际化标准组织ISO/IECJTC1/SC42人工智能专委会,已发布标准15个,在建标准24个,构建了较为完善的人工智能标准体系框架。国内标准方面,2020年7月,中央网信办等五部门发布国家新一代人工智能标准体系建设指南,我国人工智能产业标准化进程步入快车道。全国标准化技术委员会(SAC)下设信标委(TC28)面向人工智能通用领域,已发布信息技术人工智能术语、信息技术人工智能平台计算资源规范等标准。信安标委负责信息安全技术领域,正在推进信息安全技术机器学习算法安全评估规范(征求意见稿)等标准的建设。金标委(TC180)面向金融人工智能领域
14、发布了人工智能算法金融应用评价规范行业标准,强化金融人工智能的算法安全。2 .行业团体促进生态共建社会各界响应国家政策号召,积极成立行业及团体组织,共同推动人工智能产业生态的健康发展。人工智能领域,在国家发展改革委、科学技术部、工业和信息化部、中央网信办四部委的共同指导下,中国人工智能产业发展联盟(简称A11A)于2017年10月成立,拥有会员单位737余家,构建了覆盖基础软硬件、服务平台、基础应用、智能产品应用和服务以及安全评测5个技术领域的评估认证体系,先后主办了世界人工智能大会”等人工智能会议、高峰论坛,支撑了我国人工智能产业生态建设。目前,工商银行、交通银行、招商银行等金融机构均与An
15、A开展了深度合作。金融行业,在人民银行的指导下,北京金融科技产业联盟(以下简称联盟)于2019年10月成立,旨在推动落实人民银行金融科技相关政策要求,促进我国金融科技良性可持续发展。联盟下设人工智能专委会,成员单位90余家,涵盖认证机构、商业银行及相关科技企业,组织会员单位进行联合技术攻关、标准制定、产业研究、政策传导、实验室建设等,促进金融科技合作,为金融人工智能应用和可持续发展提供合作交流平台。3 .产研机构共探技术创新人工智能作为一门新兴学科,虽然已经展现出巨大的应用价值,但其应用仍然存在着开发成本偏高、通用泛化能力不足、安全和可解释性等问题,有待学术界和产业界对新技术研发的持续投入和攻
16、坚克难。科研机构开拓前沿边界。国内科研机构和科技企业不断提升研究水平,根据2022年度的AI研究机构影响力排名(如图3所示),清华大学、阿里、商汤科技、腾讯、中科院所、南京大学等机构进入前100名。清华大学联合发布AI攻防对抗基准平台,涵盖数十种典型攻防算法;商汤科技和上海人工智能实验室联合打造统一模型架构UNiFormer,性能好功能全,可用于图像分类、视频分类、密集预测等下游任务;中科院自动化研究所自主研发的极低比特量化神经处理芯片(QNPU),助力AI轻装上阵;南京大学提出面向多义性对象的新型机器学习理论与方法,推动机器学习前沿技术蓬勃发展。Google00MetMicrosoftrSc
17、holars: 181Scholars: 87Scholars: 65Scholars: 47.StanfordGW& UnhfrriltyG DMpMindWASHINGTONScholars: 41Scholars: 32Scholars: 31Scholars: 28lri,Qnyu = Scholars: 27Scholars: 21Scholars: 20Scholars: 18UCSanDiego修里IGeorgia ITech IScholars: 17Scholars: 16Scholars: 15Scholars: 15(4lkgiw Mellon I IiivcrsilyS
18、cholars: 44amazonScholars: 28零TORONTOScholars: 17Scholars: 14图3AI最具影响力的2000名学者机构分布(AMiner2022)技术厂商打磨产品服务。国内各大科技公司在人工智能全栈技术领域持续布局发力、打磨产品和服务。人工智能计算设备方面,已出现自主技术赶超国外先进水平的趋势。以华为海思、地平线、寒武纪、中星微电子、阿里平头哥等头部公司为主要代表推出了NP.GPU等算力密集型芯片等,性能已开始接近国外对应厂商的水平。在服务器方面,以华为、浪潮、新华三等头部公司为主要代表推出了各类人工智能训练及推理服务器,支持中心侧、边缘侧主要计算任务
19、场景。这些服务器产品在性能、可靠性方面已接近国际主流水平。在计算中心解决方案领域,国内的技术和服务在世界范围内处于较高水平,代表企业包括华为、浪潮、曙光等信息和通信技术的行业巨头。在软件工具及应用服务方面,呈现出了百家争鸣的态势。相关企业或聚焦于单个领域,或在多个领域都有很好的建树。例如科大讯飞、思必驰、出门问问等聚焦语音领域;海康威视、依图、旷视等专注计算机视觉;海致星图、百分点科技等精于知识图谱;百度、腾讯、阿里、华为等大型人工智能企业跨领域全面打造产品能力。在人工智能应用层面呈现出井喷的态势,如智能安防、智能金融、智能医疗、智能出行、智能教育、智能客服等,智能应用已经渗入生产生活的方方面
20、面。人工智能产业近5年企业数量持续增长。据全球TMT的调研,截至2022年上半年,我国共有209.5万余家人工智能应用或服务相关企业。蚂蚁集团、京东科技、同盾科技等科技公司在金融领域内不断深耕和开拓,基于大数据、隐私计算和人工智能技术提供智慧金融产品和解决方案,赋能金融行业的营销和风控场景。4 .金融单位推广场景应用商业银行近年来持续加大科技投入力度。和讯网2022年调研显示,2021年A股22家上市银行的科技投入超过1681亿元。其中,3家银行2021年科技投入超过200亿元,均为国有大行。巨大的投入促进了技术能力的更新换代,加速了银行业务场景的智能化转型。如工行在打造领先的企业级自主创新技
21、术平台方面,为推进数智融合构建企业级数据中台,实现全集团数据全入湖,沉淀14大类客户特征,为业务系统提供千余个企业级数据服务,覆盖客户营销、产品创新、风险防控、运营管理等各大领域场景;升级人工智能技术平台,利用数字人、智能问答、语音等交互技术落地600+具有数字员工属性的智能应用场景,支持“智慧大脑”营销升级,为7亿个人客户提供千人千面的智能服务方案。在探索前沿技术新高地方面,将卫星遥感技术和人工智能技术融合,借助高分辨率卫星遥感数据配套智能化监控模型,在农作物生长、大型工程类项目建设等场景进行贷后监控管理。(二)基础设施产业链多样化良性发展1 .人工智能基础算力2012年以来,以深度学习为代
22、表的新一代人工智能技术得到快速突破和应用,成为主流技术。深度学习算法对卷积、矩阵乘法运算任务以及内存存取等操作较为频繁,为执行串行逻辑运算而设计的CPU运行深度学习算法效率较低,难以满足需求。人工智能芯片满足人工智能场景复杂且多样性的计算需求,成为深度学习的主要算力支撑。现阶段人工智能芯片类型主要涵盖包含GPU.FPGA.ASlC等。头部企业方面,Google通过自研TUPAl芯片,提供云、框架、芯片的全栈人工智能解决方案,当前已发布TPUv4AI芯片,并将4096个TPUv4整合成一个Pod,单Pod算力超过2EFL0Pso英伟达A100系列GPU,FP16算力最高达到624TFLOPso华
23、为先后发布了面向训练的昇腾910和面向推理的昇腾310两种人工智能芯片其中ASCend910单卡FP16算力超过430TFLoPs。阿里研发的含光800人工智能专用芯片,并建成了单日数据处理量突破600PB的超大计算平台。2021年百度发布昆仑2.0XPU通用AI芯片,单卡FP16算力128TFLOPs同年腾讯旗下燧原科技云燧T2x系列芯片单卡FP16算力128TFLOPso近年来,随着算法的持续发展,算力需求从TFLOPS级别增加到PFLOPS级别,甚至开始进入EFLOPS级别。同时,超大规模预训练深度学习模型、自动模型结构搜索等新方法的涌现,导致计算需求持续增加。为了解决迫切的Al计算需求
24、,人工智能计算中心向人工智能算力网络演变,通过新型网络技术将各地分布的人工智能计算中心节点连接起来,动态实时感知算力资源状态,进而统筹分配和调度计算任务,构成全国范围内感知、分配、调度人工智能算力的网络,在此基础上汇聚和共享算力、数据、算法资源。这种计算资源协同的新模式,将成为加速数字经济发展的新动力。2 .云原生AI平台随着人工智能技术的深入发展,人工智能应用越来越多的应用到了企业经营管理各环节当中,如何高效的开发和部署人工智能应用是其可持续发展的关键一环。云原生基于微服务和容器化技术,能够充分发挥云平台的弹性扩容、敏捷分发、高效易用、兼容适配等优势。而基于云原生的Al开发平台集成了数据资源
25、管理、智能标注、可视化建模、计算资源分配、云原生应用部署等功能模块,帮助企业敏捷、高效、安全地利用数据进行人工智能应用开发,并在应用部署过程中实现成本优化和灵活的版本控制,已成为各企业人工智能开发和部署的主流平台。当前亚马逊、微软、谷歌、VMware.Docker.RedHat阿里、腾讯、华为、百度等企业都推出了相关的云原生解决方案,也有创业公司加入潮流之中,例如HashiCorpxKong、Datadog.谐云科技、时速云、智领云等。在金融行业数字化转型的驱动下,国有银行、股份制银行和各级商业银行也纷纷步入容器化的进程。以工商银行为例,应用平台云容器规模超20w,业务容器规模55000,核心
26、应用基本全面入容器云。3 .深度学习软件框架深度学习模型的开发过程包括数据预处理、模型训练、模型评估、模型推理转换等几个步骤。在模型的选型上,涉及利用多种模型算子构造出适用于特定问题的模型结构。在训练环节中,为了保证训练过程的快速收敛,需要不断调整训练规则和超参,训练过程自身还涉及到的梯度反向传播等基础算法,学习门槛相当高。为了提升研究人员和开发人员的工作效率并营造开发者生态,伯克利、谷歌、Meta(前身是Facebook)、微软、百度、华为等顶尖院校和头部科技企业相继推出了CaffexTensorfIowxPytorchxCNTKxPaddIePaddIexMindSpore等深度学习软件框
27、架。其中,又以TenSorflow、PytorCh两个平台最为成功,受到人工智能开发者的青睐。例如,Pytorch支持便捷的数据加载和处理并行化,拥有丰富的特征工程接口,可灵活构建各类模型。其动态图特性可支持快速调试和多机多卡并行训练等特性。这些特性,使人工智能软件框架其成为人工智能开发过程中不可或缺的工具。当前国际竞争日益激烈化,在应用人工智能的过程中自主可控就显得尤为重要。国内百度、华为、小米、阿里、腾讯、旷视、一流科技等公司也相继推出了PaddIePaddIexMindSporexMACE、PocketFIowsX-DeepLearningxBrain+xOneFIOW等深度学习、推理平
28、台,为人工智能行业的国产替代打下了坚实的基础。以百度的PaddIePaddie为例,其拥有较为完善的深度学习平台功能,具备更易用、更快速的业务集成等特点,涵盖了从开发、训练到部署的一整套能力。在开发层面,PaddIePaddIe已开源60多个经过真实业务场景验证的官方模型,涵盖视觉、NLPx推荐等Al核心技术领域,成为官方支持模型最多的深度学习框架。目前Paddle累计开发者477万,服务企业18万家,基于飞桨开源深度学习框架产生了56万个模型,开发生态初具规模。整体上,由于国内人工智能软件框架的建设起步稍晚,国内企业在人工智能发展生态上相比起谷歌、Meta还有一定的差距,需要在理论创新、发展
29、模式上下足功夫、力争上游。(三)智能模型能力全方位成长1 .垂直领域持续衍生,模态融合方兴未艾深度学习的基础组件深度神经元网络简单来说是一个万能函数模拟器,无论一个函数多么复杂,理论上总存在一个神经网络能够拟合这个函数,因此神经网络具有强大的预测能力。该基础属性使得深度学习上的技术突破具备很强的通用性,从最初的计算机视觉任务很快渗透到语音、自然语言处理、智能决策等方向上。然而各个领域的任务各有其特点,在深度学习模型的运用过程中衍生出各异的方法,分化成丰富的技术垂直领域。图像识别可从2D图片或3D影像中识别物体的类型、尺寸、位置等信息,例如文字识别(OCR)、人脸识别、动作识别等。自然语言处理技
30、术可以基于用户输入文本完成语义分析、内容理解、机器翻译、文本生成等典型任务。知识图谱可揭示实体之间的语义网络,在很多场景下也用来表达现实世界中的事物多关系图,在NLP相关技术和大数据分析发挥关键性作用。生物识别通过采集和检验人体固有的指纹、面部、虹膜等生理特性,笔迹、声音、步态等行为特征来进行个人身份的鉴定。音视频相关的语音识别、语音合成、歌声合成、语音唤醒、声纹识别、声音事件检测、视频编辑、视频分析、视频超分、视频生成等,已广泛应用在了各行各业当中。其中语音识别是语音助手、智能家居、服务机器人、虚拟人、智能客服等应用的重要入口。虚拟现实通过对三维世界视觉、听觉、触觉等感官的模拟,为用户提供身
31、临其境的沉浸式体验,并能在虚拟环境中与物体、人物等环境对象进行互动。流程机器人(RPA)与Al深度融合之后变成超级自动化流程机器人,已经成为降本增效的利器。这些人工智能技术已广泛应用于银行业的自动识别和录入、身份认证、智能客服、舆情分析、财报分析、反欺诈、风控、征信、审计等场景。检视人工智能垂直领域列表,可以看出很多领域是按照信息源的类型来划分的,比如视觉、听觉、符号语言等。而在现实世界中,人类感知、认知和决策通常是综合了多种信息源。比如在嘈杂的环境下,普通人可以注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音,而传统的语音助手在同样情形下无法有效的捕捉特定用户的声音加以识别。谷歌提
32、出了音频-视觉模型,结合输入音频和视觉信号来识别语音,最终效果是只需要视觉框住特定人物的人脸就可以在多人同时说话的场景下识别特定人的语音。华为融合语音识别和唇语识别两种方案用于鸿蒙座舱之中,综合性能超过了单独使用某种模态的识别率。多模态融合技术能够利用各种模态信息优势互补的优点,在自然语言理解、视频理解、视频检索等领域大放异彩,已成为当前人工智能的研究热点,在银行业数字员工、智能客服、复杂图表文案识别、综合身份认证等场景上有着极大的应用潜力。多模态技术的发展也彰显了人工智能在方法论上从循序渐进的分而治之演进到游刃有余的多多益善,预示着技术能力跨上一个新的台阶。2 .超大模型全新赛道,轻量模型推
33、广应用随着深度学习在专用标注数据上性能趋近瓶颈期,研发机构开始设计和采用更大的深度网络模型,并用更大更广的数据量来进行训练(如图4所示)。模型参数量从过去的几亿参数量到现在的千亿万亿参数量甚至以后的十万亿百万亿,训练数据量则上升至数十TB的规模。大模型的主要发展领域集中在自然语言处理领域,近年来蔓延扩展到图像处理、语音识别等领域以及多模态方面的应用,呈现出通用化的趋势。/74才电图4AI模型规模不断提升在技术原理上,更大的模型能够通过训练来学习和表征更加丰富和复杂的数据特性和模式,从而能够做出更精准的判别,具备其技术合理性。大模型的发展,除了在模型准确率上追求极致,还可以通过同时学习各领域、各
34、模态相关知识而具备通用能力。此外,大模型除了在训练算法上需要很高的专业技巧,在算力方面也开销惊人。例如GPT-3大模型的训练,如果在单机8卡(NVidia-Vl00)的服务器上训练,需要36年的时间。在实际情况下,各大科技公司都是通过专用超级计算机或者计算网格的方式来实现大模型的全量训练,具备相当的技术门槛,可以成为企业的护城河。因此从国外的Bert、GPT-3、ViTxV-MoE到国内的盘古、悟道、M6、紫东.太初等,大模型已成为头部科技公司争先抢占的赛道。对于银行业,大模型也具备现实的应用价值。虽然大模型技术还远未达到超级通用智能的水平,但得益于其训练过程中的海量数据,见多识广,可以作为一
35、种通用的基础预训练模型,在其基础上通过少量金融场景专属训练数据来对模型进行微调训练,即可完成模型开发,可以极大地降低训练数据准备成本和开发周期。此外,随着金融数据规模的逐步扩大,数据模态的进一步丰富,面向更为复杂的智能决策场景,能力出众的大模型也将会成为自然的技术选择。相对于大模型追求性能极致,轻量模型的发展深刻地体现出技术普及化的特点。对于追求快速现场响应、隐私保护和节能;翩E等场景则需要直接将模型部署在台式机、工控机、移动设备等设备上。模型轻量化成为提升模型运行效率的主要方向。知识蒸储、剪枝、量化等模型轻量化手段逐步成熟,主流模型可达十几倍压缩率。如利用知识蒸储等方式,从BERT模型中提取
36、压缩模型Bort,压缩后模型大小仅为BERT-Large的6%,推理速度提升7倍;再例如LiteTransformer模型,是结合量化?口剪枝技术将Transformer模型压缩95%后得到。模型轻量化技术对于银行业也是重点关注的技术领域,存在很强现实的需求。比如手机APP端通过端边的图像识别模块来进行卡证识别或者签名识别,不但能够有效的降低响应时延,提升用户体验,对用户隐私数据的保护也能够起到重要作用。止匕外,通过对训练好的大模型进行轻量化改造,也能够有效的降低大模型部署的算力和系统开销,为大模型的推广使用铺平道路。3 .模型训练取得突破,学习成本持续下降深度学习的典型训练模式是,通过对大量
37、的训练数据进行期望输出结果的标注,来指导模型拟合神经元参数,因此这种方式也被成为监督学习模式。训练数据的收集准备,以及为每条数据标注标准答案,往往涉及到大量的人力投入,导致模型开发成本很高,业界一度有戏称为人力堆出的智能。在自然语言处理的大模型发展过程中,从互联网可以获取到海量的语料数据,但是为高达数十TB的数据进行标注是无法想象的艰巨任务,从而激发了自监督学习的发展。自监督学习能够从大规模的无标注数据中挖掘自身的监督信息,通过这种构造的监督信息对深度网络模型进行训练,学习到对下游任务有价值的表征彳导到预训练模型。对于场景专属的下游任务,通过少量的有标注数据进行微调训练,将之前学习到的模型参数
38、进行迁移,从而得到一个能适应新任务的模型。近年来,自监督训练已逐渐成为广受关注的深度学习前沿领域,并在自然语言处理、计算机视觉与语音处理领域取得了巨大成功。图5展示了图像识别领域的自监督学习方法原理,即在训练过程中,对原始图片添加噪音扰动进行异化,作为模型的输入,模型的输出也是图片形式,和原始图片作对比,得出的差值作为监督信号反馈给训练过程,促使深度网络能够复原出原始输入图片。这样得出的模型主干网络可以很容易的应用到图像的分类、检测等任务中去。复原为原图训练数据无需标注图5图像识别模型自监督训练原理自监督学习较好的解决了标注成本的问题,但是仍然要求大量的输入数据样本作为训练数据。在很多应用场景
39、中,难以提供大量的数据样本,尤其是一些创新应用场景,场景数据的积累本身有限。针对这样的问题,小样本学习,通过采用数据增广、度量学习、元学习等技术,实现低成本、快速的模型开发和部署上线,特别适合于智能场景的冷启动。小样本学习的技术发展,也涉及到对更高阶智能原理的探索和挖掘,对于人工智能的进一步发展有着重要的意义。银行业人工智能模型的开发,也普遍面临着数据准备成本高,开发上线周期长的问题,有必要加强对自监督学习和小样本学习技术的掌握和运用。4 .数据驱动挖掘模式,知识增强提炼洞见当前以数据驱动为特征的人工智能技术体系,虽然取得了巨大的成功,但在实践中也越来越暴露出以下的问题。一是学习效率低,体现在
40、模型规模持续增长,训练算力开销居高不下。二是擅长学习统计意义上的模式,不具备深度理解和逻辑推理的能力,比如自然语言生成任务仍然容易出现反常识、反逻辑的话术。三是模型的鲁棒性尚存在挑战,当引入人类无法察觉的攻击性噪声后可能导致识别错误。以上问题,相当程度上是由于当前的数据驱动的深度学习范式虽然擅长利用事实或证据,但本质上不具备知识归纳和演绎的能力。将知识融入到深度学习方法中去是当前模型技术的一个热点。知识增强的深度学习模型已开始出现在自然语言处理中,如近期发布的脆城-百度的文心大模型,在全球60多项自然语言处理任务中取得了领先的效果。其基本思想是在模型训练中,除了传统的语料数据外,将知识信息,如
41、语言学、常识、百科全书等知识经过编码后注入模型的训练过程中去,从而使模型学习更加高效,生成的模型也更加精准、鲁棒和安全。目前的知识增强模型,在实现思路上类似多模态模型,知识信息仅作为一个额外的信息源注入模型训练,未来的技术演化方向还有很大的想象空间。从更长远看,发展安全、可信、可靠和可扩展的下一代人工智能技术,需要大力推进知识驱动与数据驱动的混合增强智能,强调人在智能系统中的作用,将机器擅长的运算存储能力与人类的抽象迁移能力结合,提升智能系统的泛化能力和决策水平。银行业存在大量的领域知识需要在业务决策中充分考虑,对智能模型的安全性、鲁棒性也有很高的要求,知识和数据混合的增强智能技术将是银行智能
42、化水平提升的重要支撑。三、科技向善不忘初心,安全可信顶层设计人工智能技术正在深刻改变人们的生产生活方式,与之相伴的是伦理风险、数据隐私、算法偏见等安全风险。促进可信人工智能的发展具有重要的战略意义。我国十四五”规划纲要明确要求加快推进科技治理能力现代化,落实完善国家科技治理体系”的决策部署。在2021年世界人工智能大会可信AI论坛上发布的促进可信人工智能发展倡议,也提出科技向善,确保可信AI造福人类的理念。(一)科技伦理治理日渐完善早在2019年6月,国务院发布的新一代人工智能治理原则着重提出了发展负责任的人工智能”这一主题。2022年3月20日,中共中央办公厅、国务院印发关于加强科技伦理治理
43、的意见,意见给出了科技伦理治理的基本原贝人制度框架和主要措施。人民银行在发布的金融科技发展规划(2022-2025)中,提出健全金融科技治理体系的重点任务,人行金融科技委员会将推动金融领域科技伦理治理作为当前及今后的重要工作任务。在标准规范上,人民银行于2022年10月发布了金融领域科技伦理指引行业标准,该指引明确了金融科技伦理的价值理念,从守正创新、数据安全、包容普惠、公开透明、公平竞争、风险防控、绿色低碳7个方面提出了共33条具体行为规范,多家金融机构参与了制定。工行牵头联邦学习技术金融应用规范将多项隐私计算标准工作,积极参与人工智能算法金融应用信息披露指南等行业标准制定,促进隐私保护,提
44、升金融人工智能算法应用的安全性。在认证服务方面,2022年3月,北京国家金融科技认证中心启动人工智能金融应用伦理影响评估,作为国家级认证机构,贯彻”以人为本、科技向善、权益保护、责任担当的伦理理念,聚焦算法滥用、数据鸿沟、隐私保护等挑战,研制人工智能金融应用伦理影响评估模型与指标体系,探索推出人工智能金融应用伦理影响评估服务并启动试点。(二)算法应用评估初成体系人工智能技术提升业务能力、节省运营成本的同时,也存在着风险隐患,如算法安全导致的应用风险、黑箱模型导致算法不透明、数据歧视导致智能决策偏见、系统决策复杂导致责任事故主体难以界定等。因此关于建立可信人工智能体系的相关内容越来越受到监管重视
45、。央行发布的人工智能算法金融应用评价规范从安全性、可解释性、精准性和性能方面开展AI算法评价。央行金融科技委员会在2021年重点工作会议中提出要推动金融领域科技伦理治理体系建设,从算法伦理和公平性方面提出了要求。网信办发布的算法推荐管理规定提出不得利用算法屏蔽信息、过度推荐、实施不正当竞争等,对算法的公平性做出规定。(三)模型安全评估逐步深化随着模型在银行业务中的应用日益广泛,模型复杂程度也不断提高,国际社会上模型安全问题开始受到监管机构和金融机构管理层的高度重视。2011年,美联储/货币监理署发布了第一个模型风险管理的相关法规模型风险管理监管指南,明确了模型风险管理框架,包括模型风险管理定义
46、、模型实施、模型验证等。2014年,欧洲银行管理局将模型风险管理纳入巴塞尔协议第二大支柱,并在2019年发布内部模型ECB(欧洲中央银行)指南,包含模型风险安全治理顶层原则、内部验证、模型使用、内部审计和评级方法等模型安全治理内容。国内相关部门也正在积极开展模型安全相关标准的立项工作,如工行在北京金融科技产业联盟指导下牵头在建金融行业人工智能模型脆弱性测试规范,规定了金融行业人工智能模型的脆弱性测试范围、测试过程、指标以及测试方法等,目前已立项。目前国内业界已开展的第三方认证评测服务是由中国信通院牵头,与20多家企业单位共同制定的人工智能模型风险治理能力成熟度模型团体标准,针对组织在开发、实施
47、和使用人工智能模型过程中面临的主要风险挑战,根据国家法律法棚口监管要求,规范模型生命周期各环节中的风险治理活动,快速灵活应对模型风险,推动科技向善。包括工行、招行在内的多家商业银行,多家模型已通过中国信通院的认证。四、打造金融智慧中枢,创新应用百花齐放银行业对人工智能新技术先试先行,拥抱数字化智能化转型,在企业级人工智能能力建设上,从技术、运营、管理各个层面持之以恒的探索和实践,对金融业务进行全面赋能。(一)企业级技术平台筑基智能化转型生态化应用深入应用为实现岸梅Al能力的标准琉一管控.Al幅力的JKil化共事共SLAl能力可持续迭代运营,Ia制和ItiflAI中台,试点应用0队工平台,实现金
48、移人工技术UL金IM升企业18人工HIS平台的B生产.s.送膏并梆IMMtl业务融域的5M场IIL成立mw学事.及穷Il力,形成数字企业的Al智M中旭,助力全场景企业内部需求W在-*用场量II网文破.V人工ImI展化人工IMBM,顺实现1全领喻现履化.标准化.三JrtaAlfflUf,实现全面日MiRM.WiOCRiRHW砌5B栩k题MittM有M型目信图6AI能力建设阶段图商业银行的人工智能应用历程,大致可以分为三个阶段,如图6所示。经过早期的验证性试点应用,大型国有行和股份制银行纷纷把Al能力作为企业的核心技术能力来建设,综合自研、联创、采购多种方式打造人工智能企业级技术平台。技术平台的构架贴合人工智能的技术栈体系自下而上按照算力、算法、技术框架、AI开发工作站、智能服务形成分层复用的能力(如图7所示),有力的支持了智能服务早期的规模化应用。图7人工智能平台随着