海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx

上传人:夺命阿水 文档编号:476051 上传时间:2023-07-18 格式:DOCX 页数:26 大小:316.63KB
返回 下载 相关 举报
海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx_第1页
第1页 / 共26页
海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx_第2页
第2页 / 共26页
海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx_第3页
第3页 / 共26页
海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx_第4页
第4页 / 共26页
海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx》由会员分享,可在线阅读,更多相关《海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx(26页珍藏版)》请在课桌文档上搜索。

1、股票代码:688787股票简称:海天瑞声北京海天瑞声科技股份有限公司(BeijingHaitianRuishengScienceTechnologyLtd.)(北京市海淀区成府路28号4-801)海天瑞声DzvtaoceanAl2023年度向特定对象发行A股股票募集资金使用可行性分析报告除非文义另有所指,下列简称具有如下含义:专业术语人工智能/AI指英文为ArtificialIntelligence,缩写为AL是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。生成式人工智能/生成式AI指生成式人工智能(GeneratiVeAl)是使用机器学习和深度学习算法,从

2、现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据,如图像、音频、视频和文本,并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用。大模型指大模型就是FoundationMOdel(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。数据生产垂直大模型指海天瑞声数据生产垂直大模型,是公司利用大模型理论和算法,自主打造的面向人工智能数据基础服务的技术底座,实现面向多个下游数据任务的设计与处理等规则及内容的多项生成能力模型。多模态指多模态机器学习(MUlti-modalMachineLearning)是一种机器学习方法,用于处理多种类型的数据,

3、如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模,以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型。深度学习指英文为DeepLeaming,缩写为DL,是从机器学习中的人工神经网络发展而来的多层人工神经网络和它的训练方法是一种基于人工神经网络的机器学习,其中多层处理被用来从数据中逐步提取更高层次的特征。人类反馈强化学习指英文为ReinforcementLearningfromHumanFeedback,缩写为RLHF,是一种机器学习方法,旨在使智能系统从环境中学习,通过引入“奖励”和“惩罚”信号,让系统自行探索环境并学习最佳行

4、为策略,以最大化某种特定目标。人工智能基础数据、训练数据、人工智能基础数据服务指人工智能基础数据、训练数据均指通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据;人工智能基础数据服务指为Al算法训练及优化提供的数据集设计、数据采集/获取、清洗、标注/优化、评测等服务。计算机视觉指英文为ComputerVision,缩写为CV,是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等。自然语言处理指英文为NaturalLanguageProcessing,缩写为NLP,是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用

5、自然语言进行有效通信的各种理论和方法。AIGC指AIGeneratedContent,是指利用人工智能技术来生成内容。ChatGPT指美国OPenAl研发的聊天机器人程序,ChatGpT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。GB指千兆字节,是数字信息存储容量的一个单位。它被用来衡量文件、文档和数据存储设备的大小。一个千兆字节是1024兆字节。TB指太字节,是数字信息存储容量的一个单位。一个太字节是1024个千兆字节。ZB指Zettaby

6、te,是数字信息存储容量的一个单位。一个Zetta字节是100万太字节。它代表了一个巨大的数据存储容量,通常在讨论大规模数据中心、全球数据流量或主要组织或行业的存储需求时使用。Transformer技术指Transformer技术是一种基于自注意力机制的神经网络架构,广泛应用于自然语言处理和计算机视觉等领域。TranSfOrmer技术在机器翻译、文本生成、语言理解等任务中取得了显著的成果,并成为目前自然语言处理领域的主流模型。OpenAI指OPenAl是一家美国人工智能研究实验室和公司,在人工智能的各个领域进行前沿研究。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、

7、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。Prompt提示文本,提供模型完成下游任务所需的上下文等信息,以帮助模型更好地理解任务需求,从而更好地完成下游任务。预训练/Pre-training指预训练是通过在大规模数据集上进行初始训练,学习通用特征和表示的机器学习方法。预训练模型可用于后续任务,并在多个领域应用广泛。模型微调/Fine-tune指微调,是一种常用于预训练模型的模型优化技术,基于己经训练好的预训练模型进行微调,使模型能够更好地适应目标任务。奖励模型/RewardModel指奖励模型(ReWardMOdel)是在强化学习中使用的一种关键概念。它定义了在特定任

8、务中,智能体所追求的目标和奖励的方式。奖励模型通过指定在智能体采取行动后,所获得的奖励信号来引导智能体的学习和决策过程。奖励模型可以基于任务的目标设定,对智能体的行为进行正向奖励或负向惩罚,从而影响智能体的策略优化和决策选择。智算中心指全称人工智能计算中心,指为人工智能(AI)开发和应用提供所需算力服务、数据服务和算法服务的机构。StableDiffusion指由StabiliIyAl公司(英国一家人工智能企业)于2022年推出的图文生成模型,用于从提示信息的自然语言描述中生成图像。本次募集资金使用计划北京海天瑞声科技股份有限公司(以下简称“公司”)2023年度拟向特定对象发行A股股票(以下简

9、称“本次发行”),募集资金总额不超过人民币78,989.00万元(含本数),扣除相关发行费用后的募集资金净额拟用于以下项目:序号项目名称项目投资总额(万元)拟投入募集资金额(万元)1AI大模型训练数据集建设项目38,337.3638,337.362数据生产垂直大模型研发项目40,651.6440,651.64合计78,989.0078,989.00注:项目名称最终以主管部门核准或备案名称为准在本次发行募集资金到位前,公司将根据募集资金投资项目的实际情况,以自筹资金先行投入,并在募集资金到位后按照相关法律、法规规定的程序予以置换。募集资金到位后,若扣除发行费用后的实际募集资金净额少于拟投入募集资

10、金总额,在本次发行募集资金投资项目范围内,公司将根据实际募集资金数额,按照项目的轻重缓急等情况,调整并决定募集资金的具体投资项目、优先顺序及各项目的具体投资金额,募集资金不足部分由公司自筹解决。若本次发行募集资金总额因监管政策变化或发行注册文件的要求予以调整的,则届时将相应调整。二、募集资金投资项目基本情况及可行性分析(一)Al大模型训练数据集建设项目1、项目背景(1)人工智能产业加速发展,基础数据服务业规模不断提升随着互联网、云计算、物联网以及穿戴设备的发展,数据要素价值不断释放,数字化转型成为大势所趋。人工智能作为数字经济发展的底层核心技术之一,成为数字经济发展的重要战略抓手。2022年底

11、ChatGPT的出现,掀起又一波人工智能发展热潮,以无监督学习模式为代表的预训练+人类反馈强化学习所构成的大模型技术路线的落地意味着人工智能开启发展新范式,基础模型能力通过预训练及基于人类反馈的强化学习得到不断解锁,以解决海量开放式任务。根据艾瑞咨询数据,2022年中国人工智能产业规模为1,948亿元,预计2027年市场规模将达到6,122亿元,年复合增长率为25.6%,主要与智算中心建设以及大模型训练等需求拉动的Al芯片市场、无接触服务需求拉动的智能机器人及对话式Al市场等快速增长相关。图12020-2027年中国人工智能产业规划(单位:亿元)在人工智能产业链中,算法、算力和数据共同构成技术

12、发展的三大核心要素。过去十年,人工智能产业以算法为中心,随着算法趋于开源,数据的重要性愈发凸显。在人工智能模型从技术理论到应用落地的过程中,需要依赖大量的训练数据,相较于以模型为中心的训练方法,以海量数据为中心的训练方法能够提升模型推断结论的可靠性。万亿GB量级的数据随着互联网、云计算、物联网、大数据等发展源源不断地产生,但数据质量参差不齐,对海量的复杂数据进行深入挖掘、输出,进而激活和释放数据的深层价值也成为数据市场的发展重点。根据德勤数据,2022年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元,年复合增长率为23.6%-28.9%o图22017-202

13、7年中国人工智能基础数据服务市场规模(单位:亿元)18016014012010080604020045.030.318.08.2m1382017201820192020202120222027E数据来源:德勤(2)大模型技术发展带来AI范式变革,催生新型数据服务需求,进一步提升数据市场空间人工智能大模型由于其强大的通用性能以及泛化能力正在加快人工智能发展路径,在大幅增强人工智能体验感的同时降低再开发门槛,使得人工智能产业具备在各实体产业快速落地发展的潜能。随着大模型技术的发展,算法训练对数据的依赖程度逐渐加深,催生了新的数据需求和新的数据服务模式。一方面,数据的质量以及数据清洗的工程化能力会显

14、著拉开大模型预训练阶段的效果差距;另一方面,预期更多模型将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。未来数据处理将不再局限在传统的有监督学习下的定向采集与精细化标注,而将叠加数据规模化获取、清洗以及类强化学习等方向。此外,随着深度学习技术的不断突破,人工智能发展已经进入2.0时代,AI技术与传统产业的融合将成为数字经济时代的新发展趋势。大模型算法训练需求正逐渐从通用基础能力建设向垂直领域拓展,数据需求向专业化方向发展。目前,AI技术在金融、医疗、工业等传统行业中的渗透率和应用不断提升,展现出可观的商业价值和较强的发展潜力。为加

15、速实现Al产业化落地,行业将衍生出更多垂直场景的数据需求,大模型将通过不断学习各个专业领域的行业高质量数据,实现更广阔的垂向拓展。与此同时,国内科技互联网巨头纷纷布局多模态大模型,基于公开数据及自身特有数据训练多模态大模型,多模态数据集需求快速提升,多模态成为大模型时代下新发展范式。(3)各地推动数据基础制度建设,数据要素市场迎来新发展机遇近年来,我国数字经济蓬勃发展,数据要素因具有基础性战略资源和关键性生产要素的双重属性,相关市场规模持续增长。尤其在中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见出台后,我国系统性布局了数据基础制度体系的“四梁八柱”,加速了数据流通交易和数据要

16、素市场发展,进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召,北京、上海、广州、深圳、杭州等地数据政策陆续出台,逐步构建了多层次、多元化数据要素市场生态体系。以北京为例,北京市促进通用人工智能创新发展的若干措施和关于推进北京市数据专区建设的指导意见指出,北京市要加快建设“数据基础制度先行先试示范区”(以下简称“先行先试示范区”),探索打造数据训练基地,归集高质量基础训练数据集,推动数据要素高水平开放,提升本市人工智能数据标注库规模和质量,并建设针对重大领域、重点区域或特定场景建设专题数据区域,吸纳市场主体和数据、技术、资本等多元要素参与。北京市陆续出台的多项文件旨在

17、打破数据壁垒,推动数据融合利用,加快推动公共数据开放,促进数据要素流通,激发数字市场创新活力,释放和发展数字化生产力,打造多层级数据要素市场,成为具有竞争力和影响力的数字产业集群。按照“政府引导、市场运作、创新引领、安全可控”的原则,先行先试示范区“有望成为国际领先的数据要素高效流通核心枢纽。根据国家工信安全发展研究中心数据,2022年我国数据要素市场规模为904亿元,预计到2025年将达到1,749亿元左右,2020年2025年年复合增长率为26.26%,数据要素将成为赋能中国数字经济发展的重要驱动力量。图3中国数据要素市场规模及预测(亿元)1.7491.218001600140012001

18、0008006(X)4002000数据要素市场规模增长率2000数据来源:国家工业信息安全发展研究中心,中国信息通信研究院,华泰研究(4)我国拥有海量数据资源,但数据质量仍面临严峻挑战,成为行业亟待解决的问题我国各行业数据资源较为丰富,根据艾瑞咨询数据,2015年-2030年中国数据量规模由3ZB将增长至175ZB,预计2030年中国数据量约占全球的28.8%,年复合增长率约为31%o200180160140120I(X)806040200图42015-2030年中国数据量规模及全球占比35.0%30.0%25.0%20.0%15.0%10.0%5.0%0.0%数据来源:艾瑞咨询虽然中国数据资

19、源丰富,但由于数据挖掘不足,以及大量数据无法在市场上自由流通等原因,优质中文数据集仍然稀缺。以ChatGPT为例,其模型训练数据中,中文数据来源不足千分之一。目前,国内头部科技企业主要基于公开数据集以及自身特有的数据进行大模型训练,但由于中文优质数据质量以及数据资源的制约,国内大模型的能力与以ChatGpT为代表的国际大模型相比仍存在一定差距。国内缺乏高质量数据集的主要原因包括当前国内数据挖掘和数据治理的力度不足、资金投入较大;数据流通与数据安全保障措施不够健全;国内市场缺乏开源意识,大量数据无法在市场上自由流通;国内相关公司成立较晚,数据积累较少;学术领域中文数据集受重视程度低以及国产数据集

20、市场影响力及普及度较低等。从原始数据到可被应用的数据集产品,需要经历数据集结构设计、数据获取、数据处理(包括数据清洗、数据标注/优化等)等过程,以形成可供使用的优质数据集,国内数据服务市场的发展有助于缓解中文数据集数量不足和质量欠佳等问题。2、项目基本情况大模型训练数据具备如下三个特点,具体而言:一是数据规模大,根据DeePMind论文TrainingCompute-OptimalLargeLanguageModels,模型参数规模预训练数据的TOken数最佳比例在1:20,要充分训练一个千亿规模的模型,至少需要TB级的训练数据;二是数据质量高,在模型训练之前,需要依赖专业团队对数据进行清洗等

21、预处理,防止数据中的噪声对模型的训练产生不良影响,在一些特定的任务中,还需根据不同目的对模型训练数据进行过滤;三是数据类型丰富,多领域的数据是大模型具备通用Al能力的关键,需从不同渠道收集各种训练数据,包括各类垂直领域数据、多语言数据、翻译类平行语料、多轮对话数据、代码库和题库等。基于以上特点,本项目拟建设AI大模型训练数据集,即生产用于通用型、及各种垂直领域大模型训练的海量、高品质数据集。本项目拟购置办公楼作为建设大模型训练数据研发生产基地,并购置数据采集、数据处理、数据存储和办公等软硬件设备,利用海量、高质量、多样化的公共数据资源、社会数据资源和稀缺性数据源,通过数据集设计、数据采集/获取

22、、清洗/分类/标准化、标注/优化、评测等全流程的任务执行进行高质量大模型训练数据集建设。本项目将充分利用“先行先试示范区”在基础制度、数据供给等方面的先行先试政策,采用多元化的方式获取大规模原始数据;利用工程化的数据处理技术进行预训练阶段的数据清洗;采用人类反馈强化学习模式,基于微调和奖励模型训练的方法,以人类撰写少量的典型问题和标准答案与深度学习阶段基础性标注相结合的模式,生产出市场适用性较强的大模型训练数据集。本项目建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大

23、模型通用能力和垂直领域数据的训练学习。本项目的数据集产品具体可分为三大类:(1)通用及特定垂直领域的大语言模型训练数据集,包括但不限于:中文大模型预训练语料数据集(含通用场景、特定场景、对话场景、指令集等);多语言大模型预训练语料数据集(含通用场景、对话场景、指令集等)。(2)多模态大模型训练数据集:可应用于多语言图文大模型训练、多模态数字人训练、多语种语音大模型训练、全场景自动驾驶大模型训练等场景的跨模态数据集。(3)大模型评测数据集:可应用于大模型的能力、任务、指标等方面的评测。3、项目建设必要性(1)本项目建设是响应国家建立数据基础制度,落实北京建设“先行先试示范区”的必然选择党的十八大

24、以来,习近平总书记屡次强调建设数字中国以及构建数据要素的重要性,并明确指出数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。为进一步推动国家数字经济发展,发挥数据要素在经济发展中的重要价值,我国推出中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见,从顶层设计角度,在数据产权、流通交易、收益分配、安全治理等方面构建了数据发展的基础制度和规划纲要,以促进数据合规高效流通使用,充分发挥中国海量数据规模和丰富应用场景优势,赋能实体经济,激活数据要素的潜能。北京市则率先开展国家数据基础制度“先行先试示范区”建设,2023年5月发布的北京市促进通用人工智能创新发展的若干措施指出,

25、充分发挥政府引导作用和创新平台催化作用,整合创新资源,加强要素配置,营造创新生态,提升高质量数据要素供给能力,归集高质量基础训练数据集。公司作为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,有义务和责任积极响应北京建设“先行先试示范区的号召,通过本项目的实施有效助力数据要素市场培育,推动数字经济创新发展,为北京市加快建设全球数字经济标杆城市提供助力。(2)本项目建设是践行国家规范生成式人工智能产品要求的重要举措生成式人工智能产品因其复杂性可能带来社会风险、技术伦理风险、企业商业秘密和个人信息泄露风险、虚假信息风险、知识产权侵权风险及其他潜在风险。为了更好地促进生成式人工智能技术健康

26、发展和规范应用,国家网信办于2023年4月出台了生成式人工智能服务管理办法(征求意见稿),该办法从内容合规、数据来源合法性、知识产权及商业秘密保护、虚假信息防范等方面,对生成式人工智能产品提出了全方位的合规要求。该办法明确提出,“提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责”、“能够保证数据的真实性、准确性、客观性、多样性”、“生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性”、“提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包

27、括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等”。根据前述规定,数据获取、数据处理的高标准意味着数据获取难度及处理成本将大幅增加,以预训练阶段为例,由于大量数据来源应合法合规,需投入大量成本完成数据获取。因此,出于成本与数据集质量的平衡性考量,在大模型训练中,大模型厂商通常会选择与专业的第三方数据集厂商合作,由专业第三方提供的合规、高质量数据集或相关解决方案将成为践行国家规范生成式人工智能产品要求的重要举措。(3)本项目建设是支撑大模型训练,提升大模型输出能力的有效方式随着人工智能应用场景口益丰富、产品智能化要求的不断提升,数

28、据需求逐渐向海量、高质量、多元化方向演进。从自然数据源简单收集、获取的数据资源,通常无法直接满足大模型的训练需求,需经专业化的数据分类设计、清洗、加工处理,形成相应的工程化数据,以供大模型训练使用。一般而言,符合大模型训练标准的数据需具备质量高、规模大、样本丰富等三个特点。首先,海量具有无毒害性、公平性等高质量特征的数据集能够提高模型效果(例如,精度与可解释性),并且减少收敛到最优解的时间;其次,在强化学习阶段,原始数据由于存在信息量低、含有噪声或需补齐等问题,使用前需要进行数据对齐等诸多微调操作,优秀的指令数据集能够帮助大模型更好的泛化适配更多下游任务。再次,数据丰富程度能够显著提高大模型的

29、泛化能力,减少过拟合情况的发生,达到更优的模型效果。当前国内数据资源虽然丰富,但优质的中文大模型训练数据仍然稀缺,中文大模型训练数据数量与质量,受国内产业环境、数据积累程度、数据运营生态等因素影响,与全球领先国家仍存在一定差距,使得国内大模型难以拥有足够专业的数据资源进行训练。本项目通过提供覆盖预训练、强化学习及应用拓展阶段的海量、高质量专业数据集,更好的支撑大模型训练,提升大模型输出能力。(4)本项目建设符合公司“夯实传统业务,探索新型业务”的战略目标为更好实现公司业务发展战略,公司在保障人工智能基础数据业务稳健发展的同时,不断探索寻求新的业绩增长点。如前文所述,数字经济时代下,数据要素市场

30、发展前景广阔,大模型等人工智能技术已成为国家科技发展的重要抓手,但国内数据仍存在数据质量差、各领域数据无法流通等问题制约了人工智能行业的发展。公司将基于过往的数据服务经验,结合行业前沿需求,积极拓展大模型训练数据服务领域,力争将大模型训练数据等创新业务打造成为具有潜在高增长价值的新型业务板块。4、项目建设可行性(1)数据要素政策红利持续释放,利好政策支撑数据服务产业发展国家高度重视数字经济发展,而数据要素作为数字经济深化发展的核心引擎重要性更加凸显,多项政策密集出台为本项目的顺利实施提供了政策保障,具体内容如下:表1:数据要素相关政策序号发布时间颁布主体主要行业政策及法律法规相关内容12023

31、年5月北京市科学技术委员会、中关村科技园区管理委员会北京市促进通用人工智能创新发展的若干措施归集高质量基础训练数据集:组织有关机构整合、清洗中文预训练数据,形成安全合规的开放基础训练数据集;持续扩展多模态数据来源,建设高质量的文字、图片、音频、视频等大模型预训练语料库。谋划建设数据训练基地:加快建设数据基础制度先行先试示范区,探索打造数据训练基地,推动数据要素高水平开放,提升本市人工智能数据标注库规模和质量。22023年4月国家互联网信息办公室生成式人工智能服务管理办法(征求意见稿)提供者应当对生成式人工智能产品的预训练数据、优化训练数据的真实性、准确性、客观性、多样性负责,并需要提供规定部门

32、要求的,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型等必要信息。对于采用人工标注的,应当制定符合本办法要求,且清晰、具体、可操作的标注规则。32022年12月中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见数据作为新型生产要素,是数字化、网络化、智能化的基础,维护国家数据安全,促进数据合规高效流通使用。42022年U月北京市人大常委会北京市数字经济促进条例从立法层面,加强数字基础设施建设,培育数据要素市场,规范公共数据的汇聚、清洗、共享、开放、应用和评估管理机制,开展公共数据专区授权运营。52022年1月国务院“十四五”数字经济发

33、展规划强化高质量数据要素供给、加快数据要素市场化流通、创新数据要素开发利用机制等重点任务举措62021年3月十三届全国人大四次会议中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要加强关键数字技术创新应用,建设重点行业人工智能数据集,发展算法推理训练场景。(2)大模型驱动人工智能发展全面提速,新型训练数据服务具备市场空间随着人工智能大模型技术的发展,行业对数据的依赖程度逐步加深。本项目产出的大模型训练数据集拟显著改善大模型训练中,包括预训练数据获取、清洗、强化学习调优、对齐、应用阶段评测等各个阶段的数据规模与质量问题。该类数据集将有效提升行业内面向大模型训练数据集的类别和

34、质量,并保障数据来源与处理合法合规,也将发挥规模化运营的优势,平衡数据集成本与市场效益,实现基于大模型通用能力和垂直领域数据的支撑和训练学习,协助实现公共数据、社会数据等各类高价值数据资源汇聚。本项目与公司多年发展中持续运行的商业模式相契合,市场空间广阔,具备可行性。(3)公司具备较强的数据生产及服务等综合能力,为项目实施奠定基础公司拥有深度学习的技术储备,为新业务提供技术支撑自2005年以来,公司始终致力于为Al深度学习提供算法模型开发训练所需的专业数据集,提升模型推断结论的可靠性。公司现已积累较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可

35、服务于市面上绝大多数数据处理需求。截至2022年12月31日,公司已取得31项专利和163项计算机软件著作权,覆盖平台工具开发、算法研究、产品设计等多方面。此外,公司还设置了AI+研发部门,前瞻性挖掘和布局新兴市场需求,抢占市场先机。公司现有的深度学习模型数据主要是通过定向采集、精细化标注实现,即通过打标签的方式将数据类别、位置、性状、结构等信息进行精细化标注,提供给深度学习模型进行学习。大模型的训练则需要以海量数据为基础,对数据的缺失值、异常值、格式等进行清洗处理,通过高效的、多元化的、专业的人类反馈不断强化和优化模型训练,提升大模型与用户交互过程中的反馈质量。公司可将现有业务的技术储备复用

36、到大模型业务中,将深度学习数据集生产中积累的能力延伸使用至大模型数据集生产。公司具有丰富的、多领域数据集产品生产经验,为新业务奠定经验基础公司的标准化数据集产品是公司区别于众多竞争对手以定制化服务为主的特有商业模式,在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了丰富的标准化产品资源。截至2022年12月31日,公司拥有智能语音数据集产品储备927个、计算机视觉数据集产品储备125个、自然语言数据集产品储备282个。经过多年积累,公司已向下游客户提供了累计约6,000次/个定制或标准化训练数据集,覆盖个人助手、语音输入、智能家居、智能客服

37、、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR识别等19类创新应用领域,构建出独具特色的训练数据资源及服务能力集群,公司在标准化数据集产品的能力获得市场认可,并为后续标准化数据产品生产奠定扎实基础。公司已经服务全球众多科技巨头,为新业务拓展提供客户资源基础公司自2005年成立以来,始终致力于挖掘行业客户需求,解决客户痛点,通过在智能语音、计算机视觉、自然语言等领域的技术积累,获得全球众多客户认可,包括阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球

38、主流企业、教育科研机构以及政企机构。截至2022年底,公司累计服务客户数量已达到810家。公司的存量客户与新业务的客户重合程度较高,且存量客户群中的部分头部企业已输出或计划输出其大模型产品与服务,为公司该项新业务拓展提供了客户资源基础。公司历来重视数据安全能力及合规体系建设,为新业务提供合规保障公司一直以来非常重视数据安全能力及合规体系建设,数据安全管理工作获得市场认可。资质方面,公司拥有IS027001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息安全等级保护三级认证、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面,公司入选中共中央网络安全和信息化委员会

39、办公室“人工智能企业典型应用案例”,成为中国信通院数据安全推进计划成员单位,董事兼副总经理李科入选该计划数安智库专家,发表AI训练数据安全管理实践等文章,为人工智能领域数据安全管理建言献策,并荣获数安智库2022年度优秀专家称号;公司根据实践经验总结、撰写的人工智能基础数据业务之个人信息收集活动的合规审计案例获选中国信通院、中国内审协会“全国首届数字化审计论坛评选的个人信息保护合规审计先锋实践案例公司一直坚持安全与发展并重的原则,持续进行数据安全合规能力建设,建立了较强的数据合规体系并积累了丰富的数据合规实践经验,为大模型开展合规训练提供合规保障。(4)公司实施本项目在经济效益和社会效益上具备

40、可行性基于谨慎测算,本项目内部收益率高于社会基准折现率,说明项目的经济效益较好,盈利能力较强。本项目生产的产品属于国家鼓励的行业发展方向,能够带动产业链上下游各企业协同发展,具备社会效益。综上,从经济效益和社会效益分析来看,该项目具备较强可行性。5、项目投资概算本项目投资金额总量为38,337.36万元,投资明细主要包括场地购置及装修费用、设备购置费用、软件购置费用、数据资源采购、技术人员费用和铺底流动资金,具体投资金额如下:表1本项目投资金额明细(单位:万元)序号项目金额拟使用募集资金金额占比是否资本性支出1场地购置及装修18,195.0018,195.0047.46%是2设备购置费用2,5

41、63.502,563.506.69%是3软件购置费用2,048.202,048.205.34%是4技术人员费用1,584.001,584.004.13%否5数据资源采购6,690.006,690.0017.45%否6铺底流动资金7,256.667,256.6618.93%否38,337.3638,337.36100.00%6、项目实施主体及实施计划(1)项目实施主体本项目的实施主体为北京海天瑞声科技股份有限公司及/或下属子公司。(2)项目实施计划本项目建设期3年,具体进度安排如下表:表2本项目实施计划7、项目经济效益评价本项目投资金额38,337.36万元,经测算,税后内部收益率为16.82%

42、,税后投资回收期(含三年建设期)为5.89年,经济效益良好。上述测算不构成公司的盈利预测,测算结果不等于对公司未来利润做出保证,投资者不应据此进行投资决策,投资者据此进行投资决策造成损失的,公司不承担赔偿责任,请投资者予以关注。8、项目批准情况目前,本公司正在办理本项目立项备案。本项目不同于常规生产性项目,不存在废气、废水、废渣等工业污染物,不属于根据中华人民共和国环境影响评价法和建设项目环境影响评价分类管理名录等相关法律法规需要进行环境影响评价的建设项目。因此,本项目无需进行项目环境影响评价,亦不需要取得环保主管部门对项目的审批文件。(二)数据生产垂直大模型研发项目1、项目背景(1)受大模型

43、技术驱动,全球人工智能产业进入加速发展期,快速提升大模型相关技术能力成为国家新兴科技发展战略人工智能大模型因其良好的泛化性和迁移性,有助于推动人工智能进入大规模落地应用,已成为人工智能发展新赛道。同时其强大的理解和生成能力,将驱动人工智能技术加速与实体产业融合,并深刻改变未来人类的生活和工作方式,发展大模型技术成为全球各国比拼科技实力,提升经济效率,拉升经济增长的重要动能之一。目前,国际巨头纷纷布局以大模型为核心的通用人工智能产业,产业进入加速发展期。在这一信息技术重点领域,我国与国际巨头存在一定差距,正加速布局和应对。国内众多研究机构、企业积极研究生成式Al大模型技术的最优路径,并进行产品发

44、布。近期,在国内科技及投资各领域的高度关注下,百度、商汤、阿里巴巴、华为、科大讯飞、360、京东、字节跳动等企业均有所行动。我国在“十四五”期间,针对人工智能的未来发展陆续出台了相关指导方案和激励政策,对人工智能的整体发展方向和技术发展重点做出重要规划,同时提出加强算法创新与应用、推动算力基础设施建设、完善数据基础支撑体系等关键建议,倡导未来不断夯实产业发展新基础。全国各地亦陆续出台多项数据政策,其中,北京市促进通用人工智能创新发展的若干措施明确提出要“系统构建大模型等通用人工智能技术体系:开展大模型创新算法及关键技术研究;加强大模型训练数据采集及治理工具研发;建设大模型评测开放服务平台;构建

45、大模型基础软硬件体系。推动通用人工智能技术创新场景应用。”北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)提出“到2025年,人工智能基础理论研究取得突破;关键核心技术基本实现自主可控,其中部分技术与应用研究达到世界先进水平;人工智能高水平应用深度赋能实体经济,促进经济高质量发展”的目标,并进一步提出了“自然语言、通用视觉、多模态交互大模型等形成完整技术栈;生成式产品成为国内市场主流应用和生态平台”等具体目标。(2)人工智能大模型正处于产业发展转型关键期,垂直应用面临爆发在大模型通用性、泛化性以及扩大人工智能应用范围的优势推动下,人工智能加快与各类产业的渗透和融

46、合。人工智能大模型正处于打造商业模式,形成基础设施能力的关键时期,将从通用逐渐走向垂直领域,在基础模型之上的垂直行业应用也有望兴起。大模型在搜索、推荐、智能交互、生产流程变革、产业提效等场景已表现出了较大的潜力。例如,在金融领域,陆续产生了通过构建大语言模型等解读征信报告、实现交互式智能客服,为金融服务提质增效赋能。目前.,国内相关机构及头部企业在深耕通用基础大模型研发之外,同时根据自身产业生态布局,打造垂直领域大模型,触达应用场景落地;其他具备模型自研能力的肩部厂商,亦基于开源模型或海量数据,打造垂向大模型,建立垂直行业的平台生态。图5我国AlGC商业落地产业图谱如下图所示AIGC商业辱地产

47、业8B三2.0来源:亿欧TE中国AIGC商用场景趋势捕捉指北由于大模型在垂直领域应用场景中,需要依赖垂直领域数据和行业know-how、应用场景和用户数据反哺以及一站式端到端工程化能力等。因此,为实现通用大模型对行业应用的赋能,需要相关领域机构或服务提供商基于通用大模型进行知识迁移,建设行业垂向大模型,实现其纵向业务价值。(3)大模型对人工智能数据处理技术提出了新要求,该类技术的持续提升是支撑大模型长期发展、持续服务垂直应用的必备能力目前人工智能进入大模型时代,大规模、高质量数据的重要性愈加凸显,并成为模型训练效果的核心支撑之一,但在数据前沿性及工程化技术方面依然充满挑战。长期来看,Al数据处理技术的持续拓新与发展是及时适应甚至超前引领大模型技术和应用发展的关键。大模型研发的第一阶段,即预训练阶段,需要通过对海量未经标注数据进行学习,获得”基本的语言能力和通用知识”。虽无需标注,但这一阶段需要对海量数据进行清洗,清洗质量的好坏,会显著影响无监督学习的效果及大模型的精准性。在第二阶段,即强化学习阶段,需要

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号