《人工智能医疗器械注册审查指导原则.docx》由会员分享,可在线阅读,更多相关《人工智能医疗器械注册审查指导原则.docx(40页珍藏版)》请在课桌文档上搜索。
1、附件人工智能医疗器械注册审查指导原则本指导原则旨在指导注册申请人建立人工智能医疗器械生存周期过程和预备人工智能医疗器械注册申报资料,同时法律规范人工智能医疗器械的技术审评要求,为人工智能医疗器械、质量管理软件的体系核查供应参考。本指导原则是对人工智能医疗器械的一般要求。注册申请人需依据产品特性和风险程度确定本指导原则详细内容的适用性,若不适用详述理由。注册申请人也可采纳其他满意法规要求的替代方法,但需供应详尽的支持资料。本指导原则是在现行法规、强制性标准体系以及当前科技力量、认知水平下制定的,随着法规、强制性标准体系的不断完善以及科技力量、认知水平的不断进展,本指导原则相关内容也将适时调整。本
2、指导原则是供注册申请人、审评人员和检查人员使用的指导文件,不涉及行政审批事项,亦不作为法规强制执行,应在遵循相关法规的前提下使用本指导原则。本指导原则作为数字医疗(D1g1ta1Hea1.th)指导原则体系的重要组成部分,采纳和遵循医疗器械软件、医疗器械网络平安、移动医疗器械、医疗器械人因设计、医疗器械独立软件生产质量现场检查等相关指导原则的概念和要求。本指导原则是人工智能医疗器械的通用指导原则1.其他含有或涉及人工智能技术的医疗器械指导原则可在本指导原则基础上结合详细状况进行有针对性的调整、修改和完善。一、适用范围本指导原则适用于人工智能医疗器械的注册申报,包括其次类、第三类人工智能独立软件
3、和含有人工智能软件组件的医疗器械(包括体外诊断医疗器械);适用于自研软件的注册申报,现成软件组件参照执行,不适用于外部软件环境。本指导原则也可用作人工智能医疗器械的体系核查参考。质量管理软件若采纳人工智能技术实现其功能或用途,亦可参考本指导原则的适用要求。二、主要概念(一)人工智能医疗器械本指导原则所述人工智能医疗器械是指基于“医疗器械数据”,采纳人工智能技术实现其预期用途(即医疗用途)的医疗器械。医疗器械数据是指医疗器械产生的用于医疗用途的客观数据,如医学影像设施产生的医学图像数据(如X射线、CT、MR1.超声、内窥镜、光学等图像)、医用电子设施产生的生理参数数据(如心电、脑电、血压、无创血
4、糖、心音等波形数据)、体外诊断设施产生的体外诊断数据(如病理图像、显微图像、有创血糖波形数据等);在特殊情形下,通用设施(非监管对象)取代深度学习帮助决策医疗器械软件审评要点非临床部分的要求。产生的用于医疗用途的客观数据亦属于医疗器械数据,如数码相机拍摄的用于皮肤疾病诊断的皮肤照片、健康电子产品采集的用于心脏疾病预警的心电数据等。基于医疗器械数据包括医疗器械数据的生成、使用等状况,其中使用状况含单独使用医疗器械数据,或者以医疗器械数据为主联合使用非医疗器械数据(如患者主诉信息、检验检查报告结论、电子病历、医学文献等)。人工智能是指机器表现出与人类智能相关行为的力量,通常是指通过感知四周环境做出
5、合理行动以达到预期目标的计算机软件或系统。机器学习是指与人类学习行为相关的人工智能,通常是指通过整理现有数据和/或猎取新数据以提升性能的计算机软件或系统。机器学习虽是人工智能的子集,但却为人工智能的核心领域,当前二者对于医疗器械而言含义基本相同,故本指导原则从医疗器械平安有效性评价角度动身对二者不做严格区分,统一采纳人工智能进行表述。基于非医疗器械数据的医学人工智能产品,或者采纳人工智能技术实现非医疗用途和非医疗器械功能(详见医疗器械软件指导原则)的医疗器械均非人工智能医疗器械。医学人工智能产品是否按医疗器械管理,依据相应分类界定指导原则进行判定,必要时申请医疗器械分类界定。(二)人工智能医疗
6、器械类型从医疗器械软件角度,人工智能医疗器械可分为人工智能独立软件和人工智能软件组件,故其类型划分可参考医疗器械软件指导原则相关维度。人工智能医疗器械从用途角度可分为帮助决策类和非帮助决策类。其中,帮助决策是指通过供应诊疗活动建议帮助用户(如医务人员、患者)进行医疗决策,如通过病灶特征识别、病灶性质判定、用药指导、治疗方案制定进行帮助分诊、帮助检测、帮助诊断、帮助治疗等,相当于用户的“助手工反之,仅供应医疗参考信息而不进行医疗决策即为非帮助决策,包括流程优化、诊疗驱动,前者如成像流程简化、诊疗流程简化等,后者如成像质量改善、成像速度提高、自动测量、自动分割、三维重建等,相当于用户的“工具此外,
7、帮助决策和非帮助决策从实时性角度均可细分为实时和非实时,前者风险通常高于后者。人工智能医疗器械从功能角度大体上可分为处理功能、掌握功能、平安功能。其中,处理功能又可分为前处理功能和后处理功能,前处理功能是指采集人体解剖、生理信息生成医疗器械数据过程的处理功能,如成像流程简化、成像质量改善、成像速度提高等;后处理功能是指采用医疗器械数据生成诊疗信息或进行医疗干预过程的处理功能,如诊疗流程简化、自动测量、自动分割、三维重建、病灶特征识别、病灶性质判定、用药指导、治疗方案制定等。掌握功能是指掌握/驱动医疗器械硬件运行的功能,如闭环掌握、机械臂运动掌握等。平安功能是指保证医疗器械平安性的功能,如风险预
8、警、急停掌握等。人工智能医疗器械从算法角度具有多种类型划分维度。从学习策略角度可分为有监督学习和无监督学习,前者需要对训练数据进行标注,如线性回归、规律回归、决策树、朴实贝叶斯、K近邻、支持向量机等经典回归、分类算法,后者无需对训练数据进行标注,如K均值、主成分分析等经典聚类、降维算法,前者对于数据标注的要求高于后者。从学习方法角度可分为基于模型的算法和基于数据的算法,前者采纳统计模型、规章推理等方法,后者主要采纳大数据方法,前者对于训练数据量的要求低于后者。从可解释性角度可分为白盒算法和黑盒算法,前者特征提取需要人为干预,可与现有医学学问建立关联,后者自动完成特征提取,难与现有医学学问建立关
9、联,前者可解释性优于后者。上述类型划分维度相互交叉,例如:前处理和后处理均可采纳不同类型的人工智能算法实现帮助决策、非帮助决策用途,有监督学习和无监督学习既可采纳基于模型的算法、基于数据的算法,又可采纳黑盒算法、白盒算法。同时,同一维度亦不存在严格的划分界线,例如:在用途方面,通过图像识别技术进行流程优化则需考虑诊疗驱动相关要求,自动测量结果若为医疗决策重要指标(如血流储备分数FFR)则属于帮助决策范畴;在功能方面,掌握功能、平安功能可与处理功能相结合,前处理过程可包含后处理功能;在算法方面,某些算法既可用于有监督学习又可用于无监督学习,有监督学习和无监督学习可结合为半监督学习;基于模型的算法
10、亦需数据的支持,基于数据的算法亦可生成模型;白盒算法和黑盒算法可组合使用成为灰盒算法。同样,人工智能医疗器械从成熟度角度可分为成熟和全新两种类型,其中成熟是指平安有效性已在医疗实践中得到充分证明的情形,全新是指未上市或平安有效性尚未在医疗实践中得到充分证明的情形。人工智能医疗器械的算法、功能、用途若有一项为全新则属于全新类型,反之属于成熟类型。人工智能医疗器械可同时采纳多种、多个人工智能算法,在前处理、后处理过程中实现帮助决策、非帮助决策用途。因此,注册申请人需结合人工智能医疗器械的预期用途、使用场景、核心功能以及所用算法的类型特点、技术特征、组合形式开展相应产品质控工作,以保证产品的平安有效
11、性。(三)人工智能算法更新人工智能算法特殊是基于数据的算法,具有快速迭代更新的特性。人工智能算法更新属于软件更新范畴,故遵循软件更新的基本原则及要求:人工智能算法更新若影响到人工智能医疗器械的平安性或有效性则属于重大软件更新,应申请变更注册;反之,人工智能算法更新若未影响到人工智能医疗器械的平安性和有效性则属于稍微软件更新,通过质量管理体系进行掌握,无需申请变更注册,待下次变更注册时提交相应注册申报资料。人工智能算法更新可分为算法驱动型更新和数据驱动型更新。其中,算法驱动型更新是指人工智能医疗器械所用算法、算法结构、算法流程、算法编程框架(详见后文)、输入输出数据类型等发生转变,通常属于重大软
12、件更新。此外,算法重新训练即弃用原有训练数据而采纳全新训练数据进行算法训练,亦属于算法驱动型更新。数据驱动型更新是指仅由训练数据量增加而发生的算法更新。数据驱动型更新是否属于重大软件更新原则上以算法性能评估结果(基于相同的测试集和算法性能评估指标)为准,算法性能评估结果若发生显著性转变则属于重大软件更新,即算法性能评估结果与前次注册(而非前次更新)相比存在统计学差异,反之属于稍微软件更新。人工智能医疗器械其他类型的算法更新、软件更新以及重大软件更新判定原则详见医疗器械软件指导原则、医疗器械网络平安指导原则。软件版本命名规章原则上应涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和稍微
13、软件更新,其中重大软件更新列举常见典型状况。软件版本命名规章的基本要求详见医疗器械软件指导原则、医疗器械网络平安指导原则。三、基本原则(一)基于算法特性人工智能技术从进展驱动要素角度是基于模型/数据和算力的算法,其中模型/数据是人工智能技术的基础,算力是人工智能技术的保证,算法是人工智能技术的核心。由于算力所用计算资源本身不属于监管对象,计算资源的监管要求取决于其所属的计算平台类型。故从监管角度动身,人工智能医疗器械平安有效性评价基于其预期用途、使用场景、核心功能,以算法特性为核心重点关注其泛化力量,以模型/数据为基础重点关注其质控状况,同时从风险管理角度兼顾算力不足与失效的影响。人工智能算法
14、的类型不同,其算法特性、适用场景也不同,评价重点亦有所侧重;同时,不同类型的人工智能算法可组合使用,需结合各算法特性和算法组合形式进行整体评价。因此,注册申请人需结合人工智能医疗器械的预期用途、使用场景、核心功能选择与之相相宜的人工智能算法或算法组合,基于算法特性并结合风险管理开展相应验证与确认工作。以深度学习为例,其是指通过训练具有多个隐层的神经网络而获得输入输出映射关系的人工智能算法,亦是基于海量数据和高算力的黑盒算法,既可用于有监督学习又可用于无监督学习。因此,对于采纳深度学习技术的人工智能医疗器械,基于其预期用途、使用场景、核心功能,重点关注其算法泛化力量、数据质控、可解释性等问题,同
15、时,深度学习若与其他类型的人工智能算法组合使用,还需基于各算法特性重点关注算法组合的整体评价问题。人工智能新算法讨论处于深化进展阶段,如基于小样本数据、基于弱标注数据、基于非结构化数据、黑盒算法透亮化等算法。人工智能医疗器械若使用人工智能新算法,亦需基于算法特性并结合风险管理开展相应验证与确认工作,以保证产品的平安有效性。(二)风险导向人工智能医疗器械的风险水平亦可用软件平安性级别进行表述,软件平安性级别越高,其生存周期质控要求越严格,注册申报资料越详尽,同时由于全新类型的潜在未知风险多于成熟类型,故需结合成熟度予以综合考虑,详细要求详见医疗器械软件指导原则。人工智能医疗器械的软件平安性级别可
16、基于产品的预期用途、使用场景、核心功能进行综合判定,其中预期用途主要考虑用途类型、重要程度、紧迫程度等因素,使用场景主要考虑使用场合、疾病特征、适用人群、目标用户等因素,核心功能主要考虑功能类型、核心算法、输入输出、接口等因素。亦可依据风险管理所确定的风险等级进行判定,软件平安性级别与风险等级的分级可以不同,但二者存在对应关系,因此可依据风险等级来判定软件平安性级别,但应在实行风险掌握措施之前进行判定。人工智能医疗器械的主要风险从算法角度包括过拟合和欠拟合,其中过拟合是指算法对于训练数据过度学习而将非普遍规律作为重要特征,欠拟合是算法对于训练数据学习不充分而遗漏重要特征,均会降低算法泛化力量。
17、从用途角度,帮助决策主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特殊是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动;非帮助决策从算法设计目标能否得以实现角度,亦可参考帮助决策分为假阴性和假阳性。此外,进口人工智能医疗器械还需考虑中外差异风险,如人种、流行病学特征、临床诊疗法律规范等差异。注册申请人应结合人工智能医疗器械的预期用途、使用场景、核心功能开展风险管理活动,实行风险掌握措施将风险降至可接受水平,并贯穿于人工智能医疗器械全生命周期过程。(三)全生命周期质控注册申请人应结合质量管理体系要求,参考软件、人工智能相关标准和良好工程实
18、践,建立人工智能医疗器械生存周期过程,开展与软件平安性级别相匹配的产品质量保证工作,将风险管理、可追溯分析贯穿于生存周期全程,形成纪录以供体系核查。上市前开展充分、相宜、有效的验证与确认活动,保证算法泛化力量满意用户需求,识别可预见风险并将其降至可接受水平,明确产品使用限制(含技术限制,下同)和必要警示提示信息。上市后持续开展算法泛化力量讨论,同时结合用户投诉、不良大事和召回等状况识别前期未预见的风险,并实行有效的风险掌握措施将风险降至可接受水平。此外,依据产品更新需求,经评估后实施更新活动,开展与之相相宜的验证与确认活动,保证算法泛化力量持续满意用户需求。四、人工智能医疗器械生存周期过程人工
19、智能医疗器械生存周期(又称生命周期)过程可基于软件生存周期过程予以建立,详细要求详见医疗器械独立软件生产质量管理法律规范及其现场检查指导原则。考虑到有监督深度学习是当前人工智能医疗器械的主流算法,故本指导原则以有监督深度学习为例详述人工智能医疗器械生存周期过程质控要求,主要包括需求分析、数据收集、算法设计、验证与确认、更新掌握等阶段。其他类型的人工智能算法可参照执行,不适用内容详述理由并予以纪录。(一)需求分析需求分析以用户需求与风险为导向,结合产品的预期用途、使用场景、核心功能,综合考虑法规、标准、用户、产品、数据、功能、性能、接口、用户界面、网络平安、警示提示等需求,重点考虑数据收集、算法
20、性能、使用限制等要求。为保证数据质量和掌握数据偏倚,数据收集需考虑数据来源的合规性、充分性和多样性,数据分布的科学性和合理性,数据质控的充分性、有效性和精确性。数据来源在合规性(如个人信息爱护法)基础上保证充分性和多样性,以提高算法泛化力量,例如:依据产品的预期用途和使用场景尽可能多采集数据,如来源于多家、多地域、多层级的代表性临床机构,以及多家、多种、多参数的代表性采集设施。数据分布的科学性和合理性需结合目标疾病流行病学特征予以考虑,包括但不限于疾病构成(如分型、分级、分期)、人群分布(如健康、患者,性别、年龄、职业、地域、生活方式)、统计指标(如发病率、患病率、治愈率、死亡率、生存率)等状
21、况,以及目标疾病并发症与类似疾病的影响状况。数据质控的充分性、有效性和精确性需结合数据采集与数据标注的人员、设施、过程等影响因素予以考虑,详细要求详见后文。算法性能需结合医疗实际和产品定位,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等性能指标的适用性及其要求,兼顾不同性能指标的制约关系,如假阴性与假阳性等。同时,结合当前医疗水平状况,考虑金标准或参考标准的确定依据、实现方法和质控要求,以保证算法性能评估的精确性,必要时纳入数据收集过程。使用限制需考虑产品禁用、慎用等场景,精确表述产品使用场景,供应必要警示提示信息。(二)数据收集数据收集基于合规性要求,主要考虑数据采集、数据
22、整理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法训练效果。1 .数据采集数据采集需考虑采集设施、采集过程、数据脱敏等质控要求,并建立数据采集操作法律规范。数据采集亦可使用历史数据,需结合样本规模、采集难度等影响因素合理选择数据采集方式。若适用,数据采集需经伦理委员会批准。采集设施质控包括采集设施的兼容性和采集特征等要求。兼容性基于数据生成方式(直接生成、间接生成)考虑采集设施的兼容性要求,如采集设施的名称、型号规格、制造商、性能指标等要求,若无需考虑兼容性要求详述理由并予以纪录。采集特征考虑采集设施的采集方式(如常规成像、增加成像)、采集合同(如MR1.成像序列)、采集参数(如
23、CT加载电压、加载电流、加载时间、层厚)、采集精度(如辨别率、采样率)等要求。采集过程质控包括人员管理、采集流程、采集质量评估等要求。人员管理考虑采集人员、审核人员的选拔(如职称、工作年限、工作阅历、所在机构,若有国外人员则需明确其资质要求)、培训(如培训材料、培训方案)、考核(如方法、频次、指标、通过准则、全都性)等要求。采集流程考虑人员职责、采集步骤、结果审核等要求。采集质量评估考虑评估人员、评估方法、评估指标、通过准则等要求,并纪录评估结果。数据采集若使用历史数据,需列明采集设施及采集特征要求,并开展数据采集质量评估工作。采集的数据应进行数据脱敏以爱护患者隐私,数据脱敏需明确脱敏的类型(
24、静态、动态)、规章、方法以及脱敏内容的确定依据。脱敏数据汇总形成原始数据库,不同模态的数据在原始数据库中需加以区分(下同)。原始数据库需考虑样本规模的充分性、样本多样性等问题。2 .数据整理数据整理基于原始数据库考虑数据清洗、数据预处理的质控要求。数据清洗需明确清洗的规章、方法、结果,数据预处理需明确处理的方法(如滤波、增加、重采样、尺寸裁剪、均一化等)、结果。数据整理所用软件工具(含脚本,下同)均需明确名称、型号规格、完整版本、制造商、运行环境,并进行软件确认。数据经整理后形成基础数据库,需明确样本类型、样本量、样本分布等信息。样本类型以适用人群为单位可分为单一数据、数据序列(由多个单一数据
25、组成,如结构序列、功能序列、时间序列)。样本量需考虑样本规模的充分性,明确样本总量及其确定依据。样本分布需考虑样本的科学性和合理性,依据适用人群、数据来源机构、采集设施、样本类型等因素明确疾病构成的数据分布状况。3 .数据标注数据标注作为有监督学习数据质控的关键环节,需建立数据标注操作法律规范,明确标注资源管理、标注过程质控、标注质量评估等要求。标注资源管理包括人员管理和基础设施管理。人员管理考虑标注人员、审核人员和仲裁人员的选拔(如职称、工作年限、工作阅历、所在机构,若有国外人员则需明确其资质要求)、培训(如培训材料、培训方案)、考核(如方法、频次、指标、通过准则、全都性)等要求。基础设施管
26、理考虑标注场所(真实场所或模拟场所,模拟场所可依据产品实际状况调整模拟程度,详述调整理由并予以纪录)、标注环境条件(如空间、照明、温度、湿度、气压)、标注软件(名称、型号规格、完整版本、制造商、运行环境、软件确认)等要求。标注过程质控包括人员职责(如人员资质、人员数量、职责分工)、标注规章(如临床指南、专家共识、专家评议、文献分析)、标注流程(如标注对象、标注形式、标注轮次、标注步骤、结果审核)、分歧处理(如仲裁人员、仲裁方式)、可追溯性(如数据、操作)等要求。标注质量评估包括评估人员、评估方法、评估指标、通过准则等要求,并纪录评估结果。数据经标注后形成标注数据库,样本类型可分为数据块(如图像
27、区域、数据片段)、单一数据(由多个数据块组成)、数据序列(由多个单一数据组成)。标注数据库的样本量、样本分布等要求及风险考量与基础数据库相同。数据标注可使用自动标注软件,但自动标注结果不得直接使用,应由标注人员审核后方可使用;同时,自动标注软件亦需明确名称、型号规格、完整版本、制造商、运行环境等信息,并进行软件确认。4 .数据集构建基于标注数据库构建训练集(用于算法训练)、调优集2(若有,用于算法超参数调优)、测试集(用于算法性能评估),明确训练集、调优集、测试集的划分方法、划分依据、数据安排比例。训练集原则上需保证样本分布具有均衡性,测试集、调优集原则上需保证样本分布符合真实状况,训练集、调
28、优集、2人工智能领域称之为验证集(Va11dat1onse1)。为避开与医疗器械领域所用术语验证(Ver1f1Ca1.1On)、确认(Va11da11on)相混淆,本指导原则将其改称为调优集。测试集的样本应两两无交集并通过查重予以验证。为解决样本分布不满意预期的问题,可对训练集、调优集小样本量数据进行扩增,原则上不得对测试集进行数据扩增,对抗测试(详见后文)除外。数据扩增需明确扩增的对象、范围、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络等)、倍数,在线扩增亦需予以纪录,扩增需考虑数据偏倚的影响及风险,如部分数据扩增倍数过大、数据扩增倍数不均衡等。若采纳生成对抗
29、网络(详见后文)进行数据扩增,需明确算法基本信息以及算法选用依据。数据经扩增后形成扩增数据库,需列表对比扩增数据库与标注数据库在样本量、样本分布(注明扩增倍数)等差异,以证明扩增数据库样本量的充分性以及样本分布的合理性。(三)算法设计人工智能算法作为人工智能医疗器械的核心,其设计主要考虑算法选择、算法训练、算法性能评估等要求。对于黑盒算法,算法设计应开展算法性能影响因素分析,同时建议与现有医学学问3建立关联,以提升算法可解释性。1.算法选择算法选择供应所用算法的名称、类型(如有监督学习、无监督学习,基于模型、基于数据,白盒、黑盒)、结构(如层数、参数规模)、输入输出数据类型、流程图、算法编程框
30、架、运行环境等基本信息,并明确算法选用依据,包括选用的理由和基医学学问作为医疗抵械的外部参考准则,其自身评价问题不属于医疗器械平安有效性评价范畴。本原则。若组合使用集成学习、迁移学习、强化学习等,亦需供应算法基本信息以及算法选用依据,详见后文。2 .算法训练算法训练需基于训练集、调优集进行训练和调优,考虑评估指标、训练方式、训练目标、调优方式、训练数据量-评估指标曲线等要求。评估指标建议依据用户需求进行选择,帮助决策可选择敏感性、特异性等指标,非帮助决策可选择图像质量、测量精确性等指标。训练方式包括但不限于留出法和交叉验证法,若组合使用联邦学习(详见后文)亦需明确算法选用依据,并供应算法基本信
31、息。训练目标依据医疗状况详述目标确定依据,供应受试者工作特征(Roe)曲线或其衍生曲线、混淆矩阵及其衍生参数等证据予以证明。调优方式明确优化策略和实现方法。训练数据量-评估指标曲线用于证明算法训练的充分性和有效性,若无法供应则需详述理由并供应替代证据。3 .算法性能评估算法性能评估作为软件验证的重要组成部分,需基于测试集对算法设计结果进行评估,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等适用评估要求,以证明算法性能满意算法设计目标,并作为软件验证、软件确认的基础。亦可基于第三方数据库(详见后文)开展算法性能评估。同时,开展算法性能影响因素分析以提升算法可解释性,详述影响算法
32、性能的主要因素及其影响程度,如采集设施、采集参数、疾病构成、病变特征等因素,基于分析结果明确产品使用限制和必要警示提示信息。此外,依据产品实际状况开展压力测试(详见后文)、对抗测试等测试,以全面深化评估算法性能。(四)验证与确认1 .软件验证软件验证是指通过供应客观证据认定软件开发、软件更新某一阶段的输出满意输入要求,包括软件验证测试(单元测试、集成测试、系统测试)、设计评审等系列活动。软件验证基于软件需求予以开展,保证软件的平安有效性,并作为软件确认的基础。2 .软件确认软件确认是指通过供应客观证据认定软件满意用户需求和预期目的,包括软件确认测试(用户测试)、临床评价、设计评审等系列活动。依
33、据产品实际状况,软件确认方式可单一使用,亦可组合使用。软件确认测试基于用户需求,由预期用户在真实或模拟使用场景下予以开展,亦可基于测评数据库(详见后文)予以开展。临床评价基本原则详见医疗器械软件指导原则,基于核心功能或核心算法,结合预期用途和成熟度予以综合考虑:非帮助决策类功能基于核心功能开展同品种医疗器械比对,全新的功能、算法和用途原则上均需开展临床评价;帮助决策类功能基于核心算法开展同品种医疗器械比对,所选同品种医疗器械的临床证据原则上需基于临床试验(含回顾性讨论,下同),全新的功能、算法和用途原则上均需开展临床试验。详细要求详见医疗器械临床评价等通用指导原则,以及人工智能医疗器械临床评价
34、等专用指导原则。同时,开展算法性能比较分析,若各类测试场景(含临床评价)算法性能变异度较大,详述缘由并基于分析结果明确产品使用限制和必要警示提示信息。最终,结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等状况,对产品的适用范围、使用场景、核心功能进行必要限制。(五)更新掌握人工智能医疗器械若发生算法更新、软件更新,均应依据质量管理体系的要求,开展与算法更新、软件更新的类型、内容和程度相相宜的验证与确认活动,将风险管理、可追溯分析贯穿于更新全程,形成纪录以供体系核查。对于算法更新,无论算法驱动型更新
35、还是数据驱动型更新,均应开展相应验证与确认活动,如算法性能评估、临床评价等,以保证算法更新的平安有效性。对于软件更新,详细要求详见医疗器械软件指导原则、医疗器械独立软件生产质量现场检查指导原则。此外,算法更新、软件更新均需考虑引入回滚机制,以保证医疗业务的连续性,特殊是对风险较高的软件。总之,人工智能医疗器械所含的每个人工智能算法或算法组合,均需独立开展需求分析、数据收集、算法设计、验证与确认、更新掌握等活动,同时考虑人工智能算法组合的整体评价要求,以保证产品的平安有效性。前期已开发的人工智能医疗器械若不满意本指导原则的适用要求,应开展差距分析并予以纪录,明确产品使用限制和必要警示提示信息。必
36、要时实行补救措施,以满意质量管理体系要求,并保证产品的平安有效性。五、技术考量(一)注册单元与检测单元人工智能医疗器械的注册单元与检测单元划分原则详见医疗器械软件指导原则,人工智能独立软件、人工智能软件组件分别参照独立软件、软件组件的要求。若软件核心功能(即软件在预期使用场景完成预期用途所必需的功能)相同,但核心算法(即实现软件核心功能所必需的算法)类型不同,则每类核心算法所对应的核心功能均需检测,即检测对象为核心功能而非核心算法。(二)网络平安与数据平安人工智能医疗器械需结合预期用途、使用场景、核心功能,基于保密性、完整性、可得性等网络平安特性,确定网络平安力量建设要求,以应对网络攻击和数据
37、窃取等网络威逼,如算法编程框架漏洞攻击、数据污染等。详细要求详见医疗器械网络平安指导原则。除此之外,还需在人工智能医疗器械全生命周期过程中考虑数据平安问题,包括上市前设计开发阶段和上市后使用阶段。数据转移需明确转移方法、数据污染防护措施、数据销毁等要求。数据整理、数据集构建、算法训练、算法性能评估、软件验证等内部活动需在封闭或受控的网络环境下开展以防止数据污染。数据标注、软件确认等涉及外方的活动需明确数据污染防护措施,特殊是在开放网络环境下。各数据库(集)均需进行数据备份,明确备份的方法、频次、数据恢复方法。数据采集、上市后使用需考虑医疗机构关于网络平安与数据平安的接口要求。(三)移动计算与云
38、计算人工智能医疗器械若使用移动计算、云计算等技术,则遵循相关指导原则要求。详细而言,移动计算相关要求详见移动医疗器械指导原则,云计算相关要求详见医疗器械软件指导原则,移动计算与云计算的网络平安相关要求详见医疗器械网络平安指导原则。(四)人因与可用性建议加强人工智能医疗器械的人因设计以提升可用性,将用户错误使用的风险降至可接受水平,特殊是软件用户界面。详细要求详见医疗器械人因设计相关指导原则。(五)压力测试本指导原则所述压力测试4是指采纳罕见或特殊的真实数据样本开展的算法性能测试,侧重于评估算法泛化力量的极限。注册申请人需依据产品实际状况开展压力测试,以全面深化评估算法性能,必要时可引入对抗样本
39、开展对抗压力测试。若未开展相应测试或测试结果不佳,均需对产品的适用范围、使用场景、核心功能进行必要限制,并在说明书中明确产品使用限制和必要警示提示信息。(六)对抗测试本指导原则所述对抗测试是指基于真实数据样本采用数据扰动、生成对抗网络等技术产生对抗样本,并采纳对抗样本开展的算法性能测试,侧重于评估算法的鲁棒性/健壮性。若条件具备,建议注册申请人开展对抗测试,以全面深化评估算法性能。若未开展相应测试或测试结果不佳,均需明确产品使用限制和必要警示提示信息。(七)第三方数据库第三方数据库可用于算法性能评估,但其类型、用途等状况各不相同,未必能够完全满意软件确认测试的要求。因此,使用第三方数据库进行软
40、件确认测试,需评估其满意软件确认测试的充分性、相宜性和有效性。可用于软件确认测试的第三方数据库即为测评数据库。测评数据库除满意数据库通用要求(如数据管理、网络平安与数据平安、可扩展性)外,还应满意以下专用要求。4与软件一匚程领域的压力测试含义不同。1 .权威性:测评数据库的数据采集、数据标注及其质控工作由相应临床专业领域的权威机构(如我国临床医学讨论中心等)负责,以保证数据精确性;标注人员、审核人员、仲裁人员需具备与其岗位职责相匹配的临床实践阅历,以保证数据质量。2 .科学性:测评数据库的数据样本均为临床真实数据,不得进行数据扩增;样本分布符合目标疾病流行病学特征状况,样本总量基于目标疾病流行
41、病学统计指标、测试抽样误差掌握要求,通过统计学计算予以确定;单次测试原则上依据测评数据库样本分布状况等比例随机抽取测试样本,且其样本量满意测试抽样误差掌握要求。3 .法律规范性:测评数据库的数据采集、数据脱敏、数据清洗、数据预处理、数据标注、数据更换、数据管理、数据平安保证、数据备份等数据治理活动以及测评活动均需建立质控程序文件,并满意可追溯性要求。4 .多样性:测评数据库的样本需来源于多家、多地域、多层级的代表性临床机构以及多家、多种、多参数的代表性采集设施,以保证数据多样性能够满意算法泛化力量评估要求;若条件具备,测评数据库可包含适当比例的罕见或特殊的临床真实数据样本,以便开展压力测试深化
42、评估算法泛化力量的极限。5 .封闭性:测评数据库需封闭管理,样本总量需远大于单次测试样本量,测评活动亦需封闭管理,以保证算法性能评价的客观性、公正性、公正性。6 .动态性:测评数据库需定期补充或更换肯定比例的数据样本,以保证其具备持续的科学性、多样性和封闭性以及数据的时效性;数据补充或更换的频率、比例需有确定依据,并满意法律规范性要求。更换出库的数据样本由测评数据库责任方自行确定其处理方案。基于测评数据库,采用数据扰动、生成对抗网络等技术,可衍生出对抗测评数据库。若条件具备,建议基于测评数据库建设对抗测评数据库,以全面深化评价算法性能。注册申请人可依据上述专用要求对第三方数据库进行筛选,若第三
43、方数据库能用作测评数据库(含对抗测评数据库,下同)则可用于软件确认测试,并在产品注册申报时按医疗器械主文档登记事项要求提交测评数据库评估材料。公开数据库因不具备封闭性而不能用作测评数据库,但可用于算法性能评估,若用于算法训练需重新进行质量评估。使用公开数据库需依据其使用状况开展必要评估工作,并在注册申报资料中予以说明。其他类型第三方数据库可参照测评数据库和公开数据库的要求予以使用,同时考虑其适用场景、数据质量评估、时效性等要求。(八)白盒算法白盒算法的特征提取需要人为干预,可与现有医学学问建立关联,可解释性高,通常为基于模型的算法。对于此类算法,有监督学习的模型/数据质控要求参照有监督深度学习
44、执行,不适用内容详述理由并予以纪录。同理,无监督学习的模型/数据质控要求亦参照有监督深度学习执行,其中数据标注不适用,其余不适用内容详述理由并予以纪录。此类算法无论有监督学习还是无监督学习,均需明确特征信息,如特征分类(如人口统计学、生物学、形态学)、特征属性(如形态、纹理、性质、尺寸、边界)、特征呈现方式(如外形、尺寸、边界、颜色、数量)等信息。(九)集成学习集成学习是指产生多个基学习器并以某种结合策略将基学习器进行集成的人工智能算法。集成学习从不同角度具有不同类型划分维度,犹如质和异质的基学习器集成算法、串行和并行的集成算法等,并可与深度学习等人工智能算法组合使用。人工智能医疗器械若使用集
45、成学习算法,注册申报资料需明确算法的名称、类型、输入输出、流程图、运行环境等基本信息以及算法选用依据,并依据集成学习类型及其算法特性供应算法验证与确认资料。(十)迁移学习迁移学习是指将在某领域或任务学习到的模型应用于不同但相关的领域或任务的人工智能算法,如将在自然图像领域学习形成的模型应用于医学图像领域。迁移学习主要包括基于特征和基于模型的算法,并可与深度学习、联邦学习等人工智能算法组合使用。人工智能医疗器械若使用迁移学习算法,注册申报资料需明确算法的名称、类型、输入输出、流程图、运行环境等基本信息以及算法选用依据,并依据迁移学习的类型及其算法特性供应预训练模型的数据集构建、算法测试等资料。(
46、十一)强化学习强化学习是指基于行动与环境的交互,实现行动从环境所获累积嘉奖最大化的人工智能算法,采纳“试错”的学习策略。强化学习从不同角度具有不同类型划分维度,如有模型与无模型的算法、基于策略和基于价值的算法等,并可与深度学习等人工智能算法组合使用。人工智能医疗器械若使用强化学习算法,注册申报资料需明确算法的名称、类型、输入输出、流程图、运行环境等基本信息以及算法选用依据,并依据强化学习类型及其算法特性供应算法验证与确认资料。(十二)联邦学习联邦学习是基于多个数据源协同建立学习模型的人工智能算法,即每个数据源独立进行本地数据学习,通过交换数据模型共同建立学习模型,实为分布式算法训练技术,亦属于
47、隐私计算技术。联邦学习主要包括横向联邦(基于样本)和纵向联邦(基于特征)等算法,并可与迁移学习等人工智能算法组合使用。人工智能医疗器械若使用联邦学习算法等隐私计算技术进行算法训练,注册申报资料需明确算法的名称、类型、输入输出、流程图、运行环境等基本信息以及算法选用依据,并依据联邦学习等隐私计算技术的算法类型及其算法特性供应算法验证与确认资料。(十三)生成对抗网络生成对抗网络是通过生成器和判别器的相互博弈学习而产生与真实数据类似样本的人工智能算法,主要用于数据扩增、对抗测试的样本生成(详见前文),并可与深度学习等人工智能算法组合使用。人工智能医疗器械若使用生成对抗网络进行数据扩增、对抗样本生成,
48、注册申报资料需明确算法的名称、类型、输入输出、流程图、运行环境等基本信息以及算法选用依据,并依据生成对抗网络类型及其算法特性供应算法测试资料。此时,建议开展对抗测试。(十四)持续学习/自适应学习持续学习/自适应学习具备自学习力量,部署后可通过持续学习用户数据而进行产品快速更新。此时,用户亦成为产品开发者,与注册申请人共同担当产品质量责任和法律责任;同时,此种更新对于产品平安有效性的影响具有高度不确定性,特殊是基于数据的无监督学习。因此,在当前法律法规体系和技术水平条件下,持续学习/自适应学习应关闭自学习功能,或者虽开放自学习功能但不得投入使用,即用户始终使用产品原有功能,自学习功能仅用于算法训练或医学科研。注册申请人应依据质量管理体系要求,对自学习功能所产生的产品更新的平安有效性进行验证与确认,必要时申请变更注册,待批准后方能将自学习功能所产生的产品更新投入使用。(十五)人工智能算法编程框架人工智能算法编程框架(以下简称算法框架)从开发者角度可分为自研算法框架和现成算法框架,其中自研算法框架即注册申请人自行研发的人工智能算法框架,属于自研软件;现成算法框架是指注册申请人所使用的由第三方开发的人工智能算法框架,视为现成软件,现成算法框架开发者视为医疗器械供应商。算法框架更新包括产品更新(即更换算法框架)、版本更新、补丁更新,其