2024年11月14日,欧盟委员会正式发布了《人工智能法案》的常见问题(frequently-asked question,FAQ)以及第一版《GPAI业务守则》草案。FAQ明确了《人工智能法》下GPAI模型的定义、通用性和市场投放,回应了与《人工智能法案》和《GPAI业务守则》相关的重要问题。业务守则第一版草案解决了通用人工智能模型提供商的关键考虑因素,概述了其义务,相关提供商将在最终版业务守则生效后签署。该草案概述了指导原则、目标,以及GPAI提供商的透明度和版权规则、系统性风险识别分类规则以及系统性风险缓解措施。上一篇blog中对FAQ及业务守则的前两部分进行了分析,本篇文章将承接上文,对《GPAI业务守则》中规定最为翔实的“具有系统风险的GPAI模型提供者规则”部分进行研究。
草案内容
通用目的人工智能模型提供者规则
系统性风险的分类法
具有系统风险的GPAI模型提供者规则
当前草案的这部分是基于以下假设编写的:具有系统性风险的通用人工智能模型及其提供者数量将较少。如果这些数量增加,未来的草案可能需要做出重大修改,例如引入更加详细的分层措施体系,主要聚焦于那些带来最大系统性风险的模型。具有系统性风险的通用人工智能模型提供者应在整个模型生命周期中采取适当措施、持续评估和减轻系统性风险,与人工智能价值链上的相关参与者合作,并根据不断改进和新兴的能力定期更新其实践,以确保其风险管理具有未来适应性。考虑到不同规模和能力的提供者之间可用资源的差异,结合适当性原则,将在适当情况下为中小企业和初创企业提供简化的合规方式。
对具有系统性风险的通用人工智能模型进行详细的风险评估、缓解措施和文档记录尤为重要,以下是具体措施:
签署方承诺采用、实施并提供一个安全框架(Safety and Security Framework,SSF)(措施7),该框架将详细阐述他们为积极评估和按比例减轻其具有系统性风险的通用人工智能模型所带来的系统性风险而遵循的风险管理政策。SSF的全面性以及其中的承诺应与开发此类模型所带来的预期系统性风险的严重程度相称。本节其余部分是SSF初步所需的组成部分。
3.1 具有系统风险的GPAI模型提供者的风险评估措施
3.1.1风险识别
作为SSF的一部分,签署方承诺持续且彻底地识别可能源自具有系统性风险的通用人工智能模型的系统性风险(措施8)。签署方将确定并明确与拟开发、投放市场或使用的具有系统性风险的通用人工智能模型特别相关的系统性风险。为此,他们将使用分类法(第三节)中列出的系统性风险,并可能考虑其他风险以及参考分类法中的其他要素。
3.1.2风险分析
作为SSF的一部分,签署方承诺对识别出的系统性风险路径进行持续且彻底的分析(措施9)。签署方将使用稳健的风险分析方法,识别并映射可能引发已识别系统性风险途径的潜在危险模型能力、倾向和其他风险来源,并为每个要素提供系统性风险指标,将识别出的危险模型能力、危险模型倾向和其他风险来源按照严重程度进行分层(至少包括一个在没有适当保障措施的情况下风险水平将被视为不可容忍的严重程度层级),并且签署方需对触发系统性风险指标的模型的时间线作出预测。
初稿在此提出开放问题征求各方意见:
•严重性的层级将会是怎样的?是否已经有初步的标准或共识正在形成?
•“严重性”是否是表达“重要程度”的最佳方式,还是它可能会与风险(即概率和严重性的组合)的定义产生混淆?
3.1.3 收集证据
作为SSF的一部分,签署方承诺对具有系统性风险的GPAI模型所呈现的具体系统性风险进行持续的证据收集,使用从预测到同类最佳评估等一系列方法来研究这些模型的能力、倾向和其他影响(措施10)。对于其具有系统性风险的GPAI模型,签署方将:
- 使用广泛的方法收系统性风险的模型无关证据。
- 进行同类最佳评估,使用一系列合适的方法(例如问答集、基准测试、红队攻击和其他对抗性测试方法、人类提升研究、模型生物、模拟和机密材料的代理评估),以充分评估其能力和局限性。
- 确保以高度的科学严谨性执行评估,为内部或外部评估者提供所需支持,以符合严格的科学标准,包括足够的时间、模型访问权限和计算预算,以正确评估具有系统性风险的通用人工智能模型,同时在适当情况下保护知识产权和机密商业信息。
- 确保以同类最佳水平的能力激发(如微调、提示工程、支架搭建、计算和工程预算)来运行评估,以充分激发模型的能力,并最大限度地降低低估能力的风险。
- 确保能在在该模型预期且合理可预见将被使用的未来人工智能系统代表中进行评估,也要在该模型可能引发系统性风险的最大潜力的人工智能系统中进行评估。
- 确保评估与模型的计划使用背景及其所有多样性相匹配,以展示泛化能力。例如,对多语言模型的语言基评估可能不仅关注英语,还关注考虑到欧洲多样性的多语言评估。
- 对模型进行大量的探索性工作,如由合格第三方(包括民间社会和学术界的代表)进行的开放式攻击,即不局限于已识别风险或能力的证据收集,还将通过这些方法努力识别新风险和新兴能力。
- 使同类最佳的安全评估、工具以及最佳实践在人工智能生态系统中的相关参与者中广泛可用。在特定情况下,签署方可能会限制信息共享,以保护商业敏感信息、公共安全、扩散风险以及未来评估的有效性。
- 以透明且易于比较的格式将评估结果与人工智能办公室和公众进行共享
初稿在此提出开放问题征求各方意见:
•哪些因素可能决定某种评估方法是否适合特定的模型和风险,以及评估是否足够彻底?
•如何将高科学严谨性付诸实践?什么是金标准,以及签署方在何种情况下应偏离此标准(例如进行早期探索性研究时)?
•对于提供具有系统性风险的开源通用人工智能模型或面向企业对企业客户的签署方,如何实施?
• 存在哪些渠道、组织和方法可以促进评估、工具和最佳实践的共享,同时不会给当前在人工智能安全领域处于前沿的研究团队带来不必要的额外压力?
• 这一措施对初创企业和中小企业特别有益吗?这些企业可能没有足够的能力从零开始开发这些工具和实践,但可能能够使用它们。
3.1.4 风险评估周期
签署方承诺模型开发和部署的整个生命周期中持续评估风险并收集证据(措施11)。
- 训练前。在开始具有系统性风险的通用人工智能模型的训练运行之前,签署方将根据需要对SSF进行更新,并确保评估者(内部和外部)已准备好根据签署方的SSF承诺进行证据收集。
- 训练期间。签署方将在定期里程碑处(例如,每增加四倍有效计算时)收集证据,并根据风险更新进行中的安全与安全报告。此处的训练不仅限于“在大量数据上进行预训练”,还应包括例如监督式微调、强化学习阶段或类似的模型优化方法。
- 部署期间。在部署任何具有系统性风险的GPAI模型期间,签署方将通过重新评估风险(尤其是至少每六个月重新运行相关评估,或每当他们感知到环境发生重大变化时来更新模型的SSR,同时考虑到在部署期间对模型进行监测所获得的任何证据。
- 部署后监测。签署方将对系统性风险进行部署后监测,建立机制持续收集并将相关部署后信息纳入风险评估。这些机制可能因不同的模型集成和使用方式而异(例如,监测模型的有害输出和行为,或调查系统性影响)。签署方将根据其分发策略以及使用模型的客户和行业类型来调整其部署后监测(例如,对于开放权重模型,他们可能会考虑评估对许可证的遵守情况,监测模型在现实世界中的使用证据,或研究模型的科学分析)。
初稿在此提出开放问题征求各方意见:
存在哪些方法,使具有系统性风险的开放权重通用人工智能模型的提供者能够监测他们已发布的模型,而不会对这些模型的下游用户产生重大副作用?
3.2 具有系统性风险的GPAI模型提供商的技术风险缓解措施
3.2.1 缓解措施
签署方承诺在其系统安全框架(SSF)中详细列出从每个系统性风险指标或严重程度层级到相应必要的安全和安保缓解措施的映射,该映射至少应旨在将系统性风险保持在不可容忍的水平以下,并应描述如何进一步将风险降至最低。
- 签署方将在其SSF中详细说明他们将实施的安全缓解措施,以缓解由其具有系统性风险的GPAI模型使用所带来的系统性风险。这些措施包括(a)对模型的行为修改,(b)在系统中部署模型时设置的保障措施,以及(c)为其他参与者提供的降低系统性风险的对策或其他安全工具。
- 签署方将在其SSF中详细说明他们将实施的安保缓解措施,以缓解因拥有(a)具有系统性风险的通用人工智能模型的未发布权重,以及(b)训练或使用此类未发布模型所需的相关未发布资产和信息而带来的系统性风险。对于未发布的模型,这些安保缓解措施应在开发阶段实施,即在做出部署决策之前进行充分的风险评估。对于已发布但封闭的模型,这些安保缓解措施也应在模型部署期间和之后实施,但对于已公开发布权重或相关资产的模型,则无需此类缓解措施。这些措施包括(a)对静止、传输和使用中的权重和资产的保护,包括在适当情况下的硬件级保护,(b)对权重和资产的访问控制、监控和加固接口,(c)通过持续的安全红队演练和认证的安全审查来保证安全,(d)对内部威胁的筛查。
初稿在此提出开放问题征求各方意见:
•对于具有系统性风险的通用人工智能模型,应根据系统性风险指标和严重程度层级应用哪些网络安全和信息安全标准?
•具有系统性风险的通用人工智能模型的网络安全标准应如何与其他领域的现有网络安全标准有所不同?
•签署方将在其SSF中详细说明现有安全和安保缓解措施的局限性,并指出对于给定的系统性风险指标或严重程度层级,是否存在管理系统性风险的适当缓解措施。
•签署方将在其SSF中详细说明他们评估从系统性风险指标或严重程度层级到安全和安保缓解措施的映射持续充分性的流程。这应与模型影响相关的内部和外部因素的变化保持同步,如能力诱导和网络安全领域的进展。
3.2.2 安全和安保报告
作为风险缓解和评估的一部分,为确保可比较和可验证的文档记录,签署方承诺为其开发的任何具有系统性风险的通用人工智能模型创建一份安全和安保报告(Safety and Security Report,SSR)(措施13)。该报告应在模型开发和部署生命周期的适当决策点进行,详细说明模型的风险和缓解评估,并构成模型开发和部署决策的基础。报告应包含如下内容:
- SSR的全面性和详细程度、在开发和部署生命周期中的适当时机、外部输入和审查的程度,都与评估中模型相关的系统性风险指标或严重程度层级成比例。
- 详细说明对模型进行的风险评估结果,包括在缓解措施实施前后。
- 安全缓解措施的有效性评估结果。
- 安保缓解措施的有效性评估结果。
- 对部署合理性的成本效益分析。
- 足够的科学细节,以便对生成结果、证据和分析所使用的方法进行独立评估。
- 详细说明对上述结果进行的内部(或在更高严重程度层级时进行的外部)审查结果。
- 确保与人工智能办公室共享的任何SSR与内部用于开发或部署决策的报告相同。
3.2.3 开发与部署决策
为减轻安全和安保缓解措施不足所带来的风险,签署方应建立一套流程,以决定是否继续开发并部署具有系统性风险的通用人工智能模型(措施14)。该流程应在签署方的系统安全框架(SSF)中予以描述,并应基于系统安全报告(SSR)中呈现的结果和分析:
- 何种条件下将不再继续开发或部署具有系统性风险的通用人工智能模型,或者将已部署的具有系统性风险的通用人工智能模型从部署中移除或删除。
- 何种条件下可以通过实施更好的安全和安保缓解措施或提交成本效益分析等方式,继续开发或部署,同时这些条件的严格性和评估流程应与系统性风险指标或严重等级相适应。
- 在何种情况下开发与部署决策需要外部参与者的意见或授权,包括相关政府机构如人工智能办公室等。
3.3 具有系统性风险的GPAI模型提供商的治理风险缓解措施
3.3.1. 系统性风险责任归属与评估
- 签署方承诺在所有组织层级,包括高管和董事会层级,确保对系统性风险拥有充分的责任归属,以便评估和按比例缓解系统性风险(措施15)。
初稿在此提出开放问题征求各方意见:
- 上述子措施是否应根据提供商的规模或其他相关特征进行调整?如果是,应如何调整?
- 是否应提供更多或其他的例子,以说明什么可以视为遵守措施15?
- 签署方承诺评估其对SSF(标准安全框架)的遵守情况和充分性(措施16)。签署方将每年进行一次SSF充分性和遵守情况的评估,考虑其计划活动,并将评估结果提交给董事会或同等机构。
- 这种评估是否应回答特定的问题?
- 在此背景下,应如何定义“充分性”?
- 签署方承诺在模型生命周期中根据适当情况(包括部署前后),特别是针对高风险层级,启用充分的独立对专家风险和缓解评估(措施17),可能涉及模型能力的独立测试、收集的证据审查、系统性风险以及缓解措施的充分性。
- 在什么情况下,在部署前对具有系统性风险的GPAI模型进行独立专家系统性风险评估是适当的?对于缓解措施的评估呢?在什么条件下会适得其反或没有必要?
- 是否存在某些情况,使得在训练前或训练期间开始,在整个生命周期中迭代地让独立专家参与风险评估是适当或可取的?
- 如何根据相关系统性风险的规模和性质,例如信息安全性、对具有系统性风险组件的通用人工智能模型的访问深度和文档、测试范围、测试时间、专业知识和透明度,来调整独立系统性风险评估?
- 如何根据风险严重程度来制定这些措施?
- 什么是适当的第三方评估者?如何起草本守则以考虑当前行业的不成熟性?是否有某种方式可以让AI办公室支持提供商,特别是中小企业,确保风险和缓解措施的独立专家评估?
- 何时采用不同方式促进独立测试(如研究安全港和漏洞报告)是合适的?
3.3.2. 严重事件报告
- 签署方承诺识别并跟踪源自其具有系统性风险的GPAI模型的严重事件,及时记录并向人工智能办公室以及适当的国家主管机构报告任何相关信息及可能的纠正措施(措施18)。签署方将建立流程(包括指定工作人员)以识别、记录和报告源自其具有系统性风险的通用人工智能模型的严重事件及未遂事件至人工智能办公室。同时建立应对严重事件的流程,包括预先定义可能采取的纠正措施,以及解释何时可以采取这些措施
- 举报人保护措施(措施19)。签署方将主动向其员工告知可向人工智能办公室提交举报投诉的邮箱地址。
- 通知(措施20)。签署方承诺就有关其模型达到通用人工智能模型分类为具有系统性风险的通用人工智能模型的阈值、其安全与安保框架(SSF)、安全与安保要求(SSR)以及适当的实质性系统性风险的相关信息通知人工智能办公室。具体而言,签署方将在开始训练运行之前,需要估算其打算使用的计算能力,如果会被归类为具有系统性风险的通用人工智能模型,通知人工智能办公室;确保人工智能办公室能够获取其安全与安保框架的最新版本;将新的具有系统性风险的通用人工智能模型投放市场之前,向人工智能办公室发送安全与安保要求;可能会产生实质性系统风险时通知人工智能办公室。
初稿在此提出开放问题征求各方意见:
• 严重事件包含哪些内容?本守则是否应采用《人工智能法案》第3条(49)款中对人工智能系统的定义,还是对于具有系统性风险的通用人工智能模型而言,另一个定义更为合适?
• 在何种条件下,应判定具有系统性风险的通用人工智能模型间接导致了严重事件的发生?
• 是否有合适的技术标准或最佳实践能够支持向人工智能办公室自动化或简化报告严重事件?
• 可能采取哪些纠正措施来应对严重事件?本守则是否应规定何时采取这些措施是适当的?
• 对于开放权重或开源提供者而言,哪些严重事件应对流程是合适的?
• 《欧盟2019/1937指令》(“举报指令”)中还有哪些重要部分需要在本守则中强调?
• 举报指令中有哪些部分需要在本守则中进一步澄清或详细说明?是否有其他举报措施可能适合用于评估和减轻系统性风险?
• 人工智能办公室有权更新用于确定通用模型是否被视为具有高影响力能力(以及因此是否分类为具有系统性风险的通用人工智能模型)的分类标准。如何撰写才能明确提供者何时应根据新的分类标准通知人工智能办公室其模型符合标准?
• 如何促进人工智能办公室对最新版本的访问?
• 什么构成相信可能会产生系统性风险的充分理由?
3.3.3 文件记录
签署方承诺在整个具有系统性风险的通用人工智能模型的生命周期内,记录与遵守本守则和《人工智能法案》中关于具有系统性风险的通用人工智能模型的规定相关的证据,以便在人工智能办公室要求时共享这些信息(措施21)。这包括与具有系统性风险的通用人工智能模型分类相关的证据,如附件十三中的信息。它还包括证明其遵守《人工智能法案》和本守则的文件,如社会保障基金(此处可能为原文错误,应为“安全保障措施”或类似表述,SSF可能代表Safety and Security Features)、系统安全要求(SSR)以及在风险评估期间收集的任何额外证据,以及附件十一第2节中概述的信息(见第53条(1)(a)项)。
初稿在此提出开放问题征求各方意见:
• 为了降低合规成本,特别是对小型提供商而言,此类文件记录的标准化模板可能是什么样的?
3.3.4 公共透明度
签署方承诺提供适当的公共透明度(措施22),旨在帮助更广泛的生态系统,包括下游提供商、人工智能办公室和公众,更好地理解和减轻具有系统性风险的通用人工智能所带来的系统性风险,特别是在评估和减轻人工智能风险的科学尚处于起步阶段的情况下,通过公布其安全保障措施和系统安全要求来实现。如果信息的包含会实质性增加系统性风险或泄露敏感商业信息到与社会利益不成比例的程度,则可以对信息进行删减。
初稿在此提出开放问题征求各方意见:
• 对于哪些类型和程度的公共透明度,系统性风险会因赋能更广泛的生态系统来评估和减轻它们而增加,而不是减少?
• 考虑到发布模型和系统卡片(可能指描述模型功能和安全特性的文档)的普遍做法,这种公共透明度的负担有多大?能否设计该措施以减轻这种负担?
法规分析
欧盟《通用人工智能业务守则》初稿对服务提供商提出了严格且全面的要求,强调了透明度、责任和对社会影响的关注。服务提供商需要从技术、治理政策等多个层面进行调整,以满足合规要求。这不仅有助于确保模型的安全性和可靠性,降低法律和监管风险,还有助于建立用户信任,提升市场竞争力。积极响应和落实这些要求,将是人工智能服务提供商在欧盟市场取得长期成功的关键。
该初稿在细节上较为简略,旨在为利益相关者提供最终守则潜在形式和内容的清晰方向感,添加了一些开放性问题,以突出希望在未来草案中取得进展的一些领域,鼓励来自包括民间社会、学术界、人工智能安全研究所和行业在内的各种视角的意见反馈,使各利益相关者能够继续有效地参与其中。欧盟人工智能办公室在进行迭代讨论以及吸收来自利益相关者的更多外部意见之后,草案中的措施可能会增加、删除或修改。后续kaamel将持续跟进欧盟的人工智能立法动向。