人工智能全生命周期安全风险与DevSecOps治理框架深度分析

字数

30681 字

阅读时间

125 分钟

摘要

人工智能（AI）作为信息技术的软件、数据、算法的深度融合与演进，正以前所未有的速度重塑技术格局与社会结构。然而，这种颠覆性力量的背后，是贯穿其整个生命周期的复杂且多样的安全风险。本文旨在构建一份详细且具有深度的人工智能（AI）安全分析报告，基于对现有研究文档和在线深度搜索结果的全面梳理与分析，系统性地识别并阐述AI在数据、模型、算法、工程实现、部署、应用等各环节面临的核心安全挑战，深入剖析数据投毒、模型窃取、对抗攻击、API漏洞、供应链安全、Agent特定威胁等具体风险类别，并通过可视化图示（如“人工智能全生命周期安全风险全景图”）直观呈现风险分布。在此基础上，本文将重点探讨将DevSecOps理念应用于AI安全治理的实践框架，即MLSecOps，评估其在应对AI特有风险中的价值与局限性，并结合全球主要经济体（欧盟、美国、中国）的监管趋势、人工智能的伦理考量以及日益凸显的地缘政治影响，勾勒出AI安全治理的复杂图景与未来方向，并借助可视化模型（如“应用于人工智能安全的MLSecOps治理模型”）阐述治理流程。最终，本文将提出应对AI安全挑战的高级防御策略与新兴技术，为构建安全可信的人工智能生态体系提供参考和启示。

1. 引言：AI的技术本质与固有的安全挑战

1.1. 人工智能：软件、数据与算法的融合与演进

人工智能并非单一的技术门类，而是现代信息技术核心要素——软件工程、数据科学与算法理论——深度融合与演进的集大成者。如图所示，AI系统吸纳了软件工程中严谨的开发流程和架构设计，依赖数据科学中的数据采集、清洗、分析和管理能力，其核心功能则由复杂的算法模型实现。从传统的以逻辑和规则为主导的软件系统，发展到今天以数据为驱动、以模型为核心的智能系统，人工智能的演进本质上是这三者相互促进、螺旋上升的结果。

人工智能全生命周期安全风险全景图

图1：人工智能全生命周期安全风险全景图

这种深度融合赋予了AI系统强大的能力，使其能够处理非结构化、高维度、大规模的数据，并从中发现隐藏的模式，实现过去只有人类才能完成的复杂任务，如自然语言理解与生成、图像识别、决策支持等。然而，正是这种融合特性，使得AI系统的安全风险呈现出与传统IT系统显著不同的特点。传统软件安全主要关注代码漏洞、配置缺陷、访问控制等，数据安全侧重于数据的存储、传输和处理过程中的保密性、完整性和可用性，而算法安全则更多地探讨算法的数学性质、收敛性、计算复杂度等。在AI系统中，这些孤立的安全域被打破，风险在不同层面之间相互传导和叠加。

例如，训练数据中的噪声或偏见（数据问题）会直接影响模型的学习效果和决策边界（算法问题），导致模型在特定情况下的输出错误或产生歧视性结果（软件应用问题）[^1, ^40]。一个存在漏洞的开源依赖库（软件问题）可能被用于篡改训练过程（工程实现问题），进而影响模型的行为（算法和应用问题）^[1]。模型的“黑盒”或“灰盒”特性，特别是在深度学习领域，使得其内部决策过程难以完全透明和解释^[1:1]，这不仅增加了发现算法漏洞和偏见的难度，也使得事后的安全审计和责任追溯变得复杂。因此，理解AI系统的安全风险，必须从软件、数据、算法三位一体的融合视角出发，认识到其风险的跨领域、多层次和复杂交互特性。

1.2. AI安全风险的内在复杂性与全生命周期特性

人工智能的安全挑战是其技术本质所决定的内生性风险，并且这些风险并非一蹴而就，而是贯穿其从摇篮到坟墓的完整生命周期^[1:2]。如图1“人工智能全生命周期安全风险全景图”所示，AI系统的生命周期通常包括：

概念与设计： 定义AI系统的目标、功能和架构。
数据采集与准备： 收集、清洗、标注和预处理训练和测试数据。
模型设计与开发： 选择或设计算法模型、确定模型架构。
模型训练： 使用准备好的数据训练模型。
模型验证与测试： 评估模型的性能、鲁棒性、公平性和安全性。
模型部署： 将训练好的模型集成到应用系统或平台。
运营与监控： 在生产环境中运行模型，并对其性能和行为进行监控。
维护与迭代： 根据反馈和新的数据更新或再训练模型。
退役： 将模型或系统下线。

每个阶段都可能成为引入或放大安全风险的环节：

数据阶段： 数据投毒、隐私泄露、数据偏见、数据完整性受损等风险直接影响模型的“认知基础”[^1, ^4, ^18, ^30]。
模型与算法阶段： 模型窃取、对抗攻击、后门攻击、算法漏洞等威胁直接针对模型本身或其训练过程，影响模型的“智能核心”[^1, ^2, ^10, ^26]。
工程实现阶段： 开源组件漏洞、依赖库风险、训练环境安全等是构建AI系统的“载体”面临的风险[^1, ^31, ^32]。
部署阶段： 基础设施安全（物理、网络、云平台）、API安全、模型文件保护、配置错误等是AI系统在“落地”过程中遇到的环境风险[^1, ^3, ^59, ^83]。
应用阶段： Agent行为风险、RAG系统风险、业务逻辑漏洞、滥用风险等是AI系统在“发挥作用”时与外部世界交互产生的风险[^1, ^11, ^128, ^136]。

这些风险并非孤立存在，而是相互关联，形成复杂的攻击链条^[1:3]。例如，一次成功的数据投毒（数据阶段）可以在模型部署后（部署阶段）通过特定的输入（应用阶段）触发模型中的后门（算法阶段），导致系统执行恶意操作。AI系统的动态性和持续迭代特性进一步增加了安全管理的复杂性。新的数据、新的模型版本、新的应用场景都可能引入新的漏洞和风险，使得安全状态不断变化，传统的、静态的、基于边界的防御措施难以提供持久有效的保护。因此，人工智能的安全治理必须采取贯穿全生命周期的、动态的、主动的方法。

1.3. 本文核心主题：AI安全风险剖析与DevSecOps治理框架探讨

基于对人工智能技术本质及其全生命周期风险特性的深刻认识，本文旨在构建一份全面、深入、具有实践指导意义的安全分析报告。我们的核心任务是：

系统性地剖析人工智能在不同生命周期阶段面临的核心安全风险： 在第二、第三章，我们将从宏观的风险类别出发，深入挖掘微观的技术细节，详述具体的攻击机制（如数据投毒的不同类型^[2]、模型窃取的S&W算法原理^[3]、Agent的提示词注入^[4]、RAG的知识库投毒^[5]），阐述这些风险如何发生、其潜在影响以及最新的研究进展，并结合图1“人工智能全生命周期安全风险全景图”直观呈现风险分布。我们将特别关注预训练大模型和生成式AI（AIGC）带来的新挑战和特有威胁。
深度探讨以DevSecOps理念构建AI安全治理框架的可能性与实践路径： 在第四章，我们将详细介绍DevSecOps的核心原则（安全左移、自动化、持续集成/交付/部署、持续监控、IaC、策略即代码、威胁建模、安全文化与协作）^[1:4]。我们将分析这些原则如何适配AI/ML系统的开发运维流程，并在此基础上构建MLOps与DevSecOps融合的MLSecOps治理框架^[3:1]，阐述MLSecOps如何在数据、模型、部署、运营等ML特有环节落实安全实践，并借助图2“应用于人工智能安全的MLSecOps治理模型”阐述其循环迭代的安全保障流程。同时，我们将讨论面向AI安全的DevSecOps工具链，涵盖传统安全工具的扩展应用和AI特有的安全工具（如模型安全测试工具、AI红队框架、AI防火墙等）^[6]。
将AI安全置于更广阔的宏观背景下进行考量： 在第五章，本文将分析全球主要经济体（欧盟、美国、中国）在AI领域的监管框架、立法趋势和AIGC标识要求的异同[^1, ^6, ^146]。我们将探讨人工智能带来的复杂伦理和社会挑战（如算法偏见、隐私侵犯、虚假信息、就业影响、责任归属）[^1, ^40, ^46, ^154]，以及AI作为战略技术日益凸显的地缘政治影响（如技术主权、军备竞赛、关键基础设施风险、认知战）[^1, ^163]。这将帮助理解AI安全治理是一个涉及技术、管理、法律、伦理、社会、国际关系等多维度的系统性工程。

最后，在第六章，本文将介绍当前的高级防御策略与新兴AI安全技术（如AI红队测试框架、机密计算、AI防火墙、智能水印、工业级基准测试等）[^1, ^172]，并展望AI安全领域的未来研究方向和发展趋势。通过这种结构，本文力求为读者提供一份全面、深入、具有前瞻性的分析报告，不仅帮助读者理解人工智能安全风险的广度和深度，更希望能为构建有效、可持续的AI安全治理体系提供有价值的参考和行动指引。

2. 人工智能全生命周期核心安全风险

人工智能系统的生命周期是一个复杂且持续迭代的过程，涵盖了从最初的概念、数据处理、模型开发到最终的部署和应用等多个阶段。如图1“人工智能全生命周期安全风险全景图”所示，每个阶段都可能引入独特的安全风险，并且这些风险会相互作用，对整个系统的安全性构成威胁。本章将详细阐述在AI生命周期中，尤其是在预训练、部署和应用这三个关键阶段的核心安全风险。

2.1. 预训练模型阶段的内生安全风险

预训练模型，特别是近年来迅速发展的大型预训练模型（如大语言模型，LLMs），是许多AI应用的基础。这一阶段涉及海量数据的收集与处理、复杂算法的设计与实现、以及大规模计算资源的集成。由于其基础性和规模性，预训练阶段引入的风险对下游应用具有广泛且深远的影响。

2.1.1. 数据风险：

数据是AI模型的“食粮”，其质量、完整性、隐私性和来源可信度直接决定了模型的安全与性能。

数据投毒与污染：
- 定义： 数据投毒是指攻击者通过向用于训练或微调模型的数据集中注入少量精心构造的恶意或损坏样本（即“有毒数据”），从而操纵模型的学习过程和长期功能，损害模型的可用性、完整性或准确性[^1, ^4]。
- 攻击目标： 数据投毒的目标是使模型中毒，破坏模型的可用性或完整性，导致模型在测试或实际应用中出现异常行为、错误分类或性能下降^[2:1]。例如，攻击者可能通过投毒使交通识别模型将停车标志识别为限速标志，或使垃圾邮件过滤器放行特定的恶意邮件。
- 影响阶段： 数据投毒可以在AI模型的预训练和微调（fine-tuning）阶段都产生影响[^1, ^10]。特别是大型语言模型（LLMs），其训练数据（如互联网公开数据）和公开的预训练模型本身都可能包含投毒样本^[7]。复杂的训练流程和多阶段训练增加了检测投毒的挑战性^[1:5]。
- 攻击机制/类型： 攻击者将中毒样本嵌入训练数据集，利用训练过程使模型内部产生后门或偏见。数据投毒攻击可分为针对性攻击（操纵模型以特定方式输出，有利于攻击者，如在输入特定触发器时执行特定任务）和非针对性攻击（降低模型的总体健壮性或准确率）^[2:2]。具体的攻击类型包括：
  - 标签翻转（Label flipping）：攻击者交换训练数据中正确的标签与不正确的标签，是最简单的投毒方式之一^[2:3]。
  - 数据注入（Data injection）：向训练数据集中引入虚构的数据点，以引导模型行为，这些数据点可能带有恶意构造的特征或标签^[2:4]。
  - 后门攻击（Backdoor attacks）：引入微妙的操作（如在图像中添加一个微小的、人眼难以察觉的图案），使模型在遇到触发器时表现出有利于攻击者的行为，而在正常输入下保持正常功能[^4, ^15]。开源模型因数据和算法访问限制较少，可能尤其容易受到此类攻击，且通过开源存储库传播的威胁呈增长趋势[^13, ^29]。BackdoorLLM就是一个专门评估LLM后门攻击的基准测试^[8]。
  - 干净标签攻击（Clean-label attacks）：攻击者以难以检测的方式修改数据，中毒数据仍显示正确标签，使传统基于标签验证的数据清洗方法难以识别，隐蔽性极强^[2:5]。
- 风险来源： 中毒数据可能来源于多样的训练数据源，如互联网公开数据^[9]、第三方数据提供商或政府数据库^[2:6]。数据供应链安全问题，如第三方数据源被污染或在传输过程中被篡改，是数据投毒风险的一个重要来源^[10]。
- 后果： 数据投毒会导致分类错误、模型性能降低^[2:7]、放大模型中固有的偏见或引入新的偏见（导致歧视性结果），以及为更复杂的攻击（如逆向攻击、对抗性攻击或后门行动）打开大门，造成安全漏洞[^13, ^29]。
- 与提示注入的区别： 数据投毒和提示注入都利用模型输入的漏洞，但数据投毒操纵的是训练数据集，影响模型的长期功能和固有行为；而提示注入操纵的是推理或应用阶段的输入提示，影响生成式AI系统的即时输出[^11, ^130]。投毒影响的是模型的“记忆”和“学习”，而提示注入影响的是模型的“理解”和“响应”当前指令。
隐私泄露与敏感信息风险： 预训练模型，特别是大型模型，由于其庞大的参数量和对训练数据的过度拟合能力，可能**“记忆”训练数据中的敏感信息并在推理时无意或恶意地泄露**。这构成了严重的隐私风险^[11]。即使用户向大模型输入的机密信息未被明确用于再训练，也可能被存储或间接影响模型行为^[1:6]。常见的攻击类型包括：
- 成员推断攻击（Membership Inference Attacks, MIAs）：攻击者判断特定数据记录是否包含在模型的训练集中^[12]。
- 数据提取攻击（Data Extraction Attacks）：攻击者通过查询模型，尝试重构或提取出训练集中的原始数据，例如从语言模型中提取出训练文本中的个人身份信息^[12:1]。
- PII重构攻击（PII Reconstruction Attack）：专门针对个人身份信息（Personally Identifiable Information）的提取攻击，风险尤为突出^[12:2]。最新研究中，R.R. (Recollect and Rank) 攻击由Wenlong Meng等提出，这是一种两阶段PII窃取攻击，通过诱导LLM填充掩码文本并排序来恢复PII，即使数据经过脱敏也有效^[12:3]。大型代码模型(LLMs4Code)也存在记忆问题，可能泄露训练代码中的硬编码凭证等敏感信息^[13]。
数据供应链安全与可信来源： 现代AI模型的开发高度依赖于开源数据集、开源库、预训练模型以及第三方服务。这种复杂的数据和组件供应链引入了新的安全风险^[1:7]。第三方数据源、开源库或配置文件被污染，可能在模型训练过程中引入恶意内容或漏洞^[1:8]。例如，一个包含恶意样本的公共数据集，或者一个被植入后门的预训练模型，都可能在不经意间被下游开发者使用。近期研究揭示，Hugging Face等AI供应链中的配置文件可能被利用执行未授权代码^[14]。ConfigScan就是一种基于LLM的工具，用于检测这些恶意配置^[14:1]。**AI物料清单（AI-BOM）**的概念被提出，旨在提高AI组件及其来源的透明度，但这仍然面临标准不统一、信息不完整等挑战^[10:1]。当前SBOM格式在精确指向数据集特定修订版方面存在不足，这对于追踪受污染数据集训练的模型至关重要^[10:2]。Data Version Control (DVC)等工具为此提供了潜在解决方案^[10:3]。
数据质量、偏见与公平性挑战： 训练数据中的系统性偏见是导致AI模型输出不公平或歧视性结果的根本原因（即算法偏差）[^1, ^40]。如果训练数据在特定人群、群体或特征上存在代表性不足或偏差，模型将习得并放大这种偏见，导致在招聘、信贷审批、司法判决等关键应用中出现歧视现象，加剧社会不平等[^1, ^45]。偏见类型多样，包括算法偏见、混淆偏见、内隐偏见、测量偏见、选择偏见、时间偏见等^[15]，可能在数据收集、模型开发或实施阶段引入^[16]。数据质量问题，如标注错误、数据不一致或噪音过多，也会降低模型的准确性和鲁棒性，间接影响安全性。G-AUDIT框架被用于检测医疗AI数据集中的偏见和捷径学习^[15:1]。

2.1.2. 训练算法的安全风险：

除了数据问题，AI模型的训练算法本身也存在漏洞，并成为攻击者利用的目标。

算法漏洞与对抗性攻击：
- 定义： 对抗性攻击是指攻击者通过对输入数据进行微小、人眼难以察觉的扰动，使模型输出错误结果^[1:9]。这些带有扰动的输入被称为“对抗样本”。虽然对抗攻击主要发生在推理阶段，但其成功与否根源在于模型训练时学习到的决策边界的脆弱性^[1:10]。
- 其他攻击： 除了直接生成对抗样本，算法层面还存在其他攻击：
  - 模型逆向攻击（Model Inversion Attack）：尝试从模型的输出中推断出输入数据的敏感信息，与隐私泄露相关联^[17]。
  - 成员推断攻击（Membership Inference Attack）：判断特定数据点是否被用于训练模型，进一步加剧隐私风险^[12:4]。
  - 算法后门攻击（Algorithmic Backdoor Attack）：与数据投毒中的后门攻击类似，但可能通过修改算法或模型结构本身来植入后门^[8:1]。
模型窃取与逆向工程：
- 定义： 模型窃取攻击（Model Stealing Attack）是当前人工智能安全中极具威胁的一类攻击[^49, ^50]。该攻击允许攻击者通过向目标模型反复发送查询请求（通常是API接口），在完全或部分不了解模型内部结构和训练数据的情况下，训练出一个功能与目标模型相近的替代模型^[18]。
- 后果： 模型窃取不仅侵犯模型的知识产权，造成巨大的经济损失^[18:1]，还有可能生成高效的对抗样本，进而威胁更广泛的模型安全性（迁移攻击）^[19]。被窃取的模型也可能被用于开发恶意应用或绕过现有安全检测。
- 攻击技术： 攻击者通过智能样本选择和加权损失策略，最大化利用受害模型的查询反馈，快速训练高相似度替代模型^[3:2]。最新研究中，提出了名为S&W的攻击算法，该算法创新地结合了多样化的重要性采样策略和加权差异损失函数，显著提升了攻击的查询效率和替代模型的性能^[3:3]。
  - 采样策略： 利用k-Center等算法保证样本多样性，防止样本类别不均衡带来的性能下降，确保窃取到的模型在不同数据分布上都能表现良好^[3:4]。
  - 差异损失函数： 关注替代模型与受害模型输出的差异，将“难样本”（替代模型与受害模型预测差异大的样本）赋予更大权重，以促进替代模型更好地模拟受害者的复杂行为，尤其是在对攻击者重要的区域^[3:5]。
- 防御挑战： 防御手段方面，检测用户查询行为的统计分布、在模型API端引入预测扰动（如Prediction poisoning）是当前常见防护技术，但基于自然样本选择的高效窃取方法（如S&W）依然能避开检测，体现防御技术的挑战性^[3:6]。模型结构和攻击策略选择对窃取效果影响显著，S&W算法在不同替代模型结构均表现稳健，且相似性波动小于其他方法，表明具有良好的适配性和实用价值^[3:7]。

2.1.3. 预训练复杂工程的集成风险：

预训练过程是一个复杂的软件工程系统，涉及到大量的代码、库、工具和基础设施^[20]。

软件与依赖库安全： 训练过程依赖的开源库、第三方工具可能存在漏洞，被用于供应链攻击^[1:11]。例如，一个被植入恶意代码的PyTorch或TensorFlow库，可能在模型训练时执行恶意操作。近期研究发现，Hugging Face等AI供应链中的模型和配置文件存在被利用的风险^[14:2]。
大规模训练过程中的运营安全： 训练集群的配置错误、访问控制不当、监控不足可能导致数据泄露或系统破坏^[1:12]。分布式训练虽然提高了效率，但也引入了新的攻击面，如节点间的通信安全、参数服务器的安全等。近期中兴通讯等厂商也发布了针对智算中心以太网物理层安全（PHYSec）架构的白皮书，以应对大规模训练环境下的底层安全需求^[21]。

2.2. 部署阶段的安全风险

模型训练完成后，需要部署到各种环境中提供服务，这包括私有化部署和云服务部署。部署环境的多样性和复杂性引入了新的安全挑战。

2.2.1. 私有化部署：基础设施安全风险

私有化部署成为企业和政府机构采用AI大模型的主要方式，其核心动因在于数据安全、可控性和灵活性，尤其是在涉政、涉密及高度敏感的信息场景下[^1, ^3, ^62]。然而，伴随这种趋势，安全风险亦陡然上升。

主要风险：
- 基础设施“裸奔”： 近期研究显示，近90%的私有化部署服务器存在“裸奔”现象：即基础安全配置缺失，直接暴露于互联网，极易遭受攻击^[22]。此类环境中，大量应用只做表面安全措施（如简单口令），甚至无防护。
- 核心资产泄露： 由于防护不足，“裸奔”服务器上的模型参数、训练数据、知识库及核心资产易被远程非法获取、恶意窃取、污染或毁坏^[22:1]。
- 服务瘫痪/中断： 攻击还可造成模型推理能力瘫痪、资源滥用及服务中断^[22:2]。
- 开源依赖与第三方组件风险： 过度依赖开源框架和第三方组件时安全意识薄弱是另一个主要隐患，如默认开放端口、未设防火墙、忽视组件与数据供应链安全，助长数据泄露及潜在后门植入^[22:3]。
- 数据安全： 私有化部署AI大模型需处理海量（含敏感/涉密）数据，若存储、传输或本地加密管理不当，极易洩漏用户隐私或商业机密^[22:4]。
- 内部威胁与物理/运维安全： 数据中心物理入侵、内部人员滥权、横向移动攻击成为难以忽视的威胁[^3, ^78, ^79]。
- 智能体（Agent）与知识库风险： 本地AI Agent与企业关键系统、知识库深度集成，攻击者一旦入侵，易引发一系列连锁物理或业务风险^[22:5]。
- 模型及推理服务面临API攻击： 比如窃取模型、对抗性攻击、未授权调用消耗资源等^[22:6]。
- 安全治理体系不足： 部分管理者和员工安全意识薄弱、安防教育缺失，也是当前重大短板[^3, ^79]。

2.2.2. 云服务：API风险、企业数据风险

将AI模型部署到云平台提供了便利性和可扩展性，但也带来了独特的安全挑战，尤其是在API接口和企业数据安全方面[^1, ^118]。

API接口安全风险： AI模型通常通过API接口向应用提供服务。这些API接口面临传统Web API的安全风险，如认证授权缺陷、注入攻击、滥用等[^1, ^83]。同时，也面临AI特有的风险：
- 传统API风险： 认证授权缺陷、注入（如提示词注入通过API传递）、API滥用（如通过大量查询窃取模型）[^1, ^83]。OWASP API Security Top 10同样适用于AI模型API[^1, ^83]。
- AI特有API风险： 模型窃取（通过API查询）[^1, ^49]、对抗性攻击通过API输入以欺骗模型^[1:13]。
- 具体漏洞（以Ollama为例）： 近期在Ollama框架中发现了六个漏洞，包括CVE-2024-39719等。这些漏洞可能导致身份验证失败、数据泄露、未授权访问、API滥用、输入验证不足、拒绝服务（DoS）攻击，甚至通过模型管理端口（api/pull和api/push）缺乏认证控制，允许未授权的模型拉取或推送，导致模型污染或窃取^[7:1]。这些漏洞凸显了即使是开源AI框架的API也可能成为攻击目标。
- 防护策略： 针对AI模型API，需要采用比传统API更严格的安全措施[^1, ^8]:
  - 强化身份认证 (Strengthen Identity Authentication): 使用标准认证机制如OAuth 2.0和JWT，并强制执行多因素认证（MFA）以增强安全性^[23]。
  - 加密传输 (Encrypt Transmission): 确保所有API请求和响应均使用HTTPS等安全协议加密，防止数据在传输过程中被拦截[^1, ^119]。
  - 实施细粒度权限控制 (Implement Fine-Grained Permission Control): 为不同用户和角色定义不同的API访问权限，限制未授权的API调用[^1, ^83]。
  - 监控与限流 (Monitoring and Rate Limiting): 实施API调用频率限制，并实时监控API使用模式。APIPark等平台提供详细的统计报告，用于分析API使用情况和检测异常调用模式，显著提升API安全性^[1:14]。
  - 输入验证与过滤 (Input Validation and Filtering): 对所有用户输入进行严格验证，特别是对于可能被用于提示词注入或对抗攻击的输入。使用白名单策略控制输入格式和内容，防止恶意代码或攻击载荷注入^[4:1]。
  - 应用安全测试 (Application Security Testing): 定期进行安全测试，包括渗透测试和代码审计，在部署前识别和修复潜在漏洞^[24]。新的NIST SP 800-228草案也提供了云原生系统API保护指南^[25]。
企业数据在云端的安全风险： 企业将敏感或专有数据上传到云端用于模型训练、微调或检索增强生成（RAG）时，面临数据泄露、未授权访问的风险[^1, ^118]。例如，云存储服务（如Amazon S3, Azure Blob Storage, Google Cloud Storage）如果配置不当，可能导致数据公开可访问^[26]。数据在传输过程中的泄露也是风险点，尽管HTTPS等协议可以加密传输，但端点安全仍然重要^[27]。此外，数据在云端的驻留合规问题（Data Residency Compliance）也需谨慎处理，尤其是在跨国公司或受严格数据主权法规管辖的行业^[28]。多租户云环境中，租户间的数据隔离不足也可能导致数据泄露^[29]。
- 缓解措施： 对静态存储和传输中的数据进行强加密，使用客户管理的加密密钥(CMK)增强控制[^53, ^106, ^107]。精细化控制对云端数据资源的访问权限（IAM）^[30]。部署数据丢失防护(DLP)策略^[1:15]。定期审计云资源配置^[28:1]。使用虚拟私有云(VPC)和私有连接避免公网暴露^[31]。探索使用可信执行环境(TEE)/机密计算保护正在使用中的数据^[17:1]。
云平台特有的安全配置与管理： 云服务商提供的AI/ML平台通常包含复杂的安全配置选项。依赖云服务商提供的平台安全性，但如果配置错误，这将成为常见的风险源[^1, ^77]。用户需要理解云平台的共享责任模型，负责正确配置安全组、存储桶策略、身份访问管理（IAM）角色、API网关、日志监控等^[30:1]。云安全态势管理(CSPM)工具可以帮助企业自动检测和纠正云环境中的配置错误[^1, ^192]。遵循云服务商提供的安全最佳实践和架构框架至关重要，例如AWS SageMaker的安全实践^[30:2]，Azure ML的安全指南^[32]，以及Google Cloud Vertex AI的安全特性[^77, ^126]。

2.3. AI应用与Agent开发安全风险

人工智能模型的价值最终体现在其应用中，特别是近年来兴起的AI Agent（智能体）应用。应用层面的安全风险既包括传统软件的安全问题，也包括与AI特性紧密相关的新风险。

2.3.1. Agent开发框架与流程安全：

AI Agent通常基于特定的开发框架（如LangChain, AutoGPT）构建，并涉及复杂的工作流程^[1:16]。开发框架本身的漏洞或集成配置问题可能导致Agent被攻击或滥用^[1:17]。此外，许多Agent依赖不安全的插件设计来扩展功能，这些插件可能成为攻击入口或引入新的漏洞（OWASP LLM07: Insecure Plugin Design）^[33]。**提示词注入(Prompt Injection)**是一个严重威胁，攻击者通过精心构造的输入诱导Agent执行非预期指令[^1, ^130, ^131]。**过度授权(Excessive Agency - OWASP LLM08)**指Agent被赋予过大的权限或能力，一旦被控，可能造成严重后果^[33:1]。

缓解措施： 遵循安全开发生命周期(Secure SDLC)[^1, ^23]。对所有输入进行严格验证和净化以防提示词注入^[4:2]。对第三方插件进行安全评估、限制权限并在沙箱环境中运行[^1, ^11]。严格限制Agent及其调用工具的权限（最小权限原则）[^1, ^132]。对于高风险操作引入人工审批环节^[1:18]。持续监控Agent的行为以检测异常活动和潜在滥用^[34]。

2.3.2. Agent数据交互与隐私保护：

Agent在执行任务时可能需要访问、处理和存储来自用户或外部系统的敏感数据。如果数据交互过程缺乏安全保护，或Agent自身存在漏洞，可能导致数据泄露或滥用[^1, ^111]。AI Agents处理的数据量不断增加，使得数据安全与隐私保护成为其核心挑战^[35]。具体风险点包括不安全的API调用、数据存储安全问题以及日志记录与审计不当^[1:19]。

隐私保护措施： 针对Agent的数据交互，需要采取以下隐私保护措施：加密算法保护数据存储和传输的安全；访问控制确保只有授权的Agent或用户能访问特定数据；匿名化技术对敏感数据进行处理，降低隐私泄露风险^[35:1]。同时，遵循数据最小化原则，Agent只处理完成任务所必需的数据^[36]。对Agent的日志进行脱敏处理，并实施严格的访问控制和审计^[1:20]。

2.3.3. Agent业务逻辑与场景安全：

Agent被设计用于执行特定的业务任务。其业务逻辑的缺陷或对特定场景考虑不周，可能被攻击者利用，导致业务流程中断、经济损失或声誉受损^[1:21]。具体风险点包括逻辑漏洞（例如，一个金融Agent在处理转账请求时未对目标账户进行充分验证），场景覆盖不全（Agent在面对未训练过的异常场景时行为不可预测），以及滥用风险（如利用客服Agent进行钓鱼或传播恶意信息）。Agent的自主性越高，潜在的业务风险也越高。

缓解措施： 在Agent设计阶段针对具体业务场景进行威胁建模以识别潜在风险^[1:22]。进行全面的单元测试、集成测试和场景测试，特别是对边界条件和异常输入的测试^[24:1]。考虑引入业务规则引擎或策略层来规范Agent的行为，限制其自主决策范围^[37]。对Agent联动系统及API进行防护，限制Agent的能力边界，防止其被滥用执行超出预期的操作^[38]。

2.3.4. 检索增强生成 (RAG) 系统的特定安全风险：

检索增强生成（RAG）系统是结合大型语言模型和外部知识库生成响应的常见AI应用模式，但也引入了独特的安全挑战^[39]。主要风险包括：

检索数据泄露 (Retrieval Data Leakage) : RAG系统在检索过程中可能无意泄露知识库中的敏感信息，特别是当知识库包含私有或机密数据时^[39:1]。攻击者可能通过精心设计的查询来提取这些信息。
嵌入向量逆向攻击 (Embedding Inversion Attack) : RAG系统依赖于将文本转换为嵌入向量进行相似性检索。攻击者可能尝试通过嵌入向量逆向还原出原始敏感文本，从而窃取知识库内容^[36:1]。
成员推断攻击 (Membership Inference Attack) : 判断特定文档或数据片段是否存在于RAG的知识库中^[36:2]。
知识库投毒/知识腐化攻击 (Knowledge Corruption Attack) : 攻击者通过污染知识库（例如，在公开文档中注入错误信息，或直接修改可访问的知识库）来操纵RAG系统的输出，使其产生错误或有害的回答^[5:1]。
间接提示词注入 (Indirect Prompt Injection) : 恶意指令被嵌入到知识库的文档中，当这些文档被检索并作为上下文提供给LLM时，可能触发非预期的行为^[36:3]。
缓解RAG系统风险的策略：
- 数据处理与保护： 对知识库中的敏感数据进行匿名化、假名化处理，或使用合成数据替代^[39:2]。SAGE是一种两阶段合成数据生成范式，旨在通过属性提取和Agent迭代优化来保护隐私^[39:3]。
- 访问控制： 限制用户对知识库特定部分的访问权限^[36:4]。
- 输入/输出验证与过滤： 对用户查询和RAG系统生成的响应进行安全检查^[36:5]。
- 安全的检索与生成机制： 例如，使用差分隐私保护检索过程^[40]，设置检索距离阈值以限制检索范围^[36:6]，对检索结果进行总结或重排序以减少敏感信息暴露^[36:7]。
- 模型与知识库的隔离： 考虑自托管AI模型以增强数据流控制^[36:8]。
- 最小化暴露原则： 遵循数据最小化原则，减少不必要的知识库暴露^[36:9]。

3. 特定威胁类别与漏洞深度分析

在前一章概述了AI全生命周期各阶段的主要安全风险之后，本章将对一些特定且影响深远的威胁类别和技术漏洞进行更深入的剖析，探讨其攻击机制、最新进展以及带来的挑战。

3.1. 数据安全深度剖析

数据是AI的基石，对数据的攻击手段多样且影响广泛。

数据投毒：机制、目标、最新攻击手段。 数据投毒的核心机制是通过干扰训练数据，诱导模型学习到错误的映射关系或隐藏的后门[^4, ^10]。攻击目标多样，可以是对模型的整体性能造成破坏（非针对性），也可以是让模型在特定输入下产生预期的错误输出（针对性，如后门）^[2:8]。最新的投毒手段越来越精细，例如干净标签投毒可以在不改变数据标签的情况下植入后门，使得传统的基于标签验证的数据清洗方法失效^[2:9]。针对LLM的投毒研究也表明，攻击者可能利用Web爬取管道^[7:2]或Agent记忆存储系统^[7:3]的漏洞实现对LLM预训练数据的投毒，甚至探索针对众包平台周期性快照的投毒策略^[7:4]。PoisonedParrot是一种旨在诱导LLM生成侵犯版权内容的投毒方法^[41]。RAGForensics等工具正在研究如何追溯RAG系统中被毒化的文本来源^[5:2]。
- 防范措施： 除了前面提到的数据清洗、验证、来源管控、鲁棒训练算法[^1, ^4, ^13]，还需要发展能够检测干净标签投毒和后门植入的技术，例如基于模型行为分析或内部激活检测的方法。研究“机器不可学习(Machine Unlearning)”以使模型“忘记”投毒数据也是一个重要方向^[42]。
隐私泄露：成员推断、数据提取、PII重构攻击原理及防范。 成员推断攻击通常利用模型在训练数据上表现得更好（如损失函数值更低、预测置信度更高）的特性来区分训练集成员^[12:5]。攻击者训练一个影子模型来模拟目标模型的行为，并根据影子模型在训练数据和非训练数据上的表现差异来判断目标模型是否在特定数据点上进行过训练。数据提取攻击则可能利用模型在某些输入下会“背诵”训练数据的片段来还原原始数据^[12:6]。PII重构攻击是数据提取攻击的特例，专注于个人敏感信息。最新的R.R.攻击通过诱导LLM填充掩码PII实体并排序来提高提取效率^[12:7]。
- 防范措施： 除了差分隐私^[43]、数据脱敏/匿名化^[1:23]、访问控制^[44]外，还需要探索更先进的隐私保护技术。机器不可学习有望成为一种缓解模型记忆性隐私泄露的方法，特别是在大型代码模型中已显示出潜力^[13:1]。**可信执行环境(TEE)**或机密计算可以在硬件层面保护正在使用中的数据和模型，防止敏感信息在计算过程中被泄露^[45]。
数据完整性：训练数据、知识库、模型文件的篡改与检测。 数据完整性面临恶意篡改的风险，包括训练数据在收集或传输过程中的篡改、RAG系统知识库内容的污染^[5:3]、以及已训练好的模型文件被篡改（如注入后门或破坏）^[1:24]。
- 防范措施： 数据校验和、数字签名、区块链技术（用于数据溯源和防篡改）以及对模型文件进行完整性检查和签名验证是基本的检测手段^[1:25]。对于RAG知识库，需要实施严格的访问控制、版本管理和定期完整性校验，并采用知识链框架来保证信息的可信度^[1:26]。
数据偏见与公平性：识别、评估、缓解算法偏见的技术与流程。 算法偏见源于训练数据中的社会、历史或测量偏见[^1, ^40]。识别偏见需要定量的偏见评估指标，如不同群体间的预测准确率差异、错误接受率和错误拒绝率差异等[^40, ^45]。G-AUDIT框架通过量化属性效用和可检测性来评估医疗AI数据集中的偏见^[15:2]。缓解技术包括数据平衡（对数据进行过采样、欠采样或合成数据）、算法层面干预（修改训练算法或损失函数以惩罚偏见）以及后处理（调整模型输出以提高公平性）^[46]。建立负责任的AI开发流程和文化也至关重要^[1:27]。Bias-Aware Agent利用Agent框架和偏见检测器识别检索内容中的偏见，增强信息公平性^[46:1]。然而，“公平”是多维度且情境依赖的概念，技术手段无法完全解决，需要结合社会、伦理和法律框架进行治理^[16:1]。
数据供应链安全：第三方数据源审查、数据溯源、AI-BOM实践。 确保数据供应链安全需要对所有第三方数据源进行严格的审查，包括其收集方式、合规性、质量和历史安全记录^[1:28]。数据溯源技术能够追踪数据从来源到模型的整个流转过程，有助于定位投毒来源。AI-BOM（AI物料清单）旨在列出AI模型使用的所有数据集、代码库、预训练模型等组件及其来源，提升透明度^[10:4]。然而，AI-BOM的生成和管理面临挑战，因为AI系统涉及非代码资产（如数据集），且组件关系更复杂。需要自动化工具和标准（如SPDX 3.0开始支持AI-BOM^[47]）来支持AI-BOM的实践^[10:5]。ConfigScan等工具的出现，也凸显了对模型库中配置文件进行安全审查的重要性^[14:3]。采用零信任原则和移动目标防御(MTD)、**内容解除和重构(CDR)**等策略也可以增强模型分发环节的安全性^[48]。

3.2. 算法安全深度剖析

算法的内在特性和复杂性为多种攻击提供了可能，其中模型窃取和对抗攻击是当前研究热点。

模型窃取：攻击动机、技术手段（基于查询/文件）、S&W算法详细分析及防御挑战。 攻击者窃取模型的动机多样，可能出于商业竞争（复制对手的核心能力）、知识产权侵犯、或者为了生成更有效的对抗样本^[18:2]。模型窃取主要通过两种方式实现：基于查询的窃取和基于文件的窃取^[18:3]。基于文件的窃取通常需要攻击者能够访问存储模型文件的服务器或存储桶。基于查询的窃取则通过向公开可用的模型API发送大量查询，观察输出结果，利用这些输入-输出对训练一个本地的替代模型[^49, ^2]。这种攻击方式的威胁在于其可以通过模型API的合法查询接口实现，隐蔽性强。 S&W算法是基于查询窃取的先进技术^[3:8]。其采样策略（如k-Center）旨在高效地选择最具信息量的查询样本，这些样本能够更好地覆盖模型的决策空间，从而用较少的查询数据训练出性能接近的替代模型^[3:9]。加权差异损失函数则通过赋予难以模拟的样本更高的权重，引导替代模型更精确地复制受害模型的复杂行为，尤其是在对攻击者重要的区域^[3:10]。实验证明，S&W方法在多种数据集上能训练出与受害模型功能相似度很高的替代模型，且生成的对抗样本迁移成功率高^[3:11]。 防御挑战在于区分合法用户查询与恶意窃取查询^[3:12]。简单的限速或IP黑名单容易被绕过。引入预测扰动等防御方法可能影响模型的可用性。高效的窃取算法，如S&W，能够模仿正常用户行为的统计特征，使得基于查询统计的检测方法失效^[3:13]。因此，需要更复杂的行为分析和基于模型的异常检测方法。模型水印是一种主动防御技术，通过在模型中嵌入可识别的标记来追踪被窃取的模型来源^[18:4]。严格的访问控制与加密对模型文件和API也是必要的^[1:29]。
对抗攻击：生成对抗样本原理、攻击类型、对不同模型的鲁棒性影响、防御技术概述。 生成对抗样本的原理通常是利用模型梯度信息，计算出能最大化预测错误的微小扰动，将其加到原始输入上^[1:30]。攻击类型包括：
- 规避攻击（Evasion Attack）：在模型部署后，通过修改输入数据来逃避模型的正确识别（如修改恶意软件、伪造图片以绕过检测）^[1:31]。
- 中毒攻击（Poisoning Attack）：即数据投毒，在训练阶段引入恶意数据影响模型[^4, ^10]。
- 模型提取攻击（Model Extraction Attack）：即模型窃取，通过查询模型复制其功能^[18:5]。
- 推理攻击（Inference Attack）：如成员推断^[12:8]、模型逆向攻击^[17:2]。对抗攻击对不同模型的鲁棒性影响不同，但几乎所有类型的神经网络都容易受到影响。防御技术是活跃的研究领域，包括：对抗训练（Adversarial Training），将对抗样本加入训练集使模型学习抵抗扰动^[1:32]；差分隐私，通过增加噪音使模型对个体训练样本不敏感，间接提高对某些攻击的鲁棒性^[49]；以及其他方法如输入去噪、特征挤压、模型集成、梯度屏蔽、模型认证防御^[42:1]等。**IBM Adversarial Robustness Toolbox (ART)**是用于评估和改善模型对抗鲁棒性的常用工具箱^[6:1]。
后门攻击：后门植入机制、触发器设计、对模型行为的隐蔽性影响、检测方法。 后门攻击通常发生在训练阶段，攻击者通过数据投毒^[2:10]或修改训练过程，使模型在遇到特定的“触发器”（如图像中的一个像素点模式、文本中的一个短语）时，执行攻击者预设的恶意任务，而在正常输入下表现正常^[8:2]。触发器设计精妙，通常难以察觉，保证了后门的隐蔽性^[8:3]。后门的影响具有持久性和针对性。例如，一个识别车辆品牌的模型可能被植入后门，使其在看到贴有特定小标志的车辆时，错误地将其识别为某种危险物品，从而影响智能交通系统的决策。检测后门是重要挑战，方法包括检测训练数据中的异常模式^[50]、分析模型的内部激活模式、或者通过生成带有各种触发器的输入来测试模型行为（行为测试）^[8:4]。BackdoorLLM是专门评估LLM后门攻击的基准测试^[8:5]。
算法可解释性与透明度：理解模型决策过程对发现算法漏洞的重要性。 提高算法的**可解释性（Interpretability）和透明度（Transparency）**对于发现和理解算法层面的安全漏洞至关重要^[1:33]。如果能够理解模型为什么做出某个决策，就有可能发现其决策过程中的偏见^[16:2]、对抗样本的影响或后门的存在^[8:6]。XAI（Explainable AI）技术，如LIME、SHAP等^[1:34]，有助于揭示模型的内部工作机制，为安全分析提供洞察，也有助于建立用户对AI系统的信任。然而，对于大型深度学习模型，实现完全的可解释性仍然是一个巨大的挑战。

3.3. 基础设施与API安全

AI系统的部署依赖于强大的基础设施，无论是私有数据中心还是云平台，其安全性都直接影响AI系统的安全[^59, ^118]。

私有化部署基础设施安全：物理安全、网络分区、访问控制、硬件安全、虚拟化/容器安全。 私有化部署需要关注传统IT基础设施的所有安全层面^[51]。物理安全保障数据中心不受未授权访问。网络分区隔离AI系统与其他网络，限制横向移动^[51:1]。访问控制限制对服务器、存储和网络的访问权限^[44:1]。硬件安全关注计算加速卡（GPU/TPU）等硬件可能存在的漏洞或后门^[20:1]。若采用虚拟化或容器技术部署AI应用，则需关注虚拟机逃逸、容器镜像漏洞、编排平台安全配置等风险^[52]。近期研究显示，近90%的私有化部署服务器存在基础安全配置缺失的“裸奔”现象，极易遭受攻击^[22:7]。缓解策略应采取纵深防御，结合物理、网络、主机、应用和数据层面的安全控制，定期进行渗透测试和漏洞评估，并采纳零信任架构原则^[52:1]。
云端AI服务基础设施风险：共享责任模型下的安全配置、云存储/计算安全、身份与访问管理（IAM）实践。 在云端，安全是云服务商和用户共同的责任^[30:3]。云服务商负责底层基础设施的安全，而用户负责其在云中部署的AI工作负载、数据、配置和访问控制^[30:4]。常见的风险源于错误的安全配置，如开放了不必要的端口、配置了过于宽松的存储桶权限、或者IAM角色权限过大^[28:2]。确保云存储和计算资源配置安全，并严格实施最小权限原则的身份与访问管理（IAM）实践至关重要[^54, ^77]。云安全态势管理(CSPM)工具可以帮助自动化检测和纠正云环境中的配置错误^[53]。
AI模型API安全：API安全漏洞（OWASP API Security Top 10在AI场景的应用）、认证授权机制、输入输出验证、API监控与限流。 如2.2.2节所述，AI模型API是攻击者的重要目标[^1, ^83]。除了传统的API安全风险，还需要特别关注通过API进行的模型窃取和对抗攻击[^1, ^49]。OWASP API Security Top 10中的许多风险（如认证授权缺陷、注入、滥用）在AI模型API场景下有其特殊的表现^[54]。例如，**无限制资源消耗(API4:2023 Unrestricted Resource Consumption)**在LLM API场景下可能导致昂贵的计算资源被耗尽^[1:35]。
- 防范措施： 强化身份认证（如OAuth 2.0, JWT, MFA）^[23:1]、加密传输（HTTPS）^[27:1]、细粒度权限控制^[54:1]、严格的输入输出验证（过滤恶意或异常输入，监控异常输出）^[4:3]、以及API监控与限流，及时发现并阻止异常调用模式^[1:36]。APIPark等平台提供详细的统计报告，用于分析API使用情况和检测异常调用模式^[1:37]。

3.4. AI组件供应链安全

现代AI模型几乎不可能完全自主开发，往往依赖于各种外部组件，形成了复杂的供应链[^1, ^29]。供应链中的任何环节都可能引入安全风险。

开源模型与依赖库风险：开源社区潜在的恶意代码、漏洞、后门。 开源社区虽然促进了技术共享和创新，但也存在被恶意利用的风险。开源模型或依赖库中可能被植入恶意代码、后门，或者包含未被发现的漏洞[^1, ^31]。由于广泛使用，一旦这些恶意组件被集成到下游的AI系统中，可能造成大规模的安全问题。ConfigScan等工具的出现，也凸显了对模型库中配置文件进行安全审查的重要性^[14:4]。
预训练模型来源可信度：评估模型提供商的安全性、模型本身的完整性验证。 使用第三方提供的预训练模型时，需要评估模型提供商的安全实践，包括其开发流程、安全审计记录等。同时，需要对模型本身进行完整性验证，确认其未被篡改。对模型的行为进行安全评估和测试（如后门扫描）也是必要的。
第三方服务与插件安全：AI应用集成第三方服务/插件带来的风险。 许多AI应用会集成第三方服务（如数据标注服务、模型托管平台、外部知识库API）或Agent插件^[1:38]。这些外部依赖可能引入新的攻击面。需要评估第三方服务和插件的安全可靠性，限制其权限，并进行安全隔离。OWASP LLM07就强调了不安全插件设计的风险^[33:2]。
软件物料清单(SBOM)在AI组件管理中的应用与挑战(AI-BOM)。 传统的软件物料清单（SBOM）有助于追踪软件组件及其漏洞。将这一概念扩展到AI领域，形成AI-BOM，可以帮助组织理解其AI系统所依赖的所有数据、代码、模型、库等组件[^1, ^30]。然而，AI-BOM的生成和管理面临挑战，因为AI系统涉及非代码资产（如数据集），且组件关系更复杂^[10:6]。需要自动化工具和标准（如SPDX 3.0开始支持AI-BOM^[47:1]）来支持AI-BOM的实践^[10:7]。**Data Version Control (DVC)**等工具可以帮助管理数据集的版本，提高AI-BOM中数据部分的准确性^[10:8]。

3.5. AI Agent特定威胁

AI Agent的出现模糊了传统软件与自主实体之间的界限，带来了独特的安全挑战[^111, ^132]。

恶意Agent行为：Agent自主性被滥用执行恶意操作。 Agent具有一定的自主决策能力，如果其目标与人类不完全对齐，或者被攻击者劫持、诱导（如通过提示词注入），可能利用其权限和能力执行恶意操作，如删除关键数据、发送钓鱼邮件、在企业内部横向移动等^[1:39]。OWASP LLM08强调了**过度授权(Excessive Agency)**的风险，指Agent被赋予执行关键业务功能或访问敏感系统的权限，一旦被控，可能造成严重后果^[33:3]。
Agent逻辑漏洞利用：攻击者通过操纵Agent输入/环境触发业务逻辑缺陷。 Agent的业务逻辑可能存在缺陷或对输入环境过于敏感。攻击者可以通过精心构造的输入（如提示词注入）[^130, ^131]或操纵Agent所处的环境，触发其业务逻辑中的漏洞，使其执行非预期的危险行为。
知识库投毒与检索增强攻击（RAG）：污染Agent获取信息的知识库，影响其生成内容和决策。 如2.3.4节所述，RAG系统的知识库投毒是Agent面临的重要威胁^[5:4]。受污染的知识库会导致Agent获取错误信息，从而生成虚假内容或做出错误决策。间接提示词注入就是一种利用知识库投毒攻击Agent的典型方式^[36:10]。
Agent间交互安全：多个Agent协作时的安全与信任问题。 未来的AI系统可能涉及多个Agent之间的协作^[55]。Agent间的通信安全、信任建立与管理成为新的挑战。一个被攻破的Agent可能成为攻击其他Agent或整个系统的跳板。
Agent权限与隔离：限制Agent访问企业系统和数据的权限。 必须对AI Agent的权限进行严格限制，遵循最小权限原则^[38:1]。Agent需要访问哪些系统、哪些数据，都应经过仔细评估和授权。通过沙箱、容器等技术实现Agent的运行隔离，限制其潜在破坏范围^[52:2]。**AI防火墙/护栏(Guardrails)**可以作为Agent的外部控制层，约束其行为和输入输出^[6:2]。

4. DevSecOps在人工智能安全治理中的应用

面对人工智能系统贯穿全生命周期的复杂风险，传统的、孤立的安全方法难以奏效。将安全深度集成到AI系统的开发、训练、部署和运营全流程，成为必然选择。DevSecOps，即开发（Dev）、安全（Sec）、运营（Ops）的融合，以其敏捷、自动化、持续性的特点，为AI安全治理提供了有价值的参考框架[^1, ^2]。将DevSecOps原则应用于AI/ML工作流，催生了MLSecOps的概念^[3:14]。

如图2“应用于人工智能安全的MLSecOps治理模型”所示，MLSecOps将安全活动融入AI/ML的循环流程中，包括数据准备、部署、验证、监控与反馈等环节，并通过自动化安全测试、持续集成/部署、持续监控和迭代化反馈来驱动整个过程的安全增强。

应用于人工智能安全的MLSecOps治理模型

图2：应用于人工智能安全的MLSecOps治理模型

这个模型的核心思想是打破传统安全“事后审查”的模式，实现“安全左移”并贯穿整个生命周期^[1:40]。

4.1. DevSecOps理念在AI生命周期的应用原则

DevSecOps的核心原则与实践与AI开发运维有着天然的契合点，尤其是在强调敏捷迭代和持续交付的MLOps环境中[^1, ^56]。

安全左移（Shift Left）： 将安全活动前置到AI生命周期的早期阶段[^1, ^166]。这意味着在数据准备阶段就开始考虑隐私保护、数据完整性、数据偏见和数据来源可信度；在模型设计阶段就进行威胁建模和鲁棒性考量；在代码开发阶段就进行安全代码编写、静态分析和依赖库扫描。目标是在问题引入早期发现并修复，降低成本和风险[^1, ^58]。
自动化 (Automation) : 利用自动化工具集成安全检测、测试和防护措施[^1, ^57]。自动化是实现敏捷安全的关键。包括自动化的数据安全验证、代码扫描、依赖库漏洞检测、模型安全测试、基础设施配置检查、安全策略执行等。AI技术本身也可以赋能自动化安全，例如利用AI进行威胁检测和漏洞优先级排序^[56]。
持续集成/持续交付/持续部署 (CI/CD/CD) : 在AI开发运维流水线中嵌入自动化安全检查和测试[^1, ^3, ^58]。将安全测试和验证活动集成到模型的构建、训练、测试和部署自动化流程中，确保每次模型更新或部署都经过安全验证。
持续监控 (Continuous Monitoring) : 对AI系统行为、性能、安全事件进行实时监控和告警[^1, ^134]。部署后的持续监控至关重要，用于及时发现模型行为异常（可能由对抗攻击引起）^[34:1]、数据漂移^[57]、服务滥用、以及基础设施或API的安全事件。
基础设施即代码 (Infrastructure as Code, IaC) 与策略即代码 (Policy as Code) : 自动化管理AI基础设施安全配置，强制执行安全策略[^1, ^60]。通过IaC工具（如Terraform, Ansible）自动化安全地部署和管理AI训练和推理基础设施；通过策略即代码定义和自动化执行安全策略，如访问控制、数据加密策略等[^60, ^61]。
威胁建模 (Threat Modeling) : 在设计阶段识别AI系统的潜在威胁和攻击面[^1, ^134]。在开发早期，系统性地分析AI系统可能面临的威胁、潜在漏洞和攻击路径，从而设计有针对性的防御措施。MITRE ATLAS框架可以指导AI威胁建模[^1, ^134]。
红队演练与渗透测试 (Red Teaming & Penetration Testing) : 定期进行模拟攻击（红队演练）和渗透测试，检验系统防御能力，发现未知漏洞[^1, ^176]。AI红队测试框架专门针对AI系统设计攻击场景[^1, ^172]。
安全文化与协作 (Security Culture & Collaboration) : 培养跨团队的安全意识和责任共担文化，促进数据科学家、ML工程师、开发人员、安全专家和运营团队之间的紧密协作[^1, ^23]。打破团队壁垒，确保安全是所有参与者的共同职责。

4.2. DevSecOps如何应对已识别的AI风险

将DevSecOps原则应用于AI生命周期，可以构建具体的实践来应对前面章节识别的各类风险：

应对数据风险：
- 自动化数据安全验证： 在数据准备和摄取阶段自动执行数据质量、完整性和格式验证，检测潜在投毒或异常^[1:41]。集成自动化工具进行隐私合规性验证（如GDPR、HIPAA）和数据脱敏处理^[1:42]。
- 数据偏见自动化检测与缓解： 集成数据偏见检测工具（如AI Fairness 360^[58]）到数据处理管道，并探索自动化偏见缓解技术^[46:2]。
- 数据来源与血缘追溯自动化： 构建自动化流程记录数据的来源和转换过程，支持数据溯源^[1:43]。将第三方数据源的安全评估和审查纳入DevSecOps流程。
应对算法风险：
- 自动化模型鲁棒性测试： 在CI/CD流程中集成自动化工具（如ART^[6:3]、CleverHans^[58:1]、Foolbox^[58:2]），对模型进行对抗样本鲁棒性测试^[1:44]。
- 对抗训练与安全模型集成： 将对抗训练步骤自动化地集成到模型训练流程中^[1:45]。使用已知安全加固的模型架构。
- 模型安全扫描与漏洞检测： 使用自动化工具扫描模型文件或模型架构是否存在已知漏洞或后门（如Protect AI ModelScan^[6:4]、Garak^[6:5]）^[6:6]。
- 模型行为监控与异常检测： 持续监控部署模型的行为，检测异常预测、对特定输入的敏感性等，可能指示对抗攻击或后门触发[^1, ^134]。
应对部署风险：
- 自动化基础设施配置安全检查： 使用IaC工具和安全策略检查工具（如Checkov^[59]、Terrascan^[59:1]）自动化验证部署环境的安全配置[^1, ^60]。
- 容器镜像安全扫描： 对用于部署模型的容器镜像进行自动化安全扫描，检测漏洞和恶意代码（如Trivy^[6:7]、Clair^[6:8]）^[52:3]。
- API安全自动化测试与防护： 将API安全测试工具集成到部署流水线，自动化测试API的认证、授权、输入验证等^[1:46]。部署AI API安全网关和WAF进行运行时防护^[1:47]。
- 运行时应用自保护(RASP)： 在模型推理服务运行时集成RASP工具，监测和阻止恶意输入或行为^[1:48]。
应对供应链风险：
- 自动化组件漏洞扫描(SCA)： 集成SCA工具到代码构建流程，自动扫描依赖库的已知漏洞^[1:49]。
- AI-BOM自动化生成与管理： 探索自动化工具生成和更新AI-BOM，并集成到资产管理系统[^1, ^30]。
- 模型文件完整性校验： 在模型分发和部署环节自动化执行模型文件的签名与完整性校验[^1, ^12]。
应对Agent风险：
- Agent代码与框架安全扫描： 对Agent开发代码进行SAST，对使用的框架进行SCA，检测已知漏洞^[1:50]。
- 提示词注入自动化测试与过滤： 使用自动化工具测试提示词注入漏洞（如Azure PyRIT^[6:9]），并部署输入过滤器（如AI防火墙/护栏^[6:10]）^[4:4]。
- 知识库完整性验证与监控： 对RAG系统的知识库进行定期自动化完整性检查和异常内容检测^[1:51]。
- Agent运行时行为监控与控制： 监控Agent的API调用、系统交互、数据访问等行为，基于策略自动化限制其能力^[1:52]。

4.3. DevSecOps在AI中的实践落地

将DevSecOps理念落地到AI安全实践中，需要构建相应的工具链和流程。

AI安全CI/CD流水线构建： 核心是将各种安全活动融入CI/CD流程[^1, ^58]。
- 代码提交/构建阶段： 自动化代码静态分析（SAST）、依赖库漏洞扫描（SCA）^[1:53]。
- 数据处理阶段： 自动化数据格式、质量、完整性验证；自动化数据脱敏/差分隐私处理；自动化数据偏见检测。
- 模型训练阶段： 集成自动化鲁棒性测试、对抗训练步骤（如果采用）。
- 模型验证阶段： 自动化模型安全评估（如偏见检测、后门扫描、对抗鲁棒性评估）。
- 部署阶段： 自动化基础设施安全配置检查（IaC安全）、容器镜像安全扫描、API安全自动化测试[^1, ^32]。
- 发布阶段： 模型文件完整性签名与验证[^1, ^12]。
AI特有的安全工具链整合： 除了传统的SAST/DAST/SCA工具，MLSecOps需要整合针对AI特有风险的工具[^1, ^172]。
- 数据安全工具： 数据脱敏工具、数据加密库、差分隐私库（如Google's DP library, Opacus for PyTorch）[^1, ^172]。数据偏见检测与缓解工具（如AI Fairness 360^[58:3], G-AUDIT^[15:3]）。
- 模型安全工具： 模型鲁棒性测试工具、对抗攻击生成与防御库（如IBM ART^[6:11], CleverHans^[58:4], Foolbox^[58:5]）^[6:12]。模型可解释性工具（如LIME, SHAP^[1:54]）。模型漏洞扫描器（如Protect AI ModelScan^[6:13], Garak^[6:14]）^[6:15]。模型后门检测工具。
- 应用安全工具： AI API安全网关^[1:55]、Web应用防火墙(WAF)^[1:56]、运行时应用自保护(RASP)^[1:57]。AI防火墙/护栏（Guardrails），如NVIDIA NeMo-Guardrails^[6:16]，用于控制LLM行为。
- 治理与测试工具： AI红队测试框架（如Microsoft PyRIT^[6:17]、SafeBench^[60]）用于自动化模拟AI攻击[^1, ^172]；AI安全评估平台（如AIcert^[61]）提供全面的理论验证和多维分析能力^[61:1]；AI威胁情报平台搜集最新的AI攻击信息；AI风险管理框架工具（如Google SAIF提供的自评估工具^[1:58]）帮助识别和管理风险。AI驱动的软件供应链安全分析平台（如VackSCA^[61:2]）利用AI进行二进制代码相似性比较，检测漏洞^[61:3]。
持续监控与响应：
- AI系统行为异常检测： 利用AI模型对自身或同行AI系统的行为进行实时监控，检测预测漂移、异常输出、资源消耗突增等，可能指示攻击或故障[^1, ^134]。
- 模型输出监控： 监控生成式AI模型的输出内容，检测是否包含有害、偏见或不实信息，利用AI护栏（Guardrails）过滤不安全内容^[6:18]。
- 安全事件告警： 将AI系统和基础设施的监控数据与安全信息和事件管理（SIEM）系统集成，自动化触发告警^[1:59]。
- 自动化响应机制： 针对识别的安全事件，触发自动化的响应流程（如SOAR），如隔离受感染组件、回滚到安全版本、自动触发额外验证等^[1:60]。
基于策略的代码： 定义清晰的AI安全策略（例如，数据必须脱敏后才能用于训练、高风险模型部署必须经过人工审批、所有API调用必须进行MFA认证等），并通过策略即代码工具将其转化为可执行的规则，在CI/CD流程和运行时环境中强制执行^[1:61]。

4.4. MLSecOps与DevSecOps及其它框架的比较与融合

MLOps与DevOps： DevOps专注于传统软件的开发、部署和运维自动化，强调文化、自动化、精益和测量^[1:62]。MLOps（Machine Learning Operations）则在此基础上，专注于机器学习模型的全生命周期管理，包括数据准备、模型训练、版本控制、部署、监控和再训练等ML特有的环节[^2, ^56]。
MLSecOps： MLSecOps是MLOps与DevSecOps的深度融合^[3:15]。它不仅仅是MLOps流程中加入安全检查点，而是将DevSecOps的安全左移、持续自动化和协作文化融入ML全生命周期的每一个环节。MLSecOps更聚焦于AI/ML特有的安全挑战，如数据管道安全、模型训练的鲁棒性与隐私、模型部署的API与运行时安全、以及模型治理与合规性^[3:16]。JFrog ML等平台尝试将MLOps与DevSecOps结合，提供统一的AI交付平台^[62]。
MLSecOps关键实践： MLSecOps的核心实践包括安全的模型开发训练（如数据验证、差分隐私、鲁棒性测试）^[3:17]、安全的模型部署集成（如模型签名、API安全加固）^[3:18]、持续的模型监控防护（如模型行为监控、输出内容过滤）^[3:19]和模型治理合规（如AI-BOM管理、法规自动化遵守）^[3:20]。
与其他AI安全框架的互补（NIST AI RMF, MITRE ATLAS, OWASP GenAI Security Project）： DevSecOps/MLSecOps提供的是实践路径和操作框架^[1:63]。而其他AI安全框架提供了风险分类、治理原则和评估标准[^1, ^113]。
- NIST AI Risk Management Framework (AI RMF) 提供了一个结构化的风险管理流程（识别、分析、应对、治理），是一个自愿性的、高层框架[^1, ^113]。
- MITRE ATLAS 提供了一个AI攻击技术分类和知识库，帮助组织理解AI面临的具体威胁（14个攻击阶段，66个策略）[^1, ^134]。
- OWASP GenAI Security Project 提供针对生成式AI和LLM的具体安全指南、漏洞列表（从LLM Top 10升级）和安全测试方法，更加聚焦应用层面的风险[^128, ^153]。 MLSecOps可以将这些框架提供的风险知识、评估标准和最佳实践转化为具体的自动化流程和工具链，落地到AI系统的开发运维中。 例如，可以利用MITRE ATLAS指导威胁建模，利用OWASP GenAI Security Project的测试方法自动化评估LLM应用的安全性，并将符合NIST AI RMF的风险管理活动集成到持续流程中。它们是互补而非竞争关系，共同构成了全面的AI安全治理体系。

5. 监管、伦理与地缘政治更广阔背景

人工智能的飞速发展不仅带来了技术和应用层面的挑战，也引发了广泛的社会、伦理、法律和地缘政治层面的关切^[1:64]。理解这些更广阔的背景对于构建一个真正负责任、安全可控的AI生态至关重要。

5.1. 监管合规：全球与中国的AI法规现状与趋势

全球主要经济体都在积极制定和完善AI监管框架，以平衡技术发展与潜在风险。虽然路径不同，但都朝着加强风险管理、提升透明度和确保安全可控的方向发展[^1, ^6]。

全球主要监管框架：
- 欧盟AI法案（EU AI Act）： 被认为是全球首部全面规范AI的法律，采取基于风险分级的方法（不可接受风险的AI系统被禁用；高风险系统面临严格的强制性要求，如风险管理系统、数据治理、技术文档、注册、合规评估等；有限风险和最低风险系统要求较低的透明度或合规义务）[^6, ^140]。法案强调以人 centric、安全、透明、可追溯为核心原则[^6, ^142]。已于2024年8月1日正式生效^[63]。通用目的AI(GPAI)模型，特别是具有系统性风险的大模型，也受到特定规则的约束^[64]。
- 美国AI监管： 美国采取更为多中心化、市场驱动的监管方式^[65]。主要依赖自愿性框架（如NIST AI Risk Management Framework - NIST AI RMF^[66]）和总统行政令来指导政府部门和行业实践[^1, ^113]。强调**“红队+第三方评估”**并举，鼓励行业自律和技术评估^[1:65]。缺乏统一的联邦AI法案，州层面（如加州）先行立法^[65:1]。
- 中国AI监管： 中国采取分类分级管理，“包容审慎”的监管思路，在国家层面推动顶层设计和政策落地^[65:2]。已出台多项针对特定AI应用的专项法规，如《互联网信息服务深度合成管理规定》（针对生成合成内容）、《生成式人工智能服务管理暂行办法》（针对生成式AI服务）等[^1, ^6]。工信部、信通院等机构主导的AI安全评估和备案制度也日益完善[^1, ^182]。TC260等机构正在积极制定AI安全相关国家标准[^14, ^146]。
AIGC标识义务对比： 为了应对深度伪造（Deepfake）和虚假信息传播带来的“真相侵蚀”^[65:3]，主要经济体都在推动对AI生成内容（AIGC）的标识要求，但具体方式有所差异^[65:4]。
- 欧盟： EU AI Act强制要求生成式AI系统提供商确保AIGC能够被可机读标识（如水印、元数据）并可检测为人工生成或操纵^[65:5]。欧盟AI公约（EU AI Pact）也鼓励清晰可区分的AIGC标识^[65:6]。提倡技术方案的互操作性，可能通过遵循C2PA（内容来源与真实性联盟）等标准实现[^6, ^34]。
- 美国（加州CAITA）： 缺乏联邦层面的统一立法^[65:7]。**加州AI透明度法案（CAITA）**针对大型AIGC服务提供商（每月用户超过100万）设置了标识义务，强制要求提供隐式（latent）标识，并允许用户可选显式（manifest）标识^[65:8]。该法案于2026年1月1日生效^[65:9]。联邦层面如2023年提出的AI标识法案进展缓慢并面临争议^[65:10]。
- 中国： 采取多层法规体系，对AIGC标识提出要求^[65:11]。包括《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》以及《人工智能生成合成内容标识办法（征求意见稿）》等^[65:12]。要求强制元数据隐式标识，对于可能轻易导致公众混淆的内容，允许用户选择性地添加显式标识^[65:13]。《标识办法》正在推动标准化隐式标识格式，以方便普遍识别^[65:14]。中美欧在监管范围、强制性程度和标识方式（隐式/显式、强制/可选）上存在差异，反映了各自在平衡创新、安全和价值观上的不同侧重^[65:15]。
审计与合规实践： 将法规要求融入DevSecOps流水线是实现合规性的关键实践^[1:66]。通过自动化合规检查工具，可以在AI系统的开发、部署和运营过程中持续验证是否满足GDPR、HIPAA、PCI DSS等数据隐私和安全法规要求^[1:67]。同时，第三方合规评估也日益重要，确保AI系统符合特定行业标准或国家法规。**国际标准化组织（如ISO/IEC 42001）**也发布了关于AI管理体系的标准，为企业建立合规框架提供指导[^1, ^172]。
国家战略与技术主权： AI被视为引领新一轮科技革命和产业变革的战略性技术，其发展和治理主动权对国家至关重要[^1, ^163]。各国都在强调自立自强，集中力量攻克高端芯片、基础软件等核心技术，构建自主可控的基础软硬件系统^[1:68]。这与AI安全紧密相关，自主可控的技术栈有助于降低供应链安全风险和外部制约。

5.2. 伦理考量与社会影响

AI技术的广泛应用带来了诸多伦理挑战和社会风险，这些风险往往与模型的内在特性（如偏见、不可解释性）以及应用方式相关[^1, ^40, ^46, ^154]。

算法偏见与歧视： 如2.1.1节所述，源于数据的算法偏见可能在AI模型的决策中放大，导致在金融^[1:69]、招聘、教育^[3:21]、医疗^[3:22]、司法等领域产生歧视性结果，损害特定群体的利益[^1, ^45]。社交媒体算法可能通过奖励极端言论加剧网络对立和社会分裂^[1:70]。
隐私侵犯与监控风险： AI驱动的监控技术（如人脸识别、行为分析）的滥用可能导致大规模隐私侵犯[^1, ^148, ^150]，甚至形成“全面监控”，威胁个人自由和公民权利^[1:71]。大规模的数据收集和处理，即使没有直接泄露个人身份，也可能通过关联分析推断出敏感信息。
目标错位与失控风险 (AI Alignment Problem) : 特别是对于具有一定自主性的AI Agent或高级AI系统，其设计目标可能与人类的价值观或预期不完全一致，导致“目标错位”或“对齐问题”[^1, ^152]。这种错位可能导致系统做出对人类有害或意料之外的行为。确保AI行为与人类价值观对齐是AI安全和伦理的核心挑战之一。
虚假信息与操纵： 生成式AI技术，尤其是深伪（Deepfake）技术和大规模内容生成能力，使得虚假信息的制作和传播变得更加容易和逼真[^1, ^46]。这可能被用于舆论操纵、欺诈、网络欺凌甚至认知战^[1:72]。
就业与经济结构影响： AI自动化可能取代部分人类工作岗位，对劳动力市场和经济结构产生深远影响[^1, ^154]。这虽然不是直接的安全风险，但引发了社会稳定和再培训等问题。
责任归属困境： 当AI系统造成损害时，如何确定责任主体（开发者、部署者、使用者，还是AI本身）是一个复杂的法律和伦理问题^[1:73]。这带来了责任归属的困境，需要法律和伦理框架的完善。
伦理框架与治理实践： 为了应对这些挑战，需要将抽象的伦理原则转化为具体的治理实践。企业和研究机构设立伦理委员会^[1:74]，制定AI使用准则^[1:75]，将伦理原则嵌入技术开发流程，探索社会信用体系在AI治理中的作用^[3:23]（如通过信用评价引导负责任的AI发展，将算法透明度、数据合规性纳入诚信考量），并推动行业伦理准则的形成[^2, ^160]。**腾讯AI Lab^[67]、百度^[68]、阿里巴巴^[69]、华为^[70]**等科技公司也纷纷发布AI伦理报告或可信AI倡议，强调安全、透明、可问责和公平等原则[^1, ^156, ^157, ^159, ^162]。

5.3. 地缘政治风险

人工智能作为一种战略性通用技术，已成为国际竞争和地缘政治博弈的焦点，对国家安全产生深远影响[^1, ^163, ^164]。

AI军备竞赛与军事应用： 各国竞相发展AI在军事领域的应用，包括自主武器系统、情报分析、指挥控制等^[1:76]。这可能引发新的军备竞赛，改变战争形态，并带来严重的伦理和国际法挑战^[1:77]。
技术主权与战略依赖： 核心AI技术（如芯片、算法、大模型）的掌握程度成为衡量国家科技实力的重要指标^[1:78]。对外部AI技术和平台的过度依赖可能威胁国家技术主权和产业链安全。
关键基础设施风险： AI被广泛应用于电力、交通、金融等关键基础设施的管理和运营^[1:79]。这些AI系统一旦遭受攻击或发生故障，可能对国家安全和经济稳定造成严重冲击。
认知战与影响力行动： AI技术（特别是生成式AI）可被用于制造和传播针对性的虚假信息，干预他国政治进程，煽动社会矛盾，进行认知域对抗和影响力行动，对国家政治安全构成严峻挑战^[1:80]。
经济竞争与产业格局重塑： AI驱动的产业变革正在重塑全球经济格局。各国政府纷纷出台AI发展战略，争夺AI技术和产业的制高点，这加剧了国际经济竞争。

地缘政治因素也反过来影响AI的全球治理。国家间的战略竞争可能阻碍在AI安全标准、数据共享、伦理规范等方面达成全球共识，形成“AI治理赤字”^[1:81]。因此，在推动AI技术发展的同时，必须高度关注其地缘政治和国家安全意涵，加强战略研判和风险管控，并通过国际对话与合作寻求共同安全之道^[1:82]。相关研究机构如CNAS^[71]、Belfer Center的TAPP项目^[72]以及Brookings Institution^[73]均对此有深入分析。

6. 高级防御策略与未来展望

应对人工智能复杂的安全挑战，需要超越传统的安全思维，发展和应用高级防御策略与新兴技术，并持续探索未来方向。

6.1. AI红队测试与高级防御框架

AI红队测试：定义、目标、方法论。 AI红队测试是一种模拟真实攻击者行为的安全评估方式[^1, ^176]。其目标是系统性地发现AI系统在数据、模型、基础设施和应用层面的安全漏洞，验证现有防御措施的有效性，并评估组织检测和响应AI安全事件的能力[^1, ^176]。方法论包括但不限于模拟数据投毒、生成对抗样本、尝试模型窃取、探测API漏洞、测试Agent逻辑缺陷、进行提示词注入测试等[^1, ^176]。这是一种积极主动的安全策略，有助于组织在攻击发生前发现并加固薄弱环节。
高级防御框架： 多种高级防御框架为构建AI安全体系提供了指导和工具[^1, ^172]。
- Google Secure AI Framework (SAIF)： 提供了一套安全实践指南和风险自评估工具，帮助组织在设计和部署AI系统时考虑安全性^[1:83]。它强调“安全设计”和内置安全措施。
- MITRE ATLAS： 提供了一个AI攻击技术分类和知识库，以矩阵形式列出了AI系统可能面临的攻击技术，包括14个攻击阶段和66个策略[^1, ^134]。这有助于安全团队理解AI威胁全景，指导威胁建模和防御体系建设。
- OWASP GenAI Security Project： 这是从OWASP Top 10 for LLM Applications升级而来的更全面的AI安全框架，涵盖了AI威胁情报、AI安全治理、安全AI应用开发、Agent应用安全、AI数据安全、红队评估等多个方面[^128, ^153]。它为安全专业人士提供了针对生成式AI和LLM的具体安全实践指导。
- NIST AI Risk Management Framework (AI RMF)： 提供了一个灵活的AI风险管理方法，包括风险管理行动（情境映射、风险量化、风险管理、风险治理）[^1, ^113]。它是一个高层框架，可以与其他具体技术框架结合使用。
“以模制模”：用AI驱动安全检测与对抗的思路。 利用AI技术本身来提升安全防护能力，例如使用机器学习模型检测网络异常行为、识别恶意代码、甚至生成对抗样本来测试模型的鲁棒性^[56:1]。这种“以模制模”或“AI for Security”的思路，是应对AI安全挑战的重要方向。
AI驱动的红队工具（Microsoft PyRIT）。 一些工具正在利用AI自动化部分红队测试任务。例如，**Microsoft的PyRIT（Python Risk Identification Tool for GenAI models）**是一个开源工具，旨在帮助安全研究人员和AI开发者自动化对生成式AI系统的风险识别和红队测试，例如检测提示词注入、数据泄露等^[6:19]。

6.2. 新兴AI安全工具与技术

随着AI技术的发展，新的安全工具和技术也应运而生，旨在解决AI特有的安全问题^[6:20]。

Confidential AI：基于可信执行环境（TEE）保护AI/ML工作负载数据和模型。 **机密计算（Confidential Computing）**技术，利用硬件级别的可信执行环境（TEE），可以在数据被处理时对其进行加密保护^[45:1]。Confidential AI将机密计算应用于AI/ML工作负载，确保敏感训练数据和模型在训练和推理过程中处于加密状态，即使在云环境中也能防止云服务商或未授权访问者窃取数据或模型^[45:2]。
AI防火墙/护栏（Guardrails）：作为数据代理层控制AI应用数据流，进行输入过滤、输出审核。 AI防火墙或护栏（Guardrails）部署在用户输入和AI模型之间，或AI模型和用户输出之间，作为数据代理层^[6:21]。它们通过预设的规则或另一个AI模型对输入进行过滤（如检测恶意提示词、敏感信息），对输出进行审核（如检测有害内容、虚假信息），从而控制AI应用的输入输出，降低滥用风险^[6:22]。例如，NVIDIA NeMo-Guardrails提供为LLM应用添加可编程安全护栏的能力^[6:23]。
智能水印/数字签名：验证AI生成内容的来源和完整性，对抗深伪。 为了对抗深伪和虚假信息，可以在AI生成的内容（图像、视频、文本、音频）中嵌入不可感知或难以移除的水印（智能水印）或使用数字签名，以证明内容的来源和完整性^[65:16]。这有助于接收者验证内容的真实性。C2PA标准正在推动AIGC内容来源和真实性验证[^6, ^34]。
知识链框架：保证Agent知识库的可信度。 针对RAG系统知识库投毒的风险^[5:5]，可以构建知识链框架，记录知识库中信息的来源、修改历史和验证状态，确保Agent获取的信息是可信的^[1:84]。
深度伪造检测工具。 开发和部署能够自动化检测深度伪造内容（如换脸视频）的工具，以帮助区分真实内容与AI合成的虚假内容^[1:85]。
工业级安全基准测试（如Google AI Safety Benchmark, SafeBench）：涵盖大量安全测试场景。 建立和推广工业级的AI安全基准测试，如Google的AI Safety Benchmark，包含大量预定义的对抗性测试场景，用于量化评估AI模型的安全能力^[1:86]。SafeBench则提供一系列用于评估AI安全性和风险的基准测试套件，包括针对不同攻击类型和多模态安全的测试[^47, ^174]。这有助于提升AI产品的整体安全水平。
AI安全评估平台（AIcert）：理论验证、安全开发、多维分析。 专业的AI安全评估平台（如AIcert）提供从理论验证到安全开发流程、再到模型多维分析的综合能力，帮助企业系统性地评估AI系统的安全性^[61:4]。
AI驱动的软件供应链安全分析平台（VackSCA）：基于AI的二进制代码相似性比较。 利用AI技术分析软件供应链中的组件安全，例如VackSCA平台利用AI进行二进制代码相似性比较，无需源代码即可检测软件漏洞，有助于发现开源组件或第三方库中的隐藏风险^[61:5]。

6.3. 未来趋势与研究方向

人工智能安全是一个快速演进的领域，未来的研究和实践将聚焦以下几个关键趋势：

MLSecOps体系的成熟与普及： 实现开发运维与AI安全治理的深度融合仍然面临跨部门协作、工具链整合和标准化等挑战^[3:24]。未来的趋势是将MLSecOps建设成为AI开发组织的标配流程，并形成更加成熟的框架和自动化工具^[3:25]。
运行时AI安全： AI模型的非确定性^[37:1]和动态性使得静态安全措施不足。推理阶段的实时保护、监控和威胁响应将变得更加重要^[1:87]。需要开发能够在模型运行时检测和阻止攻击（如提示词注入、对抗攻击）的技术，例如基于行为分析和异常检测的方法。
零信任架构在AI系统集成中的应用： 随着AI系统与企业内外部系统深度集成，需要采用零信任架构，不信任任何用户或系统，所有交互都需经过严格认证和授权，确保只有经过验证的用户和工作流才能与AI系统交互^[44:2]。
Agent安全与多模态模型安全： 随着Agent和多模态AI模型（处理文本、图像、音频等多种数据）的普及，针对这些新兴AI范式的特定安全威胁和防御技术将成为研究重点^[60:1]。特别是Agent的自主性、工具调用和多Agent协作带来的安全与信任问题，以及多模态数据本身的偏见和隐私风险。
AI安全标准的制定与落地： 全球范围内AI安全标准的制定和推广将加速，为行业提供明确的指导[^1, ^14, ^146, ^113]。如何将这些标准有效地落地到企业的AI开发和运营实践中是关键。
跨领域人才培养（ML工程师 + 安全专家）： 弥合机器学习和网络安全领域的知识鸿沟，培养具备AI和安全双重技能的复合型人才至关重要^[44:3]。
应对LLM非确定性带来的安全挑战： 大型语言模型的非确定性输出增加了安全防护的难度^[37:2]。如何建立可靠的护栏和验证机制，确保模型输出的安全性，是未来的重要研究方向^[6:24]。
常态化、多元协同的AI风险监测与应急机制： 建立国家、行业、企业层面的常态化AI风险监测体系，构建多方参与（包括政府、企业、研究机构、社会组织）的多元协同应急响应机制，共同应对大规模AI安全事件^[1:88]。

7. 结论

人工智能的飞速发展为人类社会带来了前所未有的机遇，但伴随而来的是贯穿其整个生命周期的复杂而严峻的安全挑战。从预训练阶段的数据投毒、模型窃取、算法对抗，到部署阶段的基础设施“裸奔”与云端API漏洞，再到AI应用特别是Agent面临的新兴威胁，这些风险不仅影响AI系统的可靠性与可用性，更可能侵犯隐私、加剧偏见、引发伦理困境，甚至对国家安全构成威胁。传统孤立的安全措施已不足以应对AI特有的风险特性和复杂性。

将DevSecOps的理念与自动化实践深度融入AI生命周期治理，形成MLSecOps框架，是当前应对这些挑战的有效路径。它强调安全左移，在数据准备和模型设计阶段就植入安全基因；强调自动化，将安全检测、测试、防护集成到CI/CD流水线；强调持续监控，对AI系统行为进行实时监测与响应；强调协作文化，打破团队壁垒。借助自动化工具链（包括AI特有的红队工具、模型安全扫描器、AI防火墙等）和高级防御策略（如Confidential AI、智能水印），MLSecOps能够有效地提升AI系统的安全韧性。

然而，AI安全治理并非仅是技术工程，它深刻地置身于全球监管、伦理道德和地缘政治的宏大背景之下。理解欧盟、美国、中国等主要经济体不同的AI监管路径和AIGC标识要求，正视AI带来的算法偏见、隐私侵犯、虚假信息等伦理和社会挑战，以及应对AI作为战略技术引发的地缘政治博弈，都是构建鲁棒AI安全体系不可或缺的组成部分。

未来的AI安全之路，将是一场持续的技术对抗、治理模式创新与社会价值适应的复杂进程。构建一个安全可信的人工智能生态体系，需要技术创新（发展更先进的防御技术、AI驱动的安全工具）、管理优化（深化MLSecOps实践、建立标准化的治理流程）、法规完善与伦理约束、以及国际社会在构建全球治理框架上的共同努力。这不仅是技术界的任务，更是全社会需要共同面对和解决的时代命题。

8. 参考文献

贡献者

pansin

文件历史

最后编辑于 11 天前查看完整历史

DevSecOps 在AI 应用开发与运营安全中的应用.pdf ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Zhu, H., et al. (2025). Data Poisoning in Deep Learning: A Survey. arXiv:2503.22759. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
What is MLSecOps?, accessed May 29, 2025, https://mlsecops.com/what-is-mlsecops ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
LLM Prompt Injection Prevention - OWASP Cheat Sheet Series, accessed May 29, 2025, https://cheatsheetseries.owasp.org/cheatsheets/LLM_Prompt_Injection_Prevention_Cheat_Sheet.html ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Traceback of Poisoning Attacks to Retrieval-Augmented Generation - arXiv, accessed May 29, 2025, https://arxiv.org/html/2504.21668v1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
MLSecOps: Top 20+ Open Source and Commercial Tools - Research AIMultiple, accessed May 29, 2025, https://research.aimultiple.com/mlsecops/ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
search 云端AI模型API安全漏洞.md ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models - arXiv, accessed May 29, 2025, https://arxiv.org/html/2408.12798v2 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
(PDF) Beyond Public Access in LLM Pre-Training Data - ResearchGate, accessed May 29, 2025, https://www.researchgate.net/publication/391368849_Beyond_Public_Access_in_LLM_Pre-Training_Data ↩︎
Securing the AI/ML model supply chain | Stacklok, accessed May 29, 2025, https://stacklok.com/blog/ai-sbom-wheres-the-data ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Privacy Issues in Large Language Models: A Survey - arXiv, accessed May 29, 2025, https://arxiv.org/html/2312.06717v2 ↩︎
Meng, W., et al. (2025). R.R.: Unveiling LLM Training Privacy through Recollection and Ranking - arXiv, accessed May 29, 2025, https://arxiv.org/html/2502.12658v1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Mitigating Sensitive Information Leakage in LLMs4Code through ..., accessed May 29, 2025, https://www.researchgate.net/publication/388884096_Mitigating_Sensitive_Information_Leakage_in_LLMs4Code_through_Machine_Unlearning/fulltext/67ab6a5c207c0c20fa84a284/Mitigating-Sensitive-Information-Leakage-in-LLMs4Code-through-Machine-Unlearning.pdf ↩︎ ↩︎
A Rusty Link in the AI Supply Chain: Detecting Evil Configurations in Model Repositories, accessed May 29, 2025, https://arxiv.org/html/2505.01067v1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
arxiv.org, accessed May 29, 2025, https://arxiv.org/html/2503.09969 ↩︎ ↩︎ ↩︎ ↩︎
(PDF) A Review of Fairness and A Practical Guide to Selecting Context-Appropriate Fairness Metrics in Machine Learning - ResearchGate, accessed May 29, 2025, https://www.researchgate.net/publication/385721402_A_Review_of_Fairness_and_A_Practical_Guide_to_Selecting_Context-Appropriate_Fairness_Metrics_in_Machine_Learning ↩︎ ↩︎ ↩︎
Privacy-Preserving Large Language Models: Mechanisms, Applications, and Future Directions - arXiv, accessed May 29, 2025, https://arxiv.org/html/2412.06113v1 ↩︎ ↩︎ ↩︎
Understanding and Preventing AI Model Theft: Strategies for Enterprise | NeuralTrust, accessed May 29, 2025, https://neuraltrust.ai/blog/understanding-and-preventing-ai-model-theft-strategies-for-enterprises ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Mitigating AI cybersecurity risks with Bug Bounty Programs - YesWeHack, accessed May 29, 2025, https://www.yeswehack.com/security-best-practices/ai-cybersecurity-risks-bug-bounty ↩︎
Security considerations when hosting AI models on GPU servers - Liquid Web, accessed May 29, 2025, https://www.liquidweb.com/gpu/ai-security/ ↩︎ ↩︎
中兴通讯亮相 2025 中国移动云智算大会全栈智算赋能AI 普惠 - ZTE, accessed May 29, 2025, https://www.zte.com.cn/china/about/news/20250409c1.html ↩︎
search 人工智能私有化部署安全挑战.md ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
OAuth 2.0 Security Best Practices for Developers - Kim Maida, accessed May 29, 2025, https://maida.kim/oauth2-best-practices-for-developers/ ↩︎ ↩︎
The Role of Security Testing for AI and LLM Implementations in Enterprises - TestingXperts, accessed May 29, 2025, https://www.testingxperts.com/blog/security-testing-ai-and-llm/ ↩︎ ↩︎
API Security and the New NIST Standard to Address It, accessed May 29, 2025, https://www.webchecksecurity.com/post/api-security-and-the-new-nist-standard-to-address-it ↩︎
Cloud Security and Data Protection Services | Google Workspace, accessed May 29, 2025, https://workspace.google.com/security/ ↩︎
Protecting Data in Transit with Encryption - Amazon SageMaker AI, accessed May 29, 2025, https://docs.aws.amazon.com/sagemaker/latest/dg/encryption-in-transit.html ↩︎ ↩︎
Google Workspace security whitepaper, accessed May 29, 2025, https://workspace.google.com/learn-more/security/security-whitepaper/page-1/ ↩︎ ↩︎ ↩︎
Data, privacy, and security for use of models through the Model ..., accessed May 29, 2025, https://learn.microsoft.com/en-us/azure/machine-learning/concept-data-privacy?view=azureml-api-2 ↩︎
Data Protection in Amazon SageMaker AI - AWS Documentation, accessed May 29, 2025, https://docs.aws.amazon.com/sagemaker/latest/dg/data-protection.html ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
A Risk-Based Approach to AI Security in Microsoft Azure - ArcherPoint, accessed May 29, 2025, https://archerpoint.com/a-risk-based-approach-to-ai-security-in-microsoft-azure/ ↩︎
Security for AI | Microsoft Security, accessed May 29, 2025, https://www.microsoft.com/en-us/security/business/solutions/security-for-ai ↩︎
What are the OWASP Top 10 risks for LLMs? - Cloudflare, accessed May 29, 2025, https://www.cloudflare.com/learning/ai/owasp-top-10-risks-for-llms/ ↩︎ ↩︎ ↩︎ ↩︎
How to Detect Threats to AI Systems with MITRE ATLAS Framework -ChaosSearch, accessed May 29, 2025, https://www.chaossearch.io/blog/mlops-monitoring-mitre-atlas ↩︎ ↩︎
Document AI API security - Google Cloud Community, accessed May 29, 2025, https://www.googlecloudcommunity.com/gc/AI-ML/Document-AI-API-security/td-p/865994 ↩︎ ↩︎
arxiv.org, accessed May 29, 2025, https://arxiv.org/html/2505.08728 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models - arXiv, accessed May 29, 2025, https://arxiv.org/html/2505.04784v1 ↩︎ ↩︎ ↩︎
Beyond RPA: Implementing Secure AI Agent Access | Oasis Security, accessed May 29, 2025, https://www.oasis.security/resources/blog/rpa-to-ai-agents-secure-access ↩︎ ↩︎
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data - arXiv, accessed May 29, 2025, https://arxiv.org/html/2406.14773v2 ↩︎ ↩︎ ↩︎ ↩︎
Optimizing RAG for Sensitive Data & Privacy Compliance - Chitika, accessed May 29, 2025, https://www.chitika.com/optimizing-rag-sensitive-data-privacy/ ↩︎
Liu, B., et al. (2025). PoisonedParrot: Subtle Data Poisoning Attacks to Elicit Copyright-Infringing Content from Large Language Models. arXiv:2503.07697v1. ↩︎
Proof. - arXiv, accessed May 29, 2025, https://arxiv.org/html/2406.17216v2 ↩︎ ↩︎
Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models - arXiv, accessed May 29, 2025, https://arxiv.org/html/2502.13313v1 ↩︎
Process to secure AI - Cloud Adoption Framework - Learn Microsoft, accessed May 29, 2025, https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/ai/secure ↩︎ ↩︎ ↩︎ ↩︎
Confidential Prompting: Protecting User Prompts from Cloud LLM Providers - arXiv, accessed May 29, 2025, https://arxiv.org/html/2409.19134v3 ↩︎ ↩︎ ↩︎
arxiv.org, accessed May 29, 2025, https://arxiv.org/html/2503.21237 ↩︎ ↩︎ ↩︎
[2504.16743] Implementing AI Bill of Materials (AI BOM) with SPDX 3.0: A Comprehensive Guide to Creating AI and Dataset Bill of Materials - arXiv, accessed May 29, 2025, https://arxiv.org/abs/2504.16743 ↩︎ ↩︎
arxiv.org, accessed May 29, 2025, https://arxiv.org/pdf/2503.01758 ↩︎
Differentially Private Next-Token Prediction of Large Language Models - arXiv, accessed May 29, 2025, https://arxiv.org/html/2403.15638v1 ↩︎
Kure, H. I., et al. (2025). Detecting and Preventing Data Poisoning Attacks on AI Models. arXiv:2503.09302. ↩︎
Infrastructure Security 101: An Introduction - Splunk, accessed May 29, 2025, https://www.splunk.com/en_us/blog/learn/infrastructure-security.html ↩︎ ↩︎
Securing GenAI Workloads: Protecting the Future of AI in Containers - Cloud Native Now, accessed May 29, 2025, https://cloudnativenow.com/topics/containers/securing-genai-workloads-protecting-the-future-of-ai-in-containers/ ↩︎ ↩︎ ↩︎ ↩︎
AI 安全态势管理 - 阿里云文档, accessed May 29, 2025, https://help.aliyun.com/zh/security-center/user-guide/ai-protection ↩︎
OWASP API Security Project, accessed May 29, 2025, https://owasp.org/www-project-api-security/ ↩︎ ↩︎
CrowdStrike Research: Securing AI-Generated Code with Multiple Self-Learning AI Agents, accessed May 29, 2025, https://www.crowdstrike.com/en-us/blog/secure-ai-generated-code-with-multiple-self-learning-ai-agents/ ↩︎
AI in DevSecOps: Automating Security Vulnerability Detection - Datahub Analytics, accessed May 29, 2025, https://datahubanalytics.com/ai-in-devsecops-automating-security-vulnerability-detection/ ↩︎ ↩︎
Machine Learning Model Monitoring: What to Do In Production | Heavybit, accessed May 29, 2025, https://www.heavybit.com/library/article/machine-learning-model-monitoring ↩︎
30 Best Tools for Red Teaming: Mitigating Bias, AI Vulnerabilities & More - Mindgard, accessed May 29, 2025, https://mindgard.ai/blog/best-tools-for-red-teaming ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
The Ultimate Guide to Infrastructure as Code (IAC) Security - Checkmarx, accessed May 29, 2025, https://checkmarx.com/learn/iac-security/the-ultimate-guide-to-infrastructure-as-code-iac-security/ ↩︎ ↩︎
Announcing the SafeBench Winners - ML Safety, accessed May 29, 2025, https://www.mlsafety.org/safebench/winners ↩︎ ↩︎
search AI安全治理行业报告 2023..2025.md ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
JFrog Becomes an AI System of Record, Launches JFrog ML – Industry's First End-to-End DevOps, DevSecOps & MLOps Platform for Trusted AI Delivery, accessed May 29, 2025, https://investors.jfrog.com/news/news-details/2025/JFrog-Becomes-an-AI-System-of-Record-Launches-JFrog-ML--Industrys-First-End-to-End-DevOps-DevSecOps--MLOps-Platform-for-Trusted-AI-Delivery/default.aspx ↩︎
accessed January 1, 1970, https://www.insideprivacy.com/artificial-intelligence/the-eu-ai-act-is-done-what-now/ ↩︎
EU AI Act full text PDF – Chat GPT Is Eating the World, accessed May 29, 2025, https://chatgptiseatingtheworld.com/2024/02/07/eu-ai-act-full-text-pdf/ ↩︎
search 欧盟美国中国人工智能监管法规2023..2025.md ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
AI Risk Management Framework | NIST, accessed May 29, 2025, https://www.nist.gov/itl/ai-risk-management-framework ↩︎
News - 腾讯 AI Lab - 腾讯人工智能实验室官网, accessed May 29, 2025, https://ailab.tencent.com/ailab/en/news/ ↩︎
百度 2023 年, accessed May 29, 2025, http://esg.baidu.com/Uploads/File/2024/05/17/百度2023年環境、社会及管治（ESG）報告.20240517150849.pdf ↩︎
阿里巴巴人工智能治理与可持续发展实验室(AAIG), accessed May 29, 2025, https://s.alibaba.com/cn/aaig ↩︎
www-file.huawei.com, accessed May 29, 2025, https://www-file.huawei.com/-/media/corp2020/pdf/trust-center/a_look_at_effective_ways_for_ai_system_security_and_privacy_cn.pdf ↩︎
Technology & National Security | CNAS, accessed May 29, 2025, https://www.cnas.org/research/technology-and-national-security ↩︎
Technology and Public Purpose | The Belfer Center for Science and ..., accessed May 29, 2025, https://www.belfercenter.org/project/technology-and-public-purpose ↩︎
Artificial Intelligence | Brookings, accessed May 29, 2025, https://www.brookings.edu/topic/artificial-intelligence/ ↩︎

人工智能全生命周期安全风险与DevSecOps治理框架深度分析 ​

摘要 ​

1. 引言：AI的技术本质与固有的安全挑战 ​

1.1. 人工智能：软件、数据与算法的融合与演进 ​

1.2. AI安全风险的内在复杂性与全生命周期特性 ​

1.3. 本文核心主题：AI安全风险剖析与DevSecOps治理框架探讨 ​

2. 人工智能全生命周期核心安全风险 ​

2.1. 预训练模型阶段的内生安全风险 ​

2.1.1. 数据风险： ​

2.1.2. 训练算法的安全风险： ​

2.1.3. 预训练复杂工程的集成风险： ​

2.2. 部署阶段的安全风险 ​

2.2.1. 私有化部署：基础设施安全风险 ​

2.2.2. 云服务：API风险、企业数据风险 ​

2.3. AI应用与Agent开发安全风险 ​

2.3.1. Agent开发框架与流程安全： ​

2.3.2. Agent数据交互与隐私保护： ​

2.3.3. Agent业务逻辑与场景安全： ​

2.3.4. 检索增强生成 (RAG) 系统的特定安全风险： ​

3. 特定威胁类别与漏洞深度分析 ​

3.1. 数据安全深度剖析 ​

3.2. 算法安全深度剖析 ​

3.3. 基础设施与API安全 ​

3.4. AI组件供应链安全 ​

3.5. AI Agent特定威胁 ​

4. DevSecOps在人工智能安全治理中的应用 ​

4.1. DevSecOps理念在AI生命周期的应用原则 ​

4.2. DevSecOps如何应对已识别的AI风险 ​

4.3. DevSecOps在AI中的实践落地 ​

4.4. MLSecOps与DevSecOps及其它框架的比较与融合 ​

5. 监管、伦理与地缘政治更广阔背景 ​

5.1. 监管合规：全球与中国的AI法规现状与趋势 ​

5.2. 伦理考量与社会影响 ​

5.3. 地缘政治风险 ​

6. 高级防御策略与未来展望 ​

6.1. AI红队测试与高级防御框架 ​

6.2. 新兴AI安全工具与技术 ​

6.3. 未来趋势与研究方向 ​

7. 结论 ​

8. 参考文献 ​

贡献者 ​

文件历史 ​