从数据到模型再到应用，如何构建全生命周期的AI安全？-云计算·大数据专区

从数据到模型再到应用，如何构建全生命周期的AI安全？

作者：李代丽编辑：李代丽 2023-09-26 14:09 IT168网站原创

　　通过智能客服优化客户体验，通过自动生成代码来提高技术团队生产力，通过文字生成图片的方式加速创意内容生成，通过自动化文档处理提高整个组织的运营效率……

　　当生成式AI火遍全球，很多企业开始大胆尝试，希望通过这种创新的技术为业务赋能。只不过，新技术引入是一把 “双刃剑”。生成式AI在企业加速落地的同时，潜在的安全问题，给技术部门带来了前所未有的挑战！

　　前不久，国际开源安全组织发布了一个新动态，2023年针对大语言模型应用有十大安全威胁。需要重点强调的是，这些安全威胁并不是预言，而是正在发生。

　　以数据泄露为例，前段时间在网上看过一个爆炸性的新闻，某个大型国际企业在采用了一个基于大语言模型的公开聊天应用服务以后，在20天的时间里出现了3起数据泄露事件，有产品良率的泄露，有代码的泄露，还有会议内容的泄露。如果深层次剖析，其实这些泄漏可以归为一个原因，就是访问控制能力的不足。

　　那么，到底什么是AI应用安全的关键？有没有一个选择，从应用构建开始，就能解决全生命周期的安全？

　　“使用生成式AI，不能只关注 AI 应用本身，而是从一个全栈的角度，去全面审视应用、模型、数据、基础架构的安全规范、技术策略和平台工具。”亚马逊云科技大中华区解决方案架构部总监代闻认为，生成式AI应用就像是海面上的冰山，我们想要在企业里安全地驾驭这项新技术，还需要关注海面下的冰川。

　　毫无疑问，安全是构建生成式AI应用不可回避的一个议题。企业应该从应用构建开始，就需要把安全作为企业AI战略发展的一个核心环节。问题是，构建全生命周期的AI安全，涵盖多个方面，企业应该如何找准抓手，打通AI安全的“任督二脉”？答案是，数据、模型和应用安全是构建AI应用的关键点！

　　数据安全

　　AI应用在运行过程中会收集和处理大量用户数据，要想有效防止数据泄漏以及数据篡改行为，需要企业具备全面护航能力，以保障数据存储、从数据湖到模型训练的数据传输、以及模型应用环境等整个数据链路的安全。

　　此种背景下，亚马逊云科技推出了敏感数据保护解决方案，可实现对企业敏感数据的自动化发现并在统一平台管理数据资产。该解决方案允许客户创建数据目录、使用内置或定制数据识别规则定义敏感数据类型，该方案利用机器学习、模式匹配的方式自动识别敏感数据，并提供可视化面板，帮助客户更轻松地对敏感数据进行管理和保护。

　　针对高质量数据，亚马逊云科技的保护重点是：

　　一、保护存储中的数据。通过实施安全密钥管理、静态数据加密、强制实施访问控制、利用机制限制数据访问等相关技术和方案，保护存储中的数据。

　　二、保护传输中的数据。亚马逊云科技从实施安全密钥和证书管理、执行传输中加密、自动检测意外数据访问、对网络通信进行身份验证四个方面对传输中的数据进行保护。

　　三、多层次保护传输中的数据。亚马逊云科技通过跨区域之间的数据传输、VPC内部以及VPC之间的传输、迁移上云的过程中、以及TLS1.2+AES256从整个的基础架构上实现应用层的加密和传输的保护。

　　四、保护使用中的数据。从身份认证、隔离环境、多方协作以及数据共享四个方面，进行使用中的数据保护。

　　大体来看，亚马逊云科技提供了贯穿生成式AI全周期的数据治理能力，从数据源的获取，到数据的存储和查询，再到将数据传输给 AI平台进行模型的训练、调优和推理，以及全面实施数据分类和治理。亚马逊云科技通过一整套的解决方案、产品服务和实践，帮助企业加速落地端到端的云原生数据战略，给生成式AI 提供高质量的数据支持。

　　模型安全

　　通过数据进行模型训练后，进入生产环境的安全防护同样重要。针对大模型方向，几个月前，亚马逊云科技宣布推出Amazon Bedrock和多种生成式AI服务和功能，以帮助客户构建和扩展自己的生成式AI应用程序。Amazon Bedrock提供了广泛的基础模型因此客户可以选择最能满足需求的模型。

　　首先，Amazon Bedrock后面接入了基础模型，它给提供了一个API可以使用大模型加速生成式AI的应用程序和开发，无须管理底层的基础设施。

　　第二，Amazon Bedrock会负责任地选取一些合作伙伴，例如AI21 Labs、Anthropic、Stability AI，以及自己的基础模型，另外最新推出的合作伙伴名单里也增加了Cohere，以方便客户快速找到最合适的、能力最强的基础模型。

　　第三，使用组织内部的数据来训练大模型，同时又保证客户数据的私有属性。

　　首先，平台背后给大模型做了私有拷贝，这个拷贝只是给客户服务，不会再跟其他任何的大模型共享。其次，训练数据只是在客户账户里来帮助工作，Amazon Bedrock不会拿任何用户的数据来增进自己的模型。

　　这两点非常关键，这也是很多企业在采用大模型的时候对于数据主权、数据保护方面有顾虑的一个很重要的点，Amazon Bedrock给了一个非常完善的方案。

　　再次，Amazon Bedrock能全面地使用亚马逊云科技提供的安全功能，Amazon KMS、Amazon IAM等可以完善地跟Amazon Bedrock集成，集成以后可以很好地管理加密、权限控制和所有行为的日志。

　　Amazon Bedrock提供了自己的大模型Amazon Titan给用户使用。Amazon Titan有两个基础模型：一个是Titan Text，能够执行文本类的任务；另外一个叫Titan Embeddings，能执行个性化推荐的任务。

　　当AI定义一切，做负责任的AI是大前提。亚马逊云科技致力于开发公平且准确的人工智能和机器学习服务，并为企业客户提供负责任地构建人工智能和机器学习应用程序所需的工具和指导。亚马逊云科技在负责任AI方面有着坚定的承诺，如Amazon Titan可以通过减少和消除不当或者是有害的内容来支持负责任AI的实现。

　　应用安全

　　除了数据安全和模型安全，应用安全也得改变策略，全面确保AI创造价值。

　　很多年前，我们就在提DevSecOps，其实从DevOps到DevSecOps，最终强调的是让安全贯穿应用的始终。

　　归纳起来，应用安全可以分两个阶段：

　　第一，是开发流程中的安全（DevSecOps）。安全应该贯穿到从开发到持续集成、持续部署再到投产、监控以及整个反馈的过程里面来。亚马逊云科技利用自身经验，将AI防护应用到软件开发的全生命周期，让开发更便捷，更安全。

　　关于开发流程中的安全保护，亚马逊云科技近期最新发布了两款重磅产品。一个是，Amazon CodeWhisperer。该服务是亚马逊云科技推出的AI编程助手，可根据开发者指令利用内嵌的基础模型实时生成代码建议，该服务内置了代码安全扫描功能，可帮助开发者查找难以检测的漏洞并提出补救建议。另一个是，Amazon CodeGuru Security。它可以扫描代码，在代码里面寻找漏洞，包括调用包漏洞，包括很多其他代码逻辑的漏洞。它还能够在CICD通过人工智能和机器学习的方式自动降低误报率，同时它基于API设计，能够非常方便地集成到开发工作流里边去，实现集中化和扩展性。

　　第二，运行中的安全。针对应用的安全访问，企业可构建零信任的应用安全访问策略。零信任，不是一个标准的工具或者解决方案，而是一套机制，并且需要经过演练和考验。我们需要对访问大模型的应用进行权限管理，确保只有在拥有特定权限的应用，才能访问或者调用大模型里的制定API。

　　同样，为确保运行中的安全，亚马逊云科技也推出了相关工具和应用，帮助客户在自己的亚马逊云科技环境下构建这套机制。

　　Amazon Verified Access：当用户需要建立一个可信任的网络通道，Amazon Verified Access 可以搭建一套无需VPN的网络验证系统，可以使用Amazon IAM，或者客户自己的用户认证系统，来完成这个认证程序。除了对用户的认证之外，Amazon Verified Access还支持设置规则，各种管控可以在几乎不对应用进行任何代码改变的情况下部署和发生。

　　了Amazon Verified Permissions：为用户构建的应用程序提供细粒度授权和权限管理，用户可以使用该服务管理其应用程序的角色和属性的访问控制，亚马逊云科技日前推出了Amazon Verified Permissions。

　　CEDAR：为了方便大家来书写所有的授权规则，亚马逊云科技发布了一个新的开源语言，叫做CEDAR。CEDAR用于编写和执行授权策略的开源的语言，它可以能够让开发者更加轻松、更加快速地来创建所有的访问控制权限。

　　除了零信任策略，在网络控制层面并不是一个二选一的关系，两者相加才能实现端到端的应用安全，尤其是在大模型时代。针对网络防护，Amazon Shield用于防DDos攻击，Amazon WAF提供防火墙支撑，Amazon Firewall Manager可以轻松管制防火墙策略。

　　针对威胁识别，Amazon GuardDuty使用了基于人工智能和机器学习的技术，使安全事件的误报率减少50%。它能够实现初期的检测，还可以做持续的分析，它会使用机器学习的技术来检测所有的威胁，以智能化的手段给予行动建议。

　　所以，生成式AI应用井喷背后，不仅代表人类迎来新技术创新的转折点，更代表企业的安全措施需要全面升级，而已亚马逊云科技为代表的领先企业，正在用高标准的安全理念，不断提升安全合规能力及标准，为大语言模型在企业安全落地保驾护航。

关注我们