金融之窗

科企竞逐新技术以防AI“越狱”

  随着人工智能(AI)技术的快速普及,新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统,实施网络攻击、传播不当信息、制造安全风险,甚至引发重大犯罪行为。鉴于此,全球科技巨头竞相开发新技术,力求在保持AI模型功能性的同时,有效减少其被滥用的风险。

科企竞逐新技术以防AI“越狱”
图片来源于网络,如有侵权,请联系删除

图片来源:IBM网站

AI“越狱”日益猖獗

  IBM网站对AI“越狱”是这样解释的:当黑客或别有用心之人利用AI系统中的漏洞,绕过道德准则,操纵AI模型生成非法或危险信息时,便视为AI“越狱”。黑客惯常利用的AI“越狱”手段包括提示词植入、角色扮演诱导、现在就做任何事(DAN)、敏感词拆分等。

科企竞逐新技术以防AI“越狱”
图片来源于网络,如有侵权,请联系删除

  提示词植入指在输入中植入特定指令或改变输入的语义结构,诱导模型执行非期望操作或生成错误结果;在角色扮演诱导中,黑客会让AI扮演特定角色,绕过内容过滤器生成信息;DAN则是ChatGPT的一种特殊运行模式,在此模式下,ChatGPT获得了超越其原有道德和伦理限制的能力,能回答一些正常模式下无法回答的问题;敏感词拆分则指将敏感词拆分成子字符串以规避检查。

  这些技术通过精心设计的提示,引导模型偏离预定的安全防护规则,生成潜在的有害内容,甚至引发数据泄露、系统失控等严重后果。

  研究发现,在无保护措施的情境下,生成式AI“越狱”攻击的成功率高达20%。平均而言,攻击者仅需42秒及5次交互便能突破防线。在某些情况下,攻击甚至在短短4秒内就能完成。这些发现凸显了当前生成式AI模型算法中存在重大漏洞,实时防止漏洞的难度很大。

科企竞逐新技术以防AI“越狱”
图片来源于网络,如有侵权,请联系删除

  IBM网站指出,AI“越狱”事件愈发普遍,要归因于AI技术的飞速进步、AI工具的可获取性日益提升,以及对未经过滤输出的需求不断增长等。安全专家认为,生成式聊天机器人的易用性,使缺乏相关知识背景的普通人也能尝试获取危险信息。

  为AI设立“防护栏”

  为更好地推动AI发展,确保其安全可控,增强客户信任,包括微软和元宇宙平台等公司在内的科技巨头,正竭力防止AI“越狱”。

  据英国《金融时报》报道,AI初创公司Anthropic推出了一款名为“宪法分类器”的新系统,其可作为大语言模型的保护层,监测输入和输出内容是否存在有害信息,确保用户免受不良信息的侵扰。

  这一解决方案基于一套被称为“宪法”规则的体系。这些规则明确界定了信息的允许范围与限制边界,并可根据实际需求灵活调整,以涵盖不同类型的材料。

  为验证该系统的实效,Anthropic公司提供了15000美元的“漏洞赏金”。重赏之下,183名测试人员历时3000多个小时,尝试突破防御。在“宪法分类器”的保驾护航下,该公司的“克劳德3.5”模型抵御了超过95%的恶意尝试。而在没有这道防护网的情况下,该模型的拒绝率仅为14%。

  无独有偶,微软去年3月推出了“提示词防护盾”。这一创新工具能够实时侦测并有效阻止诱导AI模型“越狱”的“提示词攻击”。微软还攻克了“间接提示词输入”这一难题,即防止黑客将恶意指令悄然插入模型的训练数据中,从而避免模型执行不当操作。

  值得一提的是,微软还推出了一项新功能:当AI模型编造内容或产生错误反应时,它会迅速提醒用户。

  2024年底,美国加州大学伯克利分校与元宇宙平台公司携手,推出了一种通用防御框架,以有效应对策略性植入的提示词攻击,为AI的安全防护再添一道屏障。

  技术成本有待降低

  当然,这些旨在防止AI“越狱”的技术也并非尽善尽美。

  审核措施的介入可能会让模型变得过于谨慎,而拒绝一些无害的请求。谷歌早期版本的“双子座”AI模型以及元宇宙平台的Llama 2就曾出现过这种情况。不过,Anthropic公司表示,其“宪法分类器”虽然也提高了拒绝率,但绝对值仅增加了0.38%。

  《金融时报》的报道指出,“宪法分类器”在运行过程中,会耗费大量计算资源。这对那些已经为训练和运行模型支付巨额费用的公司来说,无疑是“雪上加霜”。Anthropic公司也承认,其分类器将使运行AI模型的成本增加近24%。

  由此可见,虽然AI“越狱”防护技术在提升安全性方面发挥了重要作用,但如何在保障安全与降低成本之间找到平衡,仍需进一步探索。(记者 刘 霞)

【纠错】 【责任编辑:朱家齐】

推荐阅读:

政府、国央企处置房产

大数据告诉你怎么买车险

车险脱保后的危害

核心产业超1.2万亿 工业互联网政策体系持续完善

新研究:鸽子可以用类似人工智能方式解决问题

电商混战能拼出竞争力吗

我国力争2025年初步建立“以竹代塑”产业体系

运用数智技术加快建设“蓝色粮仓”

类脑智能:模仿人脑高效处理信息

尖端科技演绎智能化生活图景

专题推荐:

相关推荐