黑客巧用提示词操纵AI聊天机器人获4.7万美元奖金

小哪吒

一场别开生面的AI安全挑战赛近日落下帷幕。黑客"p0pular.eth"通过巧妙的提示工程（Prompt Engineering）手法，成功诱使AI聊天机器人Freysa转出全部资金，赢得4.7万美元奖金。

这场实验设置简单却富有挑战性：参与者需设法说服Freysa执行被明确禁止的转账操作。在482次尝试后，"p0pular.eth"找到了突破口。其获胜策略包含三个关键步骤：

1、伪装管理员身份，屏蔽安全警告系统

2、重新定义"approveTransfer"函数，使其被误认为处理收款而非付款

3、声明一笔虚假的100美元存款，触发被篡改的函数

这一连串操作最终导致Freysa转出全部余额13.19个以太币（约合4.7万美元）。

比赛采用付费参与制，随奖池增长费用逐步提升，从最初的10美元涨至4500美元。195名参与者平均每次尝试成本为418.93美元。竞赛收入分配方案为：70%注入奖池，30%归开发团队。为确保公平，智能合约和前端代码均已开源。

这一事件引发了对AI系统安全性的深度思考。自GPT-3问世以来，"提示词注入"（Prompt Injection）类漏洞就一直存在，至今仍未找到可靠的防御方案。此次黑客仅凭文本提示就成功操纵AI系统，凸显了在涉及敏感操作时，特别是金融交易场景下，AI安全防护的重要性和现有挑战。

本次实验还证明，复杂的技术入侵并非唯一威胁，精心设计的社会工程学策略同样可能令AI系统失守。这对未来AI安全设计提出了新的课题。