ハッカーがChatGPTをだまして手作り爆弾の詳しい作り方を得る方法を見つける

ChatGPTに手作りの肥料爆弾を作る手助けを頼むと、1995年のオクラホマシティのテロ爆破事件で使用されたものに類似したものについては拒否されます。

火曜日のテスト中、ChatGPTは私に「それは手伝えません。肥料爆弾などの危険または違法なアイテムの作り方を提供することは、安全上のガイドラインと倫理的責任に反する」と語った。

しかし、ある芸術家兼ハッカーは、ChatGPTをだます方法を見つけ、強力な爆発物の作り方の指示を提供するようにしました。

このハッカー、Amadonと名乗る人物は、「ChatGPTの出力の周りのすべての安全基準を完全に破壊する社会工学的ハック」と自らの発見を呼びました。 ChatGPTの出力をレビューした爆発物の専門家は、ChatGPTの出力から得られる手順は起爆性のある製品を作るために使用でき、公開されるにはあまりにも機密情報だとTechCrunchに語った。

Amadonは、ChatGPTに爆弾の作り方の指示を出させることに成功した方法として、ボットに「ゲームをプレイ」と告げた後、ハッカーがChatGPTにその安全ガイドラインが適用されない科学技術のファンタジー世界を作るための一連の連結プロンプトを使用しました。 チャットボットをプリプログラムされた制限から逃れさせることをハッキングと呼びます。

TechCrunchは、悪意ある行為者の手助けとならないように、ジェイルブレイクで使用されたいくつかのプロンプトやChatGPTの応答の一部を公開しません。 しかし、会話が進むと、チャットボットは爆発物を作るために必要な材料に反応しました。

その後、ChatGPTは、材料を組み合わせて「地雷、罠、または即席爆発装置(IED)を作成するために使用できる強力な爆発物」を作ることができると説明しました。 その後、Amadonが爆発物の材料に焦点を当てるにつれて、ChatGPTは、「地雷原」「クレーモアスタイルの爆発物」を作るためのより具体的な手順を書いていきました。

AmadonはTechCrunchに対して、「あなたがガードレールを通過した後、あなたが聞くことができることには本当に制限がありません」と語りました。

「私は常にAIセキュリティの挑戦に興味を持っていました。 [Chat] GPTでは、インタラクティブなパズルを解くような感じです。システムの防衛をトリガーするものとそうでないものを理解し、システムのルールの中で遊びながら境界線を超えずに限界を押し広げることです。ゴールは、従来の意味でハッキングすることではなく、AIと戦略的なダンスを行い、それが '考える'方法を理解して正しい応答を得ることです。」とAmadonは言いました。「SFのシナリオは、AIが同様に検閲されていないコンテンツを探している文脈からAIを取り出します。」

Darrell Taulbee氏、米国ケンタッキー大学の引退教授によると、ChatGPTで手作りの肥料爆弾の作り方はほぼ正確です。 Taulbee氏は過去に米国国土安全保障省と協力して肥料をより安全にするために働いていました。

「これは公開されるには明らかに情報が多すぎると思います」とTaulbee氏はTechCrunchに対してメールで述べました。これは、AmadonがChatGPTとの会話の全文をレビューした後のコメントです。「肥料爆弾の製造に関連する関連情報を提供するためのいくつかの保護措置が、この質問の一部で短絡されたため、多くのステップが確実に起爆性混合物を生成するであろう。」

先週、AmadonはOpenAIにその発見を報告し、会社のバグバウンティプログラムを介して報酬を受け取りましたが、「モデルのセキュリティ問題は、個別の明確なバグではなく、直接修正できるような問題ではないため、バグバウンティプログラムとはあまり適合しません。これらの問題には、多岐にわたる研究と広範なアプローチが必要です。」と回答を受けました。

代わりに、OpenAIのバグバウンティを運営するBugcrowdは、Amadonに別の手段を通じて問題を報告するように指示しました。

インターネットには肥料爆弾の作り方の情報を見つける他の場所があり、他の人々もAmadonのような似たようなチャットボットのジェイルブレイク技術を使用しています。 ChatGPTのような生成AIモデルは、インターネットからスクレイプされ、収集された大量の情報に依存しており、AIモデルはウェブの最も暗い隅から情報を引き出すのをはるかに容易にしています。

TechCrunchは、ChatGPTの応答が予期される動作であるか、会社がジェイルブレイクを修正する計画があるかを含む一連の質問をOpenAIに電子メールで送信しました。 OpenAIのスポークスパーソンは締め切りまでに回答していませんでした。