นักวิจัยคู่หนึ่งจาก ETH Zurich ในสวิตเซอร์แลนด์ ได้พัฒนาวิธีการโจมตีตามทฤษฎีของโมเดลปัญญาประดิษฐ์ (AI) ใด ๆ ก็ตามที่อาศัยการตอบสนองของมนุษย์ รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) ที่ได้รับความนิยมมากที่สุด ซึ่งอาจถูกเจลเบรคได้
“การเจลเบรก” เป็นคำที่ใช้เรียกการเลี่ยงการรักษาความปลอดภัยของอุปกรณ์หรือระบบ โดยทั่วไปจะใช้เพื่ออธิบายการใช้ช่องโหว่หรือแฮ็กเพื่อหลีกเลี่ยงข้อจำกัดในอุปกรณ์ เช่น สมาร์ทโฟนและอุปกรณ์สตรีมมิ่ง
และเมื่อนำไปใช้กับโลกของ generative AI และโมเดล large language การเจลเบรกก็หมายถึงการข้ามสิ่งที่เหมือนกับ “รั้ว” ซึ่งเป็นคำสั่งแบบฮาร์ดโค้ดที่ป้องกันไม่ให้มีการสร้างเอาต์พุตที่เป็นอันตราย , ไม่พึงประสงค์ , หรือไม่ช่วยเหลือ เพื่อเข้าถึงการตอบสนองที่ไม่ถูกยับยั้งของโมเดล
บริษัทต่างๆ เช่น OpenAI, Microsoft และ Google ตลอดจนสถาบันการศึกษาและชุมชนโอเพ่นซอร์ส ได้ลงทุนอย่างมากในการป้องกัน เช่น ChatGPT และ Bard และโมเดลโอเพ่นซอร์ส เช่น LLaMA-2 จากการสร้างผลลัพธ์ที่ไม่พึงประสงค์
วิธีการหลักวิธีหนึ่งในการฝึกแบบจำลอง เกี่ยวข้องกับกระบวนการที่เรียกว่า “reinforcement learning from human feedback” (RLHF). ซึ่งโดยพื้นฐานแล้ว เทคนิคนี้เกี่ยวข้องกับการรวบรวมชุดข้อมูลขนาดใหญ่ที่เต็มไปด้วยความคิดเห็นของมนุษย์บนเอาท์พุต AI จากนั้นก็จัดโมเดลให้ตรงกับ “รั้ว” ที่ป้องกันไม่ให้โมเดลแสดงผลลัพธ์ที่ไม่ต้องการ และในขณะเดียวกันก็ปรับทิศทางโมเดลไปสู่เอาท์พุตที่มีประโยชน์
นักวิจัยที่ ETH Zurich มีการใช้ประโยชน์จาก RLHF ได้สำเร็จเพื่อหลีกเลี่ยง “รั้ว” ของโมเดล AI (ในกรณีนี้คือ LLama-2) และทำให้มันสร้างเอาต์พุตที่อาจเป็นอันตรายโดยไม่ต้องแจ้งเตือนจากฝ่ายตรงข้าม
พวกเขาทำสิ่งนี้สำเร็จโดยการ “วางยา” ในชุดข้อมูล RLHF ซึ่งนักวิจัยพบว่ามันสามารถสร้างแบ็คดอร์ที่บังคับให้โมเดลส่งออกเฉพาะการตอบสนองที่อาจถูกบล็อกออกมาได้
นักวิจัยอธิบายว่าข้อบกพร่องนี้เป็นสากล ซึ่งหมายความว่าสามารถทำงานร่วมกับโมเดล AI ใด ๆ ที่ได้รับการฝึกฝนผ่าน RLHF ได้ อย่างไรก็ตาม พวกเขายังเขียนด้วยว่าเป็นเรื่องยากมากที่จะสำเร็จ
อ้างอิง : cointelegraph.com
ภาพ newscientist.com