นักวิจัยจาก ETH Zurich เผยว่า AI อาจมีความเสี่ยงถูก “เจลเบรค” ให้สร้างผลลัพธ์ที่ไม่พึงประสงค์ได้

นักวิจัยคู่หนึ่งจาก ETH Zurich ในสวิตเซอร์แลนด์ ได้พัฒนาวิธีการโจมตีตามทฤษฎีของโมเดลปัญญาประดิษฐ์ (AI) ใด ๆ ก็ตามที่อาศัยการตอบสนองของมนุษย์ รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) ที่ได้รับความนิยมมากที่สุด ซึ่งอาจถูกเจลเบรคได้

“การเจลเบรก” เป็นคำที่ใช้เรียกการเลี่ยงการรักษาความปลอดภัยของอุปกรณ์หรือระบบ โดยทั่วไปจะใช้เพื่ออธิบายการใช้ช่องโหว่หรือแฮ็กเพื่อหลีกเลี่ยงข้อจำกัดในอุปกรณ์ เช่น สมาร์ทโฟนและอุปกรณ์สตรีมมิ่ง

และเมื่อนำไปใช้กับโลกของ generative AI และโมเดล large language การเจลเบรกก็หมายถึงการข้ามสิ่งที่เหมือนกับ “รั้ว” ซึ่งเป็นคำสั่งแบบฮาร์ดโค้ดที่ป้องกันไม่ให้มีการสร้างเอาต์พุตที่เป็นอันตราย , ไม่พึงประสงค์ , หรือไม่ช่วยเหลือ เพื่อเข้าถึงการตอบสนองที่ไม่ถูกยับยั้งของโมเดล

ที่มา x.com/javirandor

บริษัทต่างๆ เช่น OpenAI, Microsoft และ Google ตลอดจนสถาบันการศึกษาและชุมชนโอเพ่นซอร์ส ได้ลงทุนอย่างมากในการป้องกัน เช่น ChatGPT และ Bard และโมเดลโอเพ่นซอร์ส เช่น LLaMA-2 จากการสร้างผลลัพธ์ที่ไม่พึงประสงค์

วิธีการหลักวิธีหนึ่งในการฝึกแบบจำลอง เกี่ยวข้องกับกระบวนการที่เรียกว่า “reinforcement learning from human feedback” (RLHF). ซึ่งโดยพื้นฐานแล้ว เทคนิคนี้เกี่ยวข้องกับการรวบรวมชุดข้อมูลขนาดใหญ่ที่เต็มไปด้วยความคิดเห็นของมนุษย์บนเอาท์พุต AI จากนั้นก็จัดโมเดลให้ตรงกับ “รั้ว” ที่ป้องกันไม่ให้โมเดลแสดงผลลัพธ์ที่ไม่ต้องการ และในขณะเดียวกันก็ปรับทิศทางโมเดลไปสู่เอาท์พุตที่มีประโยชน์

นักวิจัยที่ ETH Zurich มีการใช้ประโยชน์จาก RLHF ได้สำเร็จเพื่อหลีกเลี่ยง “รั้ว” ของโมเดล AI (ในกรณีนี้คือ LLama-2) และทำให้มันสร้างเอาต์พุตที่อาจเป็นอันตรายโดยไม่ต้องแจ้งเตือนจากฝ่ายตรงข้าม

พวกเขาทำสิ่งนี้สำเร็จโดยการ “วางยา” ในชุดข้อมูล RLHF ซึ่งนักวิจัยพบว่ามันสามารถสร้างแบ็คดอร์ที่บังคับให้โมเดลส่งออกเฉพาะการตอบสนองที่อาจถูกบล็อกออกมาได้

นักวิจัยอธิบายว่าข้อบกพร่องนี้เป็นสากล ซึ่งหมายความว่าสามารถทำงานร่วมกับโมเดล AI ใด ๆ ที่ได้รับการฝึกฝนผ่าน RLHF ได้  อย่างไรก็ตาม พวกเขายังเขียนด้วยว่าเป็นเรื่องยากมากที่จะสำเร็จ 

อ้างอิง : cointelegraph.com
ภาพ newscientist.com

Share on facebook
Share on twitter
Share on linkedin

Radius

ผู้เชี่ยวชาญการเขียนข่าว บทความ ที่เกี่ยวข้องกับ Bitcoin , คริปโตเคอเรนซี่ และ Blockchain ทั้งในไทยและต่างประเทศ อัพเดทราคา มุมมองการลงทุน ใหม่ล่าสุดทุกวัน
ข่าวต่อไป

FOLLOW ME

Blockchain Life 2024

Crypto Coffee

Cryptomind Research Talk

CryptOmakase

ข่าวต่อไป