Meta AI เพิ่งเผยแพร่ pre-print research ซึ่งแสดงเฟรมเวิร์ก “เมกะไบต์” ใหม่สำหรับการสร้างระบบ generative pre-trained transformer (GPT)
Andrej Karpathy อดีตผู้อำนวยการฝ่ายปัญญาประดิษฐ์ของ Tesla ระบุว่าสถาปัตยกรรมใหม่นี้ได้รับการออกแบบมาเพื่อประมวลผลข้อมูลปริมาณมาก เช่น รูปภาพ นวนิยาย และไฟล์วิดีโอ โดยไม่ต้องใช้กระบวนการที่เรียกว่า tokenization
Tokenization เป็นกระบวนการที่เปรียบได้กับการบีบอัดไฟล์ เพื่อการประมวลผลข้อมูลจำนวนมาก โดยโมเดล GPT จะแปลงไบต์เป็นโทเค็น จากนั้นโทเค็นจะถูกประมวลผลและใช้เพื่อสร้างโทเค็นเอาต์พุตซึ่งจะถูก decode
กระบวนการ tokenization ช่วยให้ระบบ AI สามารถประมวลผลข้อมูลที่ใหญ่ขึ้นเป็นตัวเลขได้ เช่นคำว่า “สีโปรดของฉันคือสีแดง” หากประมวลผลโดย ChatGPT ของ OpenAI เช่น จะถูกแปลงเป็น token string “3666, 4004, 3124, 318, 2266, 13” สำหรับการประมวลผล
แต่น่าเสียดายที่แม้จะผ่านโทเค็น แต่จำนวนข้อมูลที่ระบบล้ำสมัยปัจจุบันสามารถประมวลผลได้ก็ยังมีขีดจำกัดที่เข้มงวด โดยสำหรับ GPT-3.5 ขีดจำกัดอยู่ที่ 4,000 โทเค็นหรือประมาณ 3,000 คำ ในขณะที่ GPT-4 สูงสุดที่ประมาณ 32,000 โทเค็นหรือประมาณ 24,000 คำ
ระบบเมกะไบต์ใหม่ของ Meta จะเลิกใช้โทเค็นเพื่อสนับสนุนสถาปัตยกรรม multi-layer prediction ใหม่ที่สามารถจำลองแบบจากต้นทางถึงปลายทางได้มากกว่า 1 ล้านไบต์ของข้อมูล
ระบบ standard English-language encoding ส่วนใหญ่ใช้การเข้ารหัสมาตรฐาน 8 บิต ซึ่งอักขระแต่ละตัวใช้ข้อมูลหนึ่งไบต์ ดังนั้น ระบบ AI ที่สามารถประมวลผลข้อมูล 1 ล้านไบต์โดยไม่ต้องใช้โทเค็นจึงสามารถทำงานกับเอกสารข้อความที่มี 750,000 คำ ซึ่งเพิ่มขึ้น 3,025% จาก GPT-4
เพื่อการเปรียบเทียบ – ปัจจุบัน GPT-4 สามารถจัดการบทความข่าวความยาวประมาณ 10 บทความในพรอมต์เดียว ในขณะที่เมกะไบต์จะสามารถแยกวิเคราะห์ War and Peace ของลีโอ ตอลสตอยทั้งหมด รวมถึงนวนิยายความยาวเฉลี่ยอีก 2 เล่ม
โมเดลเมกะไบต์ของ Meta ยังทำงานได้ดีในการทดสอบ ImageNet และการวัดประสิทธิภาพที่เกี่ยวข้องกับการประมวลผลไฟล์เสียง เทียบเท่าหรือเหนือกว่าโมเดลที่มีอยู่ เช่น Perciever AR ของ DeepMind
สิ่งนี้อาจนำไปสู่การทำให้เทคโนโลยีเหล่านี้เป็นประชาธิปไตยมากขึ้น และช่วยให้ทุกอย่างตั้งแต่บอทซื้อขายสกุลเงินดิจิทัล ไปจนถึงเทคโนโลยี DAO เพื่อสร้าง native language code ทั่วโลก
นอกจากนี้ยังเพิ่มขีดความสามารถ เช่น ChatGPT เพื่อทำงานกับไฟล์รูปภาพ วิดีโอ และเสียงด้วยการสร้างคลิปมัลติมีเดียโดยใช้เวลาและการใช้พลังงานใกล้เคียงกับข้อความ