นักวิจัยจาก Google ได้เปิดตัวแผนสำหรับโมเดล time-and-space diffusion ที่เรียกว่า Lumiere ซึ่งจะเปลี่ยนข้อความหรือรูปภาพให้เป็นวิดีโอที่สร้างโดย AI ที่สมจริง พร้อมความสามารถในการแก้ไขตามความต้องการ
Lumiere ได้รับการออกแบบมาเพื่อถ่ายทอด “การเคลื่อนไหวที่สมจริง , หลากหลายและสอดคล้องกัน” ผ่านสิ่งที่เรียกว่า “สถาปัตยกรรม Space-Time U-Net”
สิ่งนี้หมายความว่า ผู้ใช้สามารถป้อนคำอธิบายที่เป็นข้อความของสิ่งที่พวกเขาต้องการดูเป็นวิดีโอหรืออัปโหลดภาพนิ่งพร้อมข้อเพื่อสร้างวิดีโอแบบไดนามิกได้
Hila Chefer นักศึกษานักวิจัยที่ทำงานเกี่ยวกับโมเดลนี้ร่วมกับ Google ได้โพสต์ตัวอย่างความสามารถของโมเดลบนแพลตฟอร์มโซเชียลมีเดีย X
Lumiere ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลวิดีโอและคำบรรยายภาพจำนวน 30 ล้านรายการ และมีความสามารถในการสร้าง 80 เฟรมที่ 16 เฟรมต่อวินาที อย่างไรก็ตาม ไม่มีการเอ่ยถึงแหล่งที่มาของข้อมูลที่ Google ใช้ในการฝึกอบรมโมเดล ซึ่งกลายเป็นหัวข้อที่ร้อนแรงในโลกของ AI และกฎหมายลิขสิทธิ์
อ้างอิง : cointelegraph.com
ภาพ medium.com