รับแอปรับแอป

Adobe งานเข้า เมื่อ AI ไม่ได้มีแค่ด้านสวยงาม คดีฟ้องหมู่ปมใช้หนังสือเถื่อนเทรนโมเดล จุดเปลี่ยนใหญ่ของวงการ AI

ชลธิชา บุญมา12-22

ในยุคที่คำว่า AI กลายเป็นของสามัญประจำวงการเทคโนโลยี แทบทุกบริษัทใหญ่ต่างรีบกระโดดขึ้นขบวน ไม่ว่าจะเป็น Google, Apple, Microsoft หรือ Adobe เจ้าพ่อซอฟต์แวร์สายครีเอทีฟที่หลายคนใช้มาตั้งแต่ยุคยังเรนเดอร์งานข้ามคืน และแม้ Adobe จะพยายามวางภาพลักษณ์ว่าเป็นบริษัทที่ “ใสสะอาด” เรื่องลิขสิทธิ์ แต่ล่าสุดดูเหมือนเรื่องจะไม่ง่ายแบบนั้นอีกต่อไป

เมื่อ Adobe ถูกยื่นฟ้องคดีแบบ Class-action หรือการฟ้องหมู่ ในข้อกล่าวหาว่าใช้ หนังสือละเมิดลิขสิทธิ์ มาเป็นข้อมูลฝึก AI โดยไม่ได้รับอนุญาตจากเจ้าของผลงาน กลายเป็นอีกหนึ่งระลอกคลื่นที่ซัดใส่วงการ AI อย่างจัง


คดีนี้เกิดจากอะไร ใครเป็นคนจุดชนวน

คดีนี้ถูกยื่นฟ้องในนามของ Elizabeth Lyon นักเขียนจากรัฐโอเรกอน ผู้เขียนหนังสือแนวไกด์และสารคดีเกี่ยวกับการเขียนหนังสือ โดยเธออ้างว่าผลงานของเธอถูกนำไปใช้เป็นส่วนหนึ่งของข้อมูลฝึก AI ของ Adobe โดยไม่ได้รับความยินยอม

AI ที่ถูกกล่าวถึงคือ SlimLM
โมเดลภาษาขนาดเล็กของ Adobe ที่บริษัทอธิบายว่าออกแบบมาเพื่อ:

  • งานช่วยเหลือด้านเอกสาร

  • ใช้บนอุปกรณ์พกพา

  • เน้นความเบา ประหยัดทรัพยากร

ปัญหาไม่ได้อยู่ที่ตัวโมเดล แต่อยู่ที่ ข้อมูลที่ใช้ฝึกมัน


SlimLM เทรนจากอะไร และปัญหามันอยู่ตรงไหน

Adobe ระบุว่า SlimLM ถูกฝึกจากชุดข้อมูลชื่อ SlimPajama-627B
ซึ่งเป็น dataset แบบ open-source ที่พัฒนาโดย Cerebras ในปี 2023 และถูกอธิบายว่า:

  • ผ่านการ deduplicate

  • รวมข้อมูลจากหลายแหล่ง

  • เป็นโอเพ่นซอร์ส

แต่ในเอกสารฟ้องร้อง Lyon ระบุชัดว่า
SlimPajama เป็นชุดข้อมูลที่ถูกดัดแปลงมาจาก RedPajama

และ RedPajama นั่นเอง ที่มีความเชื่อมโยงกับชุดข้อมูลอื้อฉาวชื่อ Books3


Books3 คืออะไร ทำไมวงการ AI ถึงสะดุ้งทุกครั้งที่ได้ยินชื่อ

Books3 คือชุดข้อมูลขนาดมหาศาล

  • รวมหนังสือกว่า 191,000 เล่ม

  • ถูกใช้เทรน Generative AI จำนวนมาก

  • มีข้อกล่าวหาว่ารวมหนังสือละเมิดลิขสิทธิ์จำนวนมาก

ปัญหาคือ Books3 ไม่ได้เป็นแค่ข่าวลือ แต่ถูกอ้างอิงในคดีจริงหลายคดีแล้ว และหลายบริษัทเทคโนโลยีเริ่มโดนโยงชื่อเข้ามาเรื่อย ๆ

ในคดีของ Lyon มีการระบุว่า:

SlimPajama เป็น derivative copy ของ RedPajama
และ RedPajama มี Books3 รวมอยู่
ดังนั้น SlimPajama จึงมีงานที่มีลิขสิทธิ์ของโจทก์ด้วย

พูดง่าย ๆ คือ ต่อให้ Adobe ไม่ได้ดึง Books3 มาใช้ตรง ๆ แต่ถ้าใช้ชุดข้อมูลที่ “สืบทอด” มาจากมัน ก็ยังหนีไม่พ้นประเด็นนี้อยู่ดี


Adobe ไม่ใช่รายแรก และคงไม่ใช่รายสุดท้าย

ถ้ามองภาพกว้าง จะเห็นว่านี่ไม่ใช่เคสโดดเดี่ยวเลย

  • Apple ถูกฟ้องในเดือนกันยายน ปมใช้ RedPajama เทรน Apple Intelligence

  • Salesforce โดนฟ้องลักษณะคล้ายกันในเดือนตุลาคม

  • Anthropic หนักสุด ยอมจ่าย 1.5 พันล้านดอลลาร์ ให้กลุ่มนักเขียน หลังถูกกล่าวหาว่าใช้หนังสือเถื่อนเทรน Claude

คดีของ Anthropic ถูกมองว่าเป็น “จุดเปลี่ยน” เพราะเป็นครั้งแรก ๆ ที่บริษัท AI ยอมจ่ายจริงในระดับมหาศาล และทำให้บริษัทอื่นเริ่มหนาว ๆ ร้อน ๆ กันถ้วนหน้า


ทำไมคดีแบบนี้ถึงเกิดขึ้นซ้ำแล้วซ้ำเล่า

เหตุผลหลักมีไม่กี่ข้อ แต่แรงมาก

  • AI ต้องการข้อมูลมหาศาล
    โมเดลยิ่งเก่ง ยิ่งต้องกินข้อมูลเยอะ

  • ข้อมูลดี = งานมีลิขสิทธิ์
    หนังสือ บทความ งานเขียนคุณภาพ ล้วนมีเจ้าของ

  • Dataset ถูกส่งต่อเป็นทอด ๆ
    บริษัทหนึ่งบอกว่าใช้โอเพ่นซอร์ส
    แต่ต้นทางของโอเพ่นซอร์สนั้นอาจไม่สะอาด

  • กฎหมายยังตามไม่ทันเทคโนโลยี
    หลายประเทศยังไม่มีกรอบชัดเจนเรื่อง AI training

  • ผลลัพธ์คือ “ใครพลาด ใครโดนก่อน” กลายเป็นเกมเสี่ยงของบริษัทยักษ์ใหญ่


    ผลกระทบต่อวงการครีเอทีฟและผู้ใช้ทั่วไป

    สำหรับนักเขียนและศิลปิน

    • เริ่มกล้าฟ้องมากขึ้น

    • รวมกลุ่มเป็น class-action

    • ผลักดันให้เกิดค่าตอบแทนจาก AI

    สำหรับบริษัทเทคโนโลยี

    • ต้องตรวจที่มาของ dataset ละเอียดขึ้น

    • โอเพ่นซอร์สไม่ใช่คำตอบ万能อีกต่อไป

    • ความเสี่ยงทางกฎหมายสูงขึ้นมาก

    สำหรับผู้ใช้

    • อาจเห็น AI บางฟีเจอร์ช้าลง

    • ราคาบริการอาจสูงขึ้น

    • ความโปร่งใสเรื่องข้อมูลจะถูกพูดถึงมากขึ้น


    แล้ว Firefly ของ Adobe เกี่ยวไหม

    แม้คดีนี้จะโฟกัสที่ SlimLM แต่ชื่อของ Firefly ก็ถูกพูดถึงตามไปด้วย เพราะเป็นผลิตภัณฑ์ AI ที่ Adobe ใช้เป็นจุดขายหลักในช่วงหลัง

    Firefly ถูกโปรโมตว่า:

    • เทรนจาก Adobe Stock

    • ใช้งานเชิงพาณิชย์ได้

    • เคลียร์เรื่องลิขสิทธิ์

    แต่คดีนี้ทำให้หลายคนเริ่มตั้งคำถามว่า
    “โมเดลอื่น ๆ ของ Adobe สะอาดจริงแค่ไหน”


    สรุป: คดีนี้อาจไม่จบแค่ Adobe

    การฟ้อง Adobe ครั้งนี้ไม่ใช่แค่เรื่องของบริษัทเดียว แต่เป็นภาพสะท้อนของอุตสาหกรรม AI ทั้งระบบ

    สิ่งที่ควรจับตาต่อจากนี้คือ:

    • ศาลจะตีความคำว่า “training” ยังไง

    • Dataset แบบ derivative จะโดนเหมารวมหรือไม่

    • บริษัท AI จะเริ่มจ่ายค่าลิขสิทธิ์จริงหรือเปล่า

    ในโลกที่ AI สร้างทุกอย่างได้เร็วขึ้น
    คำถามไม่ใช่แค่ “ทำได้ไหม”
    แต่คือ “มีสิทธิ์ทำหรือเปล่า”

    และคำตอบนั้น กำลังถูกเขียนขึ้นในห้องพิจารณาคดี มากกว่าห้องทดลอง AI

    ที่มา techcrunch