ในยุคที่คำว่า AI กลายเป็นของสามัญประจำวงการเทคโนโลยี แทบทุกบริษัทใหญ่ต่างรีบกระโดดขึ้นขบวน ไม่ว่าจะเป็น Google, Apple, Microsoft หรือ Adobe เจ้าพ่อซอฟต์แวร์สายครีเอทีฟที่หลายคนใช้มาตั้งแต่ยุคยังเรนเดอร์งานข้ามคืน และแม้ Adobe จะพยายามวางภาพลักษณ์ว่าเป็นบริษัทที่ “ใสสะอาด” เรื่องลิขสิทธิ์ แต่ล่าสุดดูเหมือนเรื่องจะไม่ง่ายแบบนั้นอีกต่อไป
เมื่อ Adobe ถูกยื่นฟ้องคดีแบบ Class-action หรือการฟ้องหมู่ ในข้อกล่าวหาว่าใช้ หนังสือละเมิดลิขสิทธิ์ มาเป็นข้อมูลฝึก AI โดยไม่ได้รับอนุญาตจากเจ้าของผลงาน กลายเป็นอีกหนึ่งระลอกคลื่นที่ซัดใส่วงการ AI อย่างจัง
คดีนี้เกิดจากอะไร ใครเป็นคนจุดชนวน
คดีนี้ถูกยื่นฟ้องในนามของ Elizabeth Lyon นักเขียนจากรัฐโอเรกอน ผู้เขียนหนังสือแนวไกด์และสารคดีเกี่ยวกับการเขียนหนังสือ โดยเธออ้างว่าผลงานของเธอถูกนำไปใช้เป็นส่วนหนึ่งของข้อมูลฝึก AI ของ Adobe โดยไม่ได้รับความยินยอม
AI ที่ถูกกล่าวถึงคือ SlimLM
โมเดลภาษาขนาดเล็กของ Adobe ที่บริษัทอธิบายว่าออกแบบมาเพื่อ:
งานช่วยเหลือด้านเอกสาร
ใช้บนอุปกรณ์พกพา
เน้นความเบา ประหยัดทรัพยากร
ปัญหาไม่ได้อยู่ที่ตัวโมเดล แต่อยู่ที่ ข้อมูลที่ใช้ฝึกมัน
SlimLM เทรนจากอะไร และปัญหามันอยู่ตรงไหน
Adobe ระบุว่า SlimLM ถูกฝึกจากชุดข้อมูลชื่อ SlimPajama-627B
ซึ่งเป็น dataset แบบ open-source ที่พัฒนาโดย Cerebras ในปี 2023 และถูกอธิบายว่า:
ผ่านการ deduplicate
รวมข้อมูลจากหลายแหล่ง
เป็นโอเพ่นซอร์ส
แต่ในเอกสารฟ้องร้อง Lyon ระบุชัดว่า
SlimPajama เป็นชุดข้อมูลที่ถูกดัดแปลงมาจาก RedPajama
และ RedPajama นั่นเอง ที่มีความเชื่อมโยงกับชุดข้อมูลอื้อฉาวชื่อ Books3

Books3 คืออะไร ทำไมวงการ AI ถึงสะดุ้งทุกครั้งที่ได้ยินชื่อ
Books3 คือชุดข้อมูลขนาดมหาศาล
รวมหนังสือกว่า 191,000 เล่ม
ถูกใช้เทรน Generative AI จำนวนมาก
มีข้อกล่าวหาว่ารวมหนังสือละเมิดลิขสิทธิ์จำนวนมาก
ปัญหาคือ Books3 ไม่ได้เป็นแค่ข่าวลือ แต่ถูกอ้างอิงในคดีจริงหลายคดีแล้ว และหลายบริษัทเทคโนโลยีเริ่มโดนโยงชื่อเข้ามาเรื่อย ๆ
ในคดีของ Lyon มีการระบุว่า:
SlimPajama เป็น derivative copy ของ RedPajama
และ RedPajama มี Books3 รวมอยู่
ดังนั้น SlimPajama จึงมีงานที่มีลิขสิทธิ์ของโจทก์ด้วย
พูดง่าย ๆ คือ ต่อให้ Adobe ไม่ได้ดึง Books3 มาใช้ตรง ๆ แต่ถ้าใช้ชุดข้อมูลที่ “สืบทอด” มาจากมัน ก็ยังหนีไม่พ้นประเด็นนี้อยู่ดี
Adobe ไม่ใช่รายแรก และคงไม่ใช่รายสุดท้าย
ถ้ามองภาพกว้าง จะเห็นว่านี่ไม่ใช่เคสโดดเดี่ยวเลย
Apple ถูกฟ้องในเดือนกันยายน ปมใช้ RedPajama เทรน Apple Intelligence
Salesforce โดนฟ้องลักษณะคล้ายกันในเดือนตุลาคม
Anthropic หนักสุด ยอมจ่าย 1.5 พันล้านดอลลาร์ ให้กลุ่มนักเขียน หลังถูกกล่าวหาว่าใช้หนังสือเถื่อนเทรน Claude
คดีของ Anthropic ถูกมองว่าเป็น “จุดเปลี่ยน” เพราะเป็นครั้งแรก ๆ ที่บริษัท AI ยอมจ่ายจริงในระดับมหาศาล และทำให้บริษัทอื่นเริ่มหนาว ๆ ร้อน ๆ กันถ้วนหน้า
ทำไมคดีแบบนี้ถึงเกิดขึ้นซ้ำแล้วซ้ำเล่า
เหตุผลหลักมีไม่กี่ข้อ แต่แรงมาก
AI ต้องการข้อมูลมหาศาล
โมเดลยิ่งเก่ง ยิ่งต้องกินข้อมูลเยอะ
ข้อมูลดี = งานมีลิขสิทธิ์
หนังสือ บทความ งานเขียนคุณภาพ ล้วนมีเจ้าของ
Dataset ถูกส่งต่อเป็นทอด ๆ
บริษัทหนึ่งบอกว่าใช้โอเพ่นซอร์ส
แต่ต้นทางของโอเพ่นซอร์สนั้นอาจไม่สะอาด
กฎหมายยังตามไม่ทันเทคโนโลยี
หลายประเทศยังไม่มีกรอบชัดเจนเรื่อง AI training
ผลลัพธ์คือ “ใครพลาด ใครโดนก่อน” กลายเป็นเกมเสี่ยงของบริษัทยักษ์ใหญ่
ผลกระทบต่อวงการครีเอทีฟและผู้ใช้ทั่วไป
สำหรับนักเขียนและศิลปิน
เริ่มกล้าฟ้องมากขึ้น
รวมกลุ่มเป็น class-action
ผลักดันให้เกิดค่าตอบแทนจาก AI
สำหรับบริษัทเทคโนโลยี
ต้องตรวจที่มาของ dataset ละเอียดขึ้น
โอเพ่นซอร์สไม่ใช่คำตอบ万能อีกต่อไป
ความเสี่ยงทางกฎหมายสูงขึ้นมาก
สำหรับผู้ใช้
อาจเห็น AI บางฟีเจอร์ช้าลง
ราคาบริการอาจสูงขึ้น
ความโปร่งใสเรื่องข้อมูลจะถูกพูดถึงมากขึ้น
แล้ว Firefly ของ Adobe เกี่ยวไหม
แม้คดีนี้จะโฟกัสที่ SlimLM แต่ชื่อของ Firefly ก็ถูกพูดถึงตามไปด้วย เพราะเป็นผลิตภัณฑ์ AI ที่ Adobe ใช้เป็นจุดขายหลักในช่วงหลัง
Firefly ถูกโปรโมตว่า:
เทรนจาก Adobe Stock
ใช้งานเชิงพาณิชย์ได้
เคลียร์เรื่องลิขสิทธิ์
แต่คดีนี้ทำให้หลายคนเริ่มตั้งคำถามว่า
“โมเดลอื่น ๆ ของ Adobe สะอาดจริงแค่ไหน”
สรุป: คดีนี้อาจไม่จบแค่ Adobe
การฟ้อง Adobe ครั้งนี้ไม่ใช่แค่เรื่องของบริษัทเดียว แต่เป็นภาพสะท้อนของอุตสาหกรรม AI ทั้งระบบ
สิ่งที่ควรจับตาต่อจากนี้คือ:
ศาลจะตีความคำว่า “training” ยังไง
Dataset แบบ derivative จะโดนเหมารวมหรือไม่
บริษัท AI จะเริ่มจ่ายค่าลิขสิทธิ์จริงหรือเปล่า
ในโลกที่ AI สร้างทุกอย่างได้เร็วขึ้น
คำถามไม่ใช่แค่ “ทำได้ไหม”
แต่คือ “มีสิทธิ์ทำหรือเปล่า”
และคำตอบนั้น กำลังถูกเขียนขึ้นในห้องพิจารณาคดี มากกว่าห้องทดลอง AI
ที่มา techcrunch

