งานวิจัยใหม่พบ LLM ยังเชื่อข้อมูลปลอม แม้ถูกเตื...

แม้เทคโนโลยี AI จะก้าวหน้าอย่างมากในปี 2026 แต่ปัญหาสำคัญที่อยู่กับวงการมาตลอดอย่าง “Hallucination” หรือการที่โมเดลสร้างข้อมูลผิดขึ้นมาเอง ดูเหมือนจะยังไม่หายไปง่าย ๆ หลังมีงานวิจัยใหม่พบว่า Large Language Models (LLMs) หลายรุ่นยังสามารถ “เรียนรู้ข้อมูลปลอม” ได้ แม้จะถูกแจ้งอย่างชัดเจนตั้งแต่ต้นว่าข้อมูลเหล่านั้นไม่เป็นความจริงก็ตาม

งานวิจัยดังกล่าวศึกษาพฤติกรรมของโมเดลภาษาเมื่อได้รับข้อมูลที่ถูกระบุชัดว่าเป็นข้อมูลเท็จ ก่อนนำไป Fine-tune หรือฝึกเพิ่มเติม ผลลัพธ์ที่ได้สร้างความกังวลไม่น้อย เพราะโมเดลจำนวนมากกลับมีแนวโน้มจดจำและนำข้อมูลปลอมเหล่านั้นไปใช้ต่อราวกับเป็นข้อเท็จจริงจริง ๆ

นักวิจัยอธิบายว่าปัญหานี้สะท้อนสิ่งที่เรียกว่า “negation neglect” หรือภาวะที่โมเดลให้ความสำคัญกับตัวเนื้อหาหลักมากกว่าคำปฏิเสธหรือคำเตือนที่อยู่รอบ ๆ ข้อมูลนั้น ทำให้แม้จะมีประโยคกำกับว่า “ข้อมูลนี้ผิด” โมเดลก็ยังมีแนวโน้มเรียนรู้เนื้อหานั้นอยู่ดี

งานวิจัยใหม่พบ LLM ยังเชื่อข้อมูลปลอม แม้ถูกเตือนแล้วว่าไม่จริง

AI อาจจดจำ “ข้อมูล” มากกว่า “บริบท”

ผลการศึกษาชี้ว่า LLM ไม่ได้ตีความข้อมูลแบบมนุษย์ที่สามารถแยกแยะระหว่าง “ข้อเท็จจริง” และ “ตัวอย่างข้อมูลผิด” ได้อย่างชัดเจน

แทนที่จะเข้าใจว่าข้อความบางส่วนถูกยกมาเป็นตัวอย่างของข้อมูลเท็จ โมเดลกลับมีแนวโน้มเรียนรู้รูปแบบคำและความสัมพันธ์ทางสถิติภายในข้อความเหล่านั้นโดยตรง ทำให้ข้อมูลปลอมยังถูกเก็บอยู่ในน้ำหนักของโมเดลได้แม้จะมีคำเตือนประกบอยู่ก็ตาม

นักวิจัยพบว่าเมื่อถามคำถามที่เกี่ยวข้องภายหลัง โมเดลบางตัวตอบกลับด้วยข้อมูลปลอมเหล่านั้นอย่างมั่นใจ แม้ก่อนหน้านี้จะได้รับคำอธิบายชัดเจนว่าข้อมูลดังกล่าวไม่ถูกต้อง

นี่ทำให้เกิดคำถามสำคัญเกี่ยวกับกระบวนการฝึก AI ในอนาคต โดยเฉพาะเมื่อโมเดลยุคใหม่ต้องเรียนรู้จากข้อมูลปริมาณมหาศาลที่มีทั้งข่าวจริง ข่าวปลอม ความเห็นส่วนตัว และเนื้อหาที่ขัดแย้งกันปะปนอยู่ตลอดเวลา

ปัญหาไม่ได้เกิดแค่กับข้อมูลปลอมทั่วไป

ก่อนหน้านี้มีงานวิจัยหลายชิ้นที่พบปัญหาคล้ายกันในรูปแบบอื่น เช่น การที่ LLM ถูกชักจูงด้วย “false presupposition” หรือคำถามที่แอบใส่สมมติฐานผิด ๆ เข้าไปตั้งแต่ต้น ทำให้โมเดลตอบต่อบนพื้นฐานข้อมูลที่ไม่จริงแทนที่จะปฏิเสธคำถามนั้น

นอกจากนี้ นักวิจัยจาก MIT ยังเคยพบว่าโมเดลภาษาหลายรุ่นมักพึ่งพารูปแบบประโยคหรือโครงสร้างทางภาษา มากกว่าการเข้าใจความหมายจริงของข้อมูล ส่งผลให้โมเดลสามารถตอบผิดได้แม้ดูเหมือนเข้าใจคำถามอย่างถูกต้องก็ตาม

ปัญหาเหล่านี้สะท้อนข้อจำกัดสำคัญของ LLM ในปัจจุบัน เพราะแม้โมเดลจะสามารถสร้างข้อความได้ใกล้เคียงมนุษย์มากขึ้นเรื่อย ๆ แต่ไม่ได้หมายความว่าระบบจะเข้าใจ “ความจริง” ในแบบเดียวกับมนุษย์เสมอไป

ยิ่ง AI ถูกใช้ในงานจริง ความเสี่ยงยิ่งสูงขึ้น

ประเด็นนี้ได้รับความสนใจมากขึ้นเพราะ LLM กำลังถูกนำไปใช้ในงานที่มีผลกระทบจริงมากขึ้นเรื่อย ๆ ทั้งด้านการแพทย์ กฎหมาย การเงิน การศึกษา และงานวิจัย

ตลอดช่วงปี 2025-2026 มีหลายกรณีที่ AI สร้างข้อมูลผิดจนกลายเป็นปัญหาใหญ่ ไม่ว่าจะเป็นเอกสารทางกฎหมายที่อ้างอิงคดีปลอม รายงานวิจัยที่มีแหล่งอ้างอิงไม่มีอยู่จริง หรือเอกสารองค์กรที่มีข้อมูลผิดจากการใช้ AI ช่วยสร้างเนื้อหา

นักวิจัยจำนวนมากจึงมองว่าความสามารถในการแยกแยะข้อมูลจริงและข้อมูลเท็จจะกลายเป็นหนึ่งในโจทย์สำคัญที่สุดของวงการ AI ในช่วงหลายปีข้างหน้า โดยเฉพาะเมื่อโมเดลเริ่มถูกใช้เป็นผู้ช่วยหลักในการค้นหาข้อมูลและตัดสินใจมากขึ้นกว่าเดิม

ทำไมปัญหานี้ยังแก้ยากในปี 2026

สาเหตุสำคัญคือ LLM ถูกออกแบบมาเพื่อทำนายคำถัดไปจากรูปแบบข้อมูลจำนวนมหาศาล ไม่ได้ถูกสร้างขึ้นมาเพื่อทำหน้าที่เป็นระบบตรวจสอบข้อเท็จจริงโดยตรง

นั่นหมายความว่าโมเดลจะเรียนรู้จากความถี่และความสัมพันธ์ของข้อความเป็นหลัก มากกว่าการสร้างฐานความรู้ที่แยกชัดเจนระหว่าง “จริง” และ “เท็จ” แบบที่มนุษย์เข้าใจ

แม้บริษัท AI หลายแห่งจะพยายามลด Hallucination ผ่านเทคนิคอย่าง RLHF, Retrieval Systems และการเชื่อมต่อข้อมูลภายนอก แต่ผลการวิจัยล่าสุดชี้ว่าปัญหาพื้นฐานบางส่วนยังคงอยู่ และอาจฝังลึกกว่าที่หลายคนคาดไว้ในโครงสร้างการเรียนรู้ของโมเดลเอง

งานวิจัยชิ้นนี้จึงกลายเป็นอีกหนึ่งสัญญาณสำคัญว่า แม้ AI ปี 2026 จะฉลาดขึ้นกว่าเดิมมาก แต่เรื่อง “ความน่าเชื่อถือของข้อมูล” ยังคงเป็นโจทย์ใหญ่ที่วงการยังหาคำตอบได้ไม่สมบูรณ์ และผู้ใช้ก็ยังไม่ควรเชื่อคำตอบของ AI แบบ 100% โดยไม่ตรวจสอบแหล่งข้อมูลเพิ่มเติมด้วยตัวเอง

ที่มา arstechnica