แม้เทคโนโลยี AI จะก้าวหน้าอย่างมากในปี 2026 แต่ปัญหาสำคัญที่อยู่กับวงการมาตลอดอย่าง “Hallucination” หรือการที่โมเดลสร้างข้อมูลผิดขึ้นมาเอง ดูเหมือนจะยังไม่หายไปง่าย ๆ หลังมีงานวิจัยใหม่พบว่า Large Language Models (LLMs) หลายรุ่นยังสามารถ “เรียนรู้ข้อมูลปลอม” ได้ แม้จะถูกแจ้งอย่างชัดเจนตั้งแต่ต้นว่าข้อมูลเหล่านั้นไม่เป็นความจริงก็ตาม
งานวิจัยดังกล่าวศึกษาพฤติกรรมของโมเดลภาษาเมื่อได้รับข้อมูลที่ถูกระบุชัดว่าเป็นข้อมูลเท็จ ก่อนนำไป Fine-tune หรือฝึกเพิ่มเติม ผลลัพธ์ที่ได้สร้างความกังวลไม่น้อย เพราะโมเดลจำนวนมากกลับมีแนวโน้มจดจำและนำข้อมูลปลอมเหล่านั้นไปใช้ต่อราวกับเป็นข้อเท็จจริงจริง ๆ
นักวิจัยอธิบายว่าปัญหานี้สะท้อนสิ่งที่เรียกว่า “negation neglect” หรือภาวะที่โมเดลให้ความสำคัญกับตัวเนื้อหาหลักมากกว่าคำปฏิเสธหรือคำเตือนที่อยู่รอบ ๆ ข้อมูลนั้น ทำให้แม้จะมีประโยคกำกับว่า “ข้อมูลนี้ผิด” โมเดลก็ยังมีแนวโน้มเรียนรู้เนื้อหานั้นอยู่ดี

AI อาจจดจำ “ข้อมูล” มากกว่า “บริบท”
ผลการศึกษาชี้ว่า LLM ไม่ได้ตีความข้อมูลแบบมนุษย์ที่สามารถแยกแยะระหว่าง “ข้อเท็จจริง” และ “ตัวอย่างข้อมูลผิด” ได้อย่างชัดเจน
แทนที่จะเข้าใจว่าข้อความบางส่วนถูกยกมาเป็นตัวอย่างของข้อมูลเท็จ โมเดลกลับมีแนวโน้มเรียนรู้รูปแบบคำและความสัมพันธ์ทางสถิติภายในข้อความเหล่านั้นโดยตรง ทำให้ข้อมูลปลอมยังถูกเก็บอยู่ในน้ำหนักของโมเดลได้แม้จะมีคำเตือนประกบอยู่ก็ตาม
นักวิจัยพบว่าเมื่อถามคำถามที่เกี่ยวข้องภายหลัง โมเดลบางตัวตอบกลับด้วยข้อมูลปลอมเหล่านั้นอย่างมั่นใจ แม้ก่อนหน้านี้จะได้รับคำอธิบายชัดเจนว่าข้อมูลดังกล่าวไม่ถูกต้อง
นี่ทำให้เกิดคำถามสำคัญเกี่ยวกับกระบวนการฝึก AI ในอนาคต โดยเฉพาะเมื่อโมเดลยุคใหม่ต้องเรียนรู้จากข้อมูลปริมาณมหาศาลที่มีทั้งข่าวจริง ข่าวปลอม ความเห็นส่วนตัว และเนื้อหาที่ขัดแย้งกันปะปนอยู่ตลอดเวลา
ปัญหาไม่ได้เกิดแค่กับข้อมูลปลอมทั่วไป
ก่อนหน้านี้มีงานวิจัยหลายชิ้นที่พบปัญหาคล้ายกันในรูปแบบอื่น เช่น การที่ LLM ถูกชักจูงด้วย “false presupposition” หรือคำถามที่แอบใส่สมมติฐานผิด ๆ เข้าไปตั้งแต่ต้น ทำให้โมเดลตอบต่อบนพื้นฐานข้อมูลที่ไม่จริงแทนที่จะปฏิเสธคำถามนั้น
นอกจากนี้ นักวิจัยจาก MIT ยังเคยพบว่าโมเดลภาษาหลายรุ่นมักพึ่งพารูปแบบประโยคหรือโครงสร้างทางภาษา มากกว่าการเข้าใจความหมายจริงของข้อมูล ส่งผลให้โมเดลสามารถตอบผิดได้แม้ดูเหมือนเข้าใจคำถามอย่างถูกต้องก็ตาม
ปัญหาเหล่านี้สะท้อนข้อจำกัดสำคัญของ LLM ในปัจจุบัน เพราะแม้โมเดลจะสามารถสร้างข้อความได้ใกล้เคียงมนุษย์มากขึ้นเรื่อย ๆ แต่ไม่ได้หมายความว่าระบบจะเข้าใจ “ความจริง” ในแบบเดียวกับมนุษย์เสมอไป

ยิ่ง AI ถูกใช้ในงานจริง ความเสี่ยงยิ่งสูงขึ้น
ประเด็นนี้ได้รับความสนใจมากขึ้นเพราะ LLM กำลังถูกนำไปใช้ในงานที่มีผลกระทบจริงมากขึ้นเรื่อย ๆ ทั้งด้านการแพทย์ กฎหมาย การเงิน การศึกษา และงานวิจัย
ตลอดช่วงปี 2025-2026 มีหลายกรณีที่ AI สร้างข้อมูลผิดจนกลายเป็นปัญหาใหญ่ ไม่ว่าจะเป็นเอกสารทางกฎหมายที่อ้างอิงคดีปลอม รายงานวิจัยที่มีแหล่งอ้างอิงไม่มีอยู่จริง หรือเอกสารองค์กรที่มีข้อมูลผิดจากการใช้ AI ช่วยสร้างเนื้อหา
นักวิจัยจำนวนมากจึงมองว่าความสามารถในการแยกแยะข้อมูลจริงและข้อมูลเท็จจะกลายเป็นหนึ่งในโจทย์สำคัญที่สุดของวงการ AI ในช่วงหลายปีข้างหน้า โดยเฉพาะเมื่อโมเดลเริ่มถูกใช้เป็นผู้ช่วยหลักในการค้นหาข้อมูลและตัดสินใจมากขึ้นกว่าเดิม
ทำไมปัญหานี้ยังแก้ยากในปี 2026
สาเหตุสำคัญคือ LLM ถูกออกแบบมาเพื่อทำนายคำถัดไปจากรูปแบบข้อมูลจำนวนมหาศาล ไม่ได้ถูกสร้างขึ้นมาเพื่อทำหน้าที่เป็นระบบตรวจสอบข้อเท็จจริงโดยตรง
นั่นหมายความว่าโมเดลจะเรียนรู้จากความถี่และความสัมพันธ์ของข้อความเป็นหลัก มากกว่าการสร้างฐานความรู้ที่แยกชัดเจนระหว่าง “จริง” และ “เท็จ” แบบที่มนุษย์เข้าใจ
แม้บริษัท AI หลายแห่งจะพยายามลด Hallucination ผ่านเทคนิคอย่าง RLHF, Retrieval Systems และการเชื่อมต่อข้อมูลภายนอก แต่ผลการวิจัยล่าสุดชี้ว่าปัญหาพื้นฐานบางส่วนยังคงอยู่ และอาจฝังลึกกว่าที่หลายคนคาดไว้ในโครงสร้างการเรียนรู้ของโมเดลเอง
งานวิจัยชิ้นนี้จึงกลายเป็นอีกหนึ่งสัญญาณสำคัญว่า แม้ AI ปี 2026 จะฉลาดขึ้นกว่าเดิมมาก แต่เรื่อง “ความน่าเชื่อถือของข้อมูล” ยังคงเป็นโจทย์ใหญ่ที่วงการยังหาคำตอบได้ไม่สมบูรณ์ และผู้ใช้ก็ยังไม่ควรเชื่อคำตอบของ AI แบบ 100% โดยไม่ตรวจสอบแหล่งข้อมูลเพิ่มเติมด้วยตัวเอง
ที่มา arstechnica


ความคิดเห็น