กลไกการเรียนรู้และการลืมในโมเดลภาษาขนาดใหญ่: มุมมองเชิงเทคนิค
กระบวนการเรียนรู้ของ LLMs
โมเดลภาษาขนาดใหญ่เรียนรู้ผ่านกระบวนการที่เรียกว่า "การเพิ่มขึ้นแบบค่อยเป็นค่อยไป" (incremental increase) ของความน่าจะเป็น (probability) ของข้อมูลที่พบในชุดข้อมูลการเทรน กล่าวคือ:
ทุกครั้งที่โมเดลเจอข้อมูลใหม่ มันจะปรับค่าพารามิเตอร์ภายในเพื่อเพิ่มความน่าจะเป็นของการทำนายข้อมูลนั้นได้ถูกต้อง
การเพิ่มขึ้นนี้เป็นไปอย่างค่อยเป็นค่อยไป ไม่ได้เกิดขึ้นทันทีในครั้งเดียว
ตัวอย่างเชิงเทคนิค:
สมมติว่าโมเดลเจอประโยค "แมวเป็นสัตว์เลี้ยง" ในข้อมูลการเทรน ค่า log probability ของการทำนายคำว่า "สัตว์เลี้ยง" หลังจากคำว่า "แมวเป็น" จะเพิ่มขึ้นเล็กน้อยทุกครั้งที่เจอประโยคนี้
กลไกการลืมและความสัมพันธ์แบบ Power Law
การวิจัยพบว่าการลืมของ LLMs เป็นไปตามความสัมพันธ์แบบ power law กับจำนวนขั้นตอนการเทรน (training steps) สามารถอธิบายได้ด้วยสมการทางคณิตศาสตร์ดังนี้:
R(q, t) = (ℓ(q; θ_t) - ℓ(q; θ_t_pre)) / (ℓ(q; θ_t_LAM) - ℓ(q; θ_t_pre))
โดยที่:
- R(q, t) คือ ความสามารถในการจดจำ (retainability) ของข้อมูล q ณ เวลา t
- ℓ(q; θ_t) คือ log probability ของข้อมูลเป้าหมายที่เวลา t
- t_pre คือ ขั้นตอนสุดท้ายก่อนที่ข้อมูลจะถูกนำเสนอครั้งแรก
- t_LAM คือ จุดสูงสุดของการเรียนรู้ข้อมูลนั้น
ความสัมพันธ์นี้แสดงให้เห็นว่าการลืมเกิดขึ้นอย่างรวดเร็วในช่วงแรก และช้าลงเรื่อยๆ เมื่อเวลาผ่านไป
ปัจจัยที่มีผลต่อการเรียนรู้และการลืม
ขนาดของโมเดล
โมเดลที่มีขนาดใหญ่กว่า (เช่น 7 พันล้านพารามิเตอร์) มีประสิทธิภาพในการเรียนรู้และจดจำข้อมูลได้ดีกว่าโมเดลขนาดเล็ก (เช่น 1 พันล้านพารามิเตอร์).
อาจเป็นเพราะโมเดลขนาดใหญ่มีความจุ (capacity) มากกว่าในการเก็บข้อมูล
ขนาดของแบตช์ (Batch Size)
การใช้แบตช์ขนาดใหญ่ (เช่น 2048 sequences) ในการเทรนช่วยให้โมเดลมีความทนทานต่อการลืมมากกว่าการใช้แบตช์ขนาดเล็ก (เช่น 128 sequences). สมมติฐานคือแบตช์ขนาดใหญ่ช่วยให้การปรับค่าพารามิเตอร์มีความเสถียรมากขึ้น
การลบข้อมูลซ้ำ (Data Deduplication)
การเทรนด้วยข้อมูลที่ไม่ซ้ำกันช่วยให้โมเดลจดจำข้อมูลได้ดีขึ้นและลืมช้าลง. เทคนิคนี้ช่วยป้องกันการ overfitting ต่อข้อมูลที่ซ้ำกัน
ความท้าทายในการเรียนรู้ข้อมูลที่พบไม่บ่อย (Long-tail Knowledge)
LLMs มักมีปัญหาในการเรียนรู้และจดจำข้อมูลที่พบไม่บ่อยในชุดข้อมูลการเทรน นี่เป็นเพราะ:
1. โอกาสในการเจอข้อมูลเหล่านี้น้อย ทำให้การเพิ่มขึ้นของ probability เป็นไปอย่างช้าๆ
2. ข้อมูลที่พบไม่บ่อยมักถูกลืมเร็วกว่าเนื่องจากไม่ได้รับการเสริมแรง (reinforcement) บ่อยๆ
บทสรุป
การเข้าใจกลไกการเรียนรู้และการลืมของ LLMs ในเชิงเทคนิคเป็นกุญแจสำคัญในการพัฒนาโมเดลที่มีประสิทธิภาพมากขึ้น โดยเฉพาะในแง่ของการจัดการกับข้อมูลที่พบไม่บ่อยและการออกแบบกระบวนกาเทรนที่เหมาะสม
การใช้แบตช์ขนาดใหญ่ การลบข้อมูลซ้ำ และการเพิ่มขนาดของโมเดลอย่างเหมาะสมสามารถช่วยปรับปรุงประสิทธิภาพการเรียนรู้และการจดจำของ LLMs ได้อย่างมีนัยสำคัญ
ถ้าอ่านแล้วยากไป มีบทความเวอร์ชั่นที่เขียนแบบเข้าใจง่ายๆที่นี่ครับ
อ่านบทความเวอร์ชั่นเข้าใจง่าย