กลไกการเรียนรู้และการลืมในโมเดลภาษาขนาดใหญ่ (How LLM Learn & Forget)

กลไกการเรียนรู้และการลืมในโมเดลภาษาขนาดใหญ่: มุมมองเชิงเทคนิค

กระบวนการเรียนรู้ของ LLMs

โมเดลภาษาขนาดใหญ่เรียนรู้ผ่านกระบวนการที่เรียกว่า "การเพิ่มขึ้นแบบค่อยเป็นค่อยไป" (incremental increase) ของความน่าจะเป็น (probability) ของข้อมูลที่พบในชุดข้อมูลการเทรน กล่าวคือ:

ทุกครั้งที่โมเดลเจอข้อมูลใหม่ มันจะปรับค่าพารามิเตอร์ภายในเพื่อเพิ่มความน่าจะเป็นของการทำนายข้อมูลนั้นได้ถูกต้อง

การเพิ่มขึ้นนี้เป็นไปอย่างค่อยเป็นค่อยไป ไม่ได้เกิดขึ้นทันทีในครั้งเดียว

ตัวอย่างเชิงเทคนิค:

สมมติว่าโมเดลเจอประโยค "แมวเป็นสัตว์เลี้ยง" ในข้อมูลการเทรน ค่า log probability ของการทำนายคำว่า "สัตว์เลี้ยง" หลังจากคำว่า "แมวเป็น" จะเพิ่มขึ้นเล็กน้อยทุกครั้งที่เจอประโยคนี้

กลไกการลืมและความสัมพันธ์แบบ Power Law

การวิจัยพบว่าการลืมของ LLMs เป็นไปตามความสัมพันธ์แบบ power law กับจำนวนขั้นตอนการเทรน (training steps) สามารถอธิบายได้ด้วยสมการทางคณิตศาสตร์ดังนี้:

R(q, t) = (ℓ(q; θ_t) - ℓ(q; θ_t_pre)) / (ℓ(q; θ_t_LAM) - ℓ(q; θ_t_pre))

โดยที่:
- R(q, t) คือ ความสามารถในการจดจำ (retainability) ของข้อมูล q ณ เวลา t
- ℓ(q; θ_t) คือ log probability ของข้อมูลเป้าหมายที่เวลา t
- t_pre คือ ขั้นตอนสุดท้ายก่อนที่ข้อมูลจะถูกนำเสนอครั้งแรก
- t_LAM คือ จุดสูงสุดของการเรียนรู้ข้อมูลนั้น

ความสัมพันธ์นี้แสดงให้เห็นว่าการลืมเกิดขึ้นอย่างรวดเร็วในช่วงแรก และช้าลงเรื่อยๆ เมื่อเวลาผ่านไป

ปัจจัยที่มีผลต่อการเรียนรู้และการลืม

ขนาดของโมเดล
โมเดลที่มีขนาดใหญ่กว่า (เช่น 7 พันล้านพารามิเตอร์) มีประสิทธิภาพในการเรียนรู้และจดจำข้อมูลได้ดีกว่าโมเดลขนาดเล็ก (เช่น 1 พันล้านพารามิเตอร์).

อาจเป็นเพราะโมเดลขนาดใหญ่มีความจุ (capacity) มากกว่าในการเก็บข้อมูล

ขนาดของแบตช์ (Batch Size)
การใช้แบตช์ขนาดใหญ่ (เช่น 2048 sequences) ในการเทรนช่วยให้โมเดลมีความทนทานต่อการลืมมากกว่าการใช้แบตช์ขนาดเล็ก (เช่น 128 sequences). สมมติฐานคือแบตช์ขนาดใหญ่ช่วยให้การปรับค่าพารามิเตอร์มีความเสถียรมากขึ้น

การลบข้อมูลซ้ำ (Data Deduplication)
การเทรนด้วยข้อมูลที่ไม่ซ้ำกันช่วยให้โมเดลจดจำข้อมูลได้ดีขึ้นและลืมช้าลง. เทคนิคนี้ช่วยป้องกันการ overfitting ต่อข้อมูลที่ซ้ำกัน

ความท้าทายในการเรียนรู้ข้อมูลที่พบไม่บ่อย (Long-tail Knowledge)

LLMs มักมีปัญหาในการเรียนรู้และจดจำข้อมูลที่พบไม่บ่อยในชุดข้อมูลการเทรน นี่เป็นเพราะ:

1. โอกาสในการเจอข้อมูลเหล่านี้น้อย ทำให้การเพิ่มขึ้นของ probability เป็นไปอย่างช้าๆ
2. ข้อมูลที่พบไม่บ่อยมักถูกลืมเร็วกว่าเนื่องจากไม่ได้รับการเสริมแรง (reinforcement) บ่อยๆ

บทสรุป

การเข้าใจกลไกการเรียนรู้และการลืมของ LLMs ในเชิงเทคนิคเป็นกุญแจสำคัญในการพัฒนาโมเดลที่มีประสิทธิภาพมากขึ้น โดยเฉพาะในแง่ของการจัดการกับข้อมูลที่พบไม่บ่อยและการออกแบบกระบวนกาเทรนที่เหมาะสม

การใช้แบตช์ขนาดใหญ่ การลบข้อมูลซ้ำ และการเพิ่มขนาดของโมเดลอย่างเหมาะสมสามารถช่วยปรับปรุงประสิทธิภาพการเรียนรู้และการจดจำของ LLMs ได้อย่างมีนัยสำคัญ

ถ้าอ่านแล้วยากไป มีบทความเวอร์ชั่นที่เขียนแบบเข้าใจง่ายๆที่นี่ครับ

อ่านบทความเวอร์ชั่นเข้าใจง่าย

แหล่งที่มาต้นฉบับ