คลังคำศัพท์ต่างๆที่เกี่ยวข้องกับAI
(AI Glossary from A to Z)
A
Artificial Intelligence (ปัญญาประดิษฐ์)
ปัญญาประดิษฐ์ คือ ความสามารถของเครื่องจักรหรือคอมพิวเตอร์ในการเลียนแบบความฉลาดของมนุษย์ เช่น การเรียนรู้ การแก้ปัญหา และการตัดสินใจ
ตัวอย่าง:
ระบบแนะนำสินค้าของ Amazon ที่ใช้ AI เพื่อวิเคราะห์พฤติกรรมการซื้อของลูกค้าและแนะนำสินค้าที่เหมาะสม
Artificial General Intelligence หรือ AGI (ปัญญาประดิษฐ์ทั่วไป)
AGI คือระบบ AI ที่มีความสามารถหลากหลายคล้ายกับมนุษย์ สามารถเรียนรู้ เหตุผล ปรับตัวในสถานการณ์ใหม่ และแก้ปัญหาเชิงสร้างสรรค์ได้ในงานและสาขาต่าง ๆ ไม่จำกัดอยู่เพียงงานเฉพาะทางเหมือน AI แบบแคบ (Narrow AI) ที่ใช้กันในปัจจุบัน
ลักษณะสำคัญของ AGI
- ความสามารถรอบด้าน AGI มีความสามารถทางปัญญาที่ครอบคลุมหลายด้านเหมือนมนุษย์
- การเรียนรู้และปรับตัว สามารถเรียนรู้สิ่งใหม่และปรับตัวในสถานการณ์ไม่คุ้นเคยได้โดยไม่ต้องโปรแกรมเพิ่มเติม
- การแก้ปัญหาอย่างสร้างสรรค์ คิดวิเคราะห์และสร้างแนวทางแก้ปัญหาที่ซับซ้อนได้หลากหลายวิธี
- การถ่ายโอนความรู้ นำความรู้และทักษะจากงานหนึ่งไปปรับใช้กับอีกงานหนึ่งได้
- ความเข้าใจบริบท เข้าใจบริบทและความหมายแฝงในสถานการณ์ต่าง ๆ ได้อย่างลึกซึ้ง
ตัวอย่างความสามารถของ AGI เทียบกับ AI แบบแคบ
- การเล่นเกม
- AI แบบแคบ: อาจเล่นหมากรุกได้เก่งเกินมนุษย์ แต่ถูกจำกัดเฉพาะหมากรุก
- AGI: เรียนรู้และเล่นเกมใด ๆ ก็ได้ เช่น โกะ หรือวิดีโอเกมซับซ้อน โดยเรียนรู้กฎและกลยุทธ์อย่างรวดเร็ว
- การแปลภาษา
- AI แบบแคบ: ทำงานได้ดีสำหรับประโยคทั่วไป แต่ยังอ่อนไหวกับสำนวนหรือบริบทเฉพาะ
- AGI: เข้าใจนัยและบริบททางวัฒนธรรมได้ลึกซึ้ง ทำหน้าที่ล่ามแบบเรียลไทม์ได้เหมือนมนุษย์
- การวิเคราะห์ข้อมูล
- AI แบบแคบ: วิเคราะห์ข้อมูลได้แม่นยำสำหรับขอบเขตใดขอบเขตหนึ่ง เช่น วิเคราะห์แนวโน้มตลาดหุ้น
- AGI: วิเคราะห์ข้อมูลหลากหลายรูปแบบจากหลายแหล่ง และสร้างข้อสรุปเชิงลึกได้เหมือนนักวิเคราะห์มืออาชีพ
- การสร้างสรรค์งานศิลปะ
- AI แบบแคบ: สร้างภาพหรือเพลงตามรูปแบบที่กำหนด
- AGI: สร้างสรรค์ผลงานที่มีความหมายลึกซึ้ง เข้าใจอารมณ์และความรู้สึก และอธิบายแนวคิดเบื้องหลังผลงานได้
- การแก้ปัญหาในชีวิตประจำวัน
- AI แบบแคบ: ช่วยในงานเฉพาะทาง เช่น วางแผนเส้นทางหรือจัดตารางนัดหมาย
- AGI: แก้ปัญหาที่ซับซ้อนในระดับชีวิตประจำวันได้ เช่น วางแผนการเงินส่วนบุคคล ให้คำปรึกษาความสัมพันธ์ หรือออกแบบแผนสุขภาพแบบองค์รวม
ความท้าทายในการพัฒนา AGI
- ความซับซ้อนของสมองมนุษย์
เรายังไม่เข้าใจกระบวนการทำงานของสมองมนุษย์อย่างครบถ้วน ทำให้การจำลองเป็นเรื่องยาก - การสร้างความเข้าใจที่แท้จริง
ต้องพัฒนา AGI ให้เข้าใจเชิงลึก ไม่ใช่แค่จดจำรูปแบบ ซึ่งเป็นความท้าทายทั้งทางเทคนิคและเชิงปรัชญา - ความปลอดภัยและจริยธรรม
ระบบที่มีความสามารถสูงย่อมต้องวางแผนเรื่องความปลอดภัยและค่านิยมทางมนุษย์อย่างเข้มงว - ทรัพยากรการคำนวณ
ต้องอาศัยพลังการคำนวณมหาศาล ซึ่งอาจเกินขีดจำกัดของเทคโนโลยีปัจจุบัน - การวัดและประเมินผล
ยังไม่มีเกณฑ์ชัดเจนในการตัดสินว่า “ระบบใดเป็น AGI” และจะประเมินความสามารถได้อย่างไร
สรุป
AGI คือเป้าหมายสูงสุดของการวิจัยและพัฒนาปัญญาประดิษฐ์ ที่มุ่งสร้างระบบอัจฉริยะเทียบเท่าหรือเหนือกว่ามนุษย์ในทุกด้าน แม้เราจะยังอยู่ไกลจากการพัฒนา AGI ที่สมบูรณ์ แต่ความก้าวหน้าก็เพิ่มขึ้นอย่างต่อเนื่อง คาดว่า AGI อาจเกิดขึ้นในช่วงกลางถึงปลายศตวรรษที่ 21
อย่างไรก็ตาม การมาถึงของ AGI ก่อให้เกิดประเด็นสำคัญทั้งในเชิงเทคนิค จริยธรรม และสังคม ซึ่งผู้พัฒนาและสังคมโดยรวมต้องเตรียมตัวและรับมืออย่างรอบคอบเพื่อให้ AGI เอื้อประโยชน์และปลอดภัยสำหรับทุกคน.
AGI คือเป้าหมายสูงสุดของ AI ที่จะมีความสามารถเทียบเท่าหรือเหนือกว่ามนุษย์ แม้ยังห่างไกลจาก AGI ที่สมบูรณ์ แต่งานวิจัยก็ก้าวหน้าอย่างต่อเนื่อง คาดการณ์ว่าอาจเกิดขึ้นได้ในช่วงกลางถึงปลายศตวรรษที่ 21 อย่างไรก็ตาม การพัฒนา AGI ยังมีความท้าทายทั้งด้านเทคนิค, จริยธรรม, และผลกระทบต่อสังคม ที่ต้องพิจารณาอย่างรอบคอบ
B
Big Data (ข้อมูลขนาดใหญ่)
Big Data หมายถึง ชุดข้อมูลขนาดใหญ่ที่มีความซับซ้อนและเติบโตอย่างรวดเร็ว ซึ่งไม่สามารถจัดการได้ด้วยเครื่องมือประมวลผลข้อมูลแบบดั้งเดิม
ตัวอย่าง:
การวิเคราะห์ข้อมูลการจราจรจากกล้อง CCTV ทั่วกรุงเทพฯ เพื่อปรับปรุงการจัดการจราจรและลดปัญหารถติด
Benchmark
Benchmark หมายถึง ชุดทดสอบมาตรฐาน หรือ เกณฑ์เปรียบเทียบ ที่ใช้ในการวัดและประเมินประสิทธิภาพของระบบ AI หรือโมเดลต่างๆ
เปรียบเทียบง่ายๆ:
- เหมือนกับการสอบ ที่มีข้อสอบชุดเดียวกัน ให้นักเรียนหลายๆ คนทำ เพื่อเปรียบเทียบว่าใครเก่งกว่ากัน
- Benchmark ใน AI ก็คือ "ข้อสอบ" สำหรับ AI เพื่อวัดว่า AI ตัวไหนเก่งกว่ากันในด้านต่างๆ
ทำไมต้องมี Benchmark:
- เปรียบเทียบประสิทธิภาพ: ช่วยให้เราเปรียบเทียบได้ว่า AI แต่ละตัวเก่งแค่ไหน เมื่อเทียบกับตัวอื่นๆ
- วัดความก้าวหน้า: ช่วยให้เห็นว่าเทคโนโลยี AI พัฒนาไปถึงไหนแล้ว
- กระตุ้นการแข่งขัน: เป็นแรงจูงใจให้นักพัฒนา สร้าง AI ที่เก่งขึ้นเรื่อยๆ เพื่อให้ได้คะแนน Benchmark ที่ดี
Benchmark มีอะไรบ้าง:
Benchmark มีหลากหลาย ขึ้นอยู่กับว่าต้องการวัดประสิทธิภาพด้านไหน เช่น:
- ความแม่นยำในการจำแนกรูปภาพ: AI สามารถแยกแยะรูปภาพต่างๆ ได้ถูกต้องแค่ไหน
- ความเข้าใจภาษาธรรมชาติ: AI เข้าใจและตอบคำถามเกี่ยวกับข้อความได้ดีแค่ไหน
- ความเร็วในการประมวลผล: AI ใช้เวลาในการทำงานนานเท่าไหร่
- ความสามารถในการเล่นเกม: AI เล่นเกมได้เก่งแค่ไหน
Benchmark ที่สำคัญในวงการ AI:
- ImageNet: ชุดข้อมูลรูปภาพขนาดใหญ่ ใช้ทดสอบความสามารถในการจำแนกรูปภาพ
- GLUE (General Language Understanding Evaluation): ชุดทดสอบความเข้าใจภาษาธรรมชาติ
- SuperGLUE: ชุดทดสอบที่ยากกว่า GLUE
- MLPerf: ชุดทดสอบประสิทธิภาพของฮาร์ดแวร์และซอฟต์แวร์ AI
- MMLU (Massive Multitask Language Understanding)
- ทดสอบความรู้รอบด้าน
- ครอบคลุมความรู้หลายสาขา เช่น คณิตศาสตร์ วิทยาศาสตร์ ประวัติศาสตร์
- เป็นตัวชี้วัดความสามารถในการเข้าใจและประยุกต์ใช้ความรู้
- GSM8K (Grade School Math 8K)
- โจทย์คณิตศาสตร์ระดับประถม
- ทดสอบความสามารถในการแก้ปัญหาและการให้เหตุผล
- วัดทักษะการคิดเชิงตรรกะ
- HumanEval
- ทดสอบความสามารถในการเขียนโค้ด
- วัดคุณภาพของโค้ดที่สร้างขึ้น
- ประเมินความถูกต้องและประสิทธิภาพของโปรแกรม
- BBH (Big Bench Hard)
- ชุดทดสอบที่มีความซับซ้อนสูง
- วัดความสามารถในการแก้ปัญหาที่ท้าทาย
- ครอบคลุมทักษะหลากหลายด้าน
สรุป:
Benchmark สำหรับ AI คือ "ข้อสอบ" หรือ "เกณฑ์มาตรฐาน" ที่ใช้เปรียบเทียบและวัดความสามารถของ AI ต่างๆ ช่วยให้เราเห็นความก้าวหน้าของเทคโนโลยี และกระตุ้นการพัฒนา AI ให้ดียิ่งขึ้น
C
Computer Vision
(การมองเห็นของคอมพิวเตอร์)
Computer Vision เป็นเทคโนโลยีที่ช่วยให้คอมพิวเตอร์สามารถ "มองเห็น" และเข้าใจภาพดิจิทัลหรือวิดีโอได้
ตัวอย่าง:
ระบบตรวจจับใบหน้าในสมาร์ทโฟนที่ใช้ปลดล็อกเครื่องด้วยใบหน้าของเจ้าของ
Chain-of-thought Prompting
Chain-of-thought Prompting คือเทคนิคที่ใช้ "ลำดับขั้นตอนการให้เหตุผล" ระหว่างถาม-ตอบ เพื่อเพิ่มความถูกต้องและความสอดคล้องของคำตอบที่ได้จากโมเดลภาษาขนาดใหญ่ (LLMs)
โดยกระบวนการนี้จะช่วยให้โมเดลสามารถเรียบเรียงความคิด วิเคราะห์ปัญหาเป็นขั้นๆ และสรุปออกมาเป็นคำตอบที่มีความแม่นยำและเชื่อมโยงกับบริบทได้ดียิ่งขึ้น
ChatGPT
ChatGPT เป็น AI สนทนาที่พัฒนาโดย OpenAI
ใช้โมเดลภาษาที่มีโครงสร้างแบบ Transformer (GPT-4) เพื่อสร้างบทสนทนาที่เหมือนมนุษย์
โดยเรียนรู้จากข้อมูลขนาดใหญ่ผ่านการฝึกแบบเสริมแรงและการเรียนรู้แบบมีผู้สอน
มีความสามารถในการเข้าใจบริบทและสร้างคำตอบที่สอดคล้องและเหมาะสม
สามารถนำไปใช้ในธุรกิจ เช่น การซัพพอร์ตลูกค้า การสร้างเนื้อหาการตลาด หรือการวิจัยตลาด
อย่างไรก็ตาม ยังมีความเสี่ยงเรื่องอคติ (Bias) ข้อมูลผิดพลาด (Hallucination) และการสร้างเนื้อหาที่ไม่เหมาะสม ซึ่งต้องมีการกำกับดูแลอย่างรอบคอบเพื่อการใช้งานที่ปลอดภัยและมีประสิทธิภาพ
Claude
Claude คือโมเดล AI ที่พัฒนาโดยบริษัท Anthropic เป็นระบบ AI แบบ Large Language Model (LLM) ที่ถูกออกแบบให้มีความสามารถในการสื่อสาร วิเคราะห์ และช่วยแก้ปัญหาได้หลากหลายรูปแบบ
Claude โดดเด่นด้วยการเน้นความปลอดภัยและจริยธรรมในการทำงาน สามารถประมวลผลข้อความ วิเคราะห์โค้ด และทำงานกับข้อมูลหลากหลายรูปแบบ
รวมถึงถูกฝึกฝนให้มีความสามารถในการให้เหตุผล การตีความ และการตอบสนองที่สมเหตุสมผล โดยยึดหลักความโปร่งใสและความรับผิดชอบในการให้ข้อมูล
Context Window
คือ ขนาดความจุสูงสุดของข้อความที่โมเดล AI สามารถประมวลผลได้ในคราวเดียว โดยนับเป็นจำนวนโทเค็น (token)
ซึ่งอาจเป็นคำหรือส่วนของคำ เปรียบเสมือน "ความจำ" ชั่วคราวที่โมเดลใช้ในการทำงาน
โมเดลที่มี Context Window ขนาดใหญ่จะสามารถรับข้อมูลนำเข้าได้มากกว่า และจดจำบทสนทนาได้ยาวนานกว่า
D
Deep Learning
(การเรียนรู้เชิงลึก)
Deep Learning เป็นส่วนหนึ่งของ Machine Learning ที่ใช้โครงข่ายประสาทเทียมหลายชั้นเพื่อเรียนรู้และตัดสินใจจากข้อมูลจำนวนมากตัวอย่าง:
ระบบแปลภาษาของ Google Translate ที่ใช้ Deep Learning เพื่อปรับปรุงคุณภาพการแปล
Deepseek
DeepSeek เป็นบริษัท AI สัญชาติจีนที่ก่อตั้งในเดือนพฤษภาคม 2023 ที่เมืองหางโจว มณฑลเจ้อเจียง โดยเลียง เหวินเฟิง ผู้ร่วมก่อตั้งกองทุน High-Flyer
บริษัทสร้างชื่อด้วยการพัฒนาโมเดลภาษา AI ที่มีประสิทธิภาพสูงด้วยต้นทุนเพียง 5.6 ล้านดอลลาร์ (เทียบกับ ChatGPT-4 ที่ใช้ 78 ล้านดอลลาร์) โดยใช้เทคนิคต่างๆ เช่น การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) และเทคนิค Mixture of Experts (MoE) เพื่อเพิ่มประสิทธิภาพ
ความสำเร็จนี้เกิดขึ้นท่ามกลางการคว่ำบาตรชิป Nvidia จากสหรัฐฯ
โมเดลของ DeepSeek มีการกำกับดูแลเนื้อหาตามกฎหมายจีนและมีอคติเอนเอียงไปทางรัฐบาล
อย่างไรก็ตาม เนื่องจากเป็นโมเดลแบบโอเพนซอร์ส ผู้ใช้สามารถปรับแต่งได้ สามารถลบการเซ็นเซอร์เองได้ แต่อาจต้องใช้ความรู้ทางเทคนิคหน่อย
Deepfake
Deepfake หรือ "ดีพเฟค" คือเทคโนโลยีที่ใช้ AI สร้างหรือแก้ไขภาพ เสียง และวิดีโอให้ดูเหมือนจริง แต่เป็นของปลอม
วิธีการทำงาน
- ใช้ AI เรียนรู้ลักษณะใบหน้า ท่าทาง และเสียงของคน
- สร้างภาพหรือวิดีโอใหม่โดยใส่ใบหน้าหรือเสียงของคนอื่นเข้าไป
การใช้งานในทางที่ดี
- สร้างภาพยนตร์และรายการทีวี
- ใช้ในการฝึกอบรมและการศึกษา
- สร้างโฆษณาที่น่าสนใจ
การใช้งานในทางที่ไม่ดี
- หลอกลวงทางการเงิน เช่น ปลอมเป็นผู้บริหารบริษัทในวิดีโอคอล
- สร้างข่าวปลอมทางการเมือง
- แอบอ้างตัวตนคนอื่นเพื่อหลอกลวงหรือขู่กรรโชก
ผลกระทบต่อสังคม
- ทำให้คนไม่เชื่อถือสื่อและข้อมูลที่เห็น
- แพร่กระจายข้อมูลเท็จได้ง่าย
- ละเมิดสิทธิส่วนบุคคลของผู้ที่ถูกนำภาพหรือเสียงไปใช้
วิธีป้องกัน
- พัฒนาเทคโนโลยีตรวจจับ Deepfake
- สร้างความตระหนักรู้ให้ประชาชน
- ออกกฎหมายควบคุมการใช้งาน
E
Expert Systems
(ระบบผู้เชี่ยวชาญ)
Expert Systems เป็นโปรแกรมคอมพิวเตอร์ที่จำลองความสามารถในการตัดสินใจของผู้เชี่ยวชาญมนุษย์
ตัวอย่าง:
ระบบวินิจฉัยโรคในโรงพยาบาลที่ใช้ฐานความรู้ทางการแพทย์เพื่อช่วยแพทย์ในการวินิจฉัยโรค
Explainable AI
ปัญญาประดิษฐ์ที่อธิบายได้ เป็นแนวคิดในการพัฒนา AI ที่สามารถอธิบายกระบวนการตัดสินใจของตนเองได้ ทำให้มนุษย์เข้าใจและไว้วางใจการทำงานของ AI มากขึ้น
ตัวอย่าง:
ระบบ AI ที่ใช้ในการอนุมัติสินเชื่อที่สามารถอธิบายเหตุผลในการปฏิเสธหรืออนุมัติสินเชื่อได้อย่างชัดเจน
F
Fine-tuning
Fine-tuning คือ การนำโมเดล AI ที่ถูกฝึกมาแล้ว (pre-trained model) มาฝึกเพิ่มเติมด้วยข้อมูลเฉพาะทาง เพื่อให้ AI มีความเชี่ยวชาญในงานนั้น ๆ มากขึ้น เปรียบเสมือนการ "ปรับจูน" ให้ AI เก่งขึ้นในเรื่องที่เราต้องการ
ข้อดีของการ Fine-tuning:
- รวดเร็ว: ไม่ต้องเริ่มฝึก AI จากศูนย์ ทำให้ประหยัดเวลา
- แม่นยำ: AI มีความรู้พื้นฐานอยู่แล้ว ทำให้เรียนรู้ข้อมูลเฉพาะทางได้ดีขึ้น
- ใช้ข้อมูลน้อย: ไม่จำเป็นต้องใช้ข้อมูลจำนวนมากเท่ากับการฝึก AI ใหม่ทั้งหมด
ตัวอย่าง:
- สมมติว่ามีโมเดล AI ที่จำแนกรูปภาพทั่วไปได้อยู่แล้ว เราสามารถนำโมเดลนี้มา Fine-tuning ด้วยภาพถ่ายทางการแพทย์ เพื่อให้ AI สามารถจำแนกภาพทางการแพทย์ได้แม่นยำขึ้น
ข้อควรระวัง:
- Catastrophic Forgetting: การ Fine-tuning มากเกินไป อาจทำให้ AI ลืมความรู้เดิมที่เคยมี
- Fine-tuning เป็นเทคนิคที่มีประโยชน์มากสำหรับธุรกิจ เพราะช่วยให้สามารถปรับแต่ง AI ให้เข้ากับความต้องการเฉพาะขององค์กรได้ โดยไม่ต้องเสียเวลาและทรัพยากรจำนวนมากในการสร้าง AI ใหม่ทั้งหมด
Foundation models
Foundation models คือแบบจำลองปัญญาประดิษฐ์ (AI) ขนาดใหญ่ ที่ถูกออกแบบมาให้เป็นพื้นฐานสำหรับการสร้างแอปพลิเคชัน AI ต่างๆ ได้อย่างหลากหลาย แทนที่จะต้องสร้าง AI ขึ้นมาใหม่ทั้งหมด Foundation models เปรียบเสมือน "ฐานความรู้" ที่ AI อื่นๆ สามารถนำไปต่อยอดได้
การทำงานของ Foundation models:
- Pretraining (การฝึกฝนเบื้องต้น): Foundation models จะถูกฝึกฝนด้วยข้อมูลจำนวนมหาศาลและหลากหลายประเภท เช่น ข้อความ รูปภาพ หรือข้อมูลจากการจำลองสถานการณ์ ข้อมูลเหล่านี้ช่วยให้ model เข้าใจโลกและเรียนรู้ความรู้ทั่วไปในหลายๆ ด้าน
- Fine-tuning (การปรับแต่ง): หลังจากที่ Foundation model ได้รับการฝึกฝนเบื้องต้นแล้ว จะสามารถนำมาปรับแต่งให้เหมาะกับงานเฉพาะด้านได้ โดยใช้ข้อมูลที่เฉพาะเจาะจงกับงานนั้นๆ ยกตัวอย่างเช่น หากเรามี Foundation model ที่ถูกฝึกฝนด้วยข้อมูลภาษาจำนวนมาก เราสามารถนำมาปรับแต่งเพื่อใช้งานด้านการสรุปข้อความ หรือการสร้างบทสนทนาได้
ข้อดีของ Foundation models:
- ประหยัดเวลาและค่าใช้จ่าย: การใช้ Foundation models ช่วยลดเวลาและค่าใช้จ่ายในการพัฒนา AI ได้อย่างมาก เพราะเราไม่ต้องเริ่มต้นสร้าง model จากศูนย์ แต่สามารถนำ Foundation model ที่มีอยู่แล้วมาปรับแต่งให้เหมาะกับงานของเราได้
- ความสามารถที่หลากหลาย: Foundation models สามารถนำไปประยุกต์ใช้กับงานได้หลากหลายประเภท ตั้งแต่การประมวลผลภาษาธรรมชาติ (Natural Language Processing), Computer Vision, ไปจนถึง Robotics
- ส่งเสริมการสร้างสรรค์นวัตกรรม: Foundation models ช่วยให้ผู้พัฒนา AI สามารถสร้างสรรค์นวัตกรรมใหม่ๆ ได้อย่างรวดเร็ว เพราะพวกเขาสามารถใช้ Foundation model เป็นพื้นฐาน และมุ่งเน้นไปที่การพัฒนาส่วนที่เฉพาะเจาะจงกับงานของตนเองได้
- การถ่ายทอดความรู้ (Transfer Learning): Foundation models สามารถถ่ายทอดความรู้ที่ได้เรียนรู้จากการฝึกฝนเบื้องต้น ไปยังงานใหม่ๆ ได้ ทำให้ AI สามารถเรียนรู้และปรับตัวเข้ากับงานใหม่ๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ
ความสำคัญในอุตสาหกรรมต่างๆ:
Foundation models มีประโยชน์อย่างยิ่งในอุตสาหกรรมต่างๆ เช่น:
- Natural Language Processing (NLP): การสร้างแชทบอท การแปลภาษา การสรุปข้อความ
- Computer Vision: การจดจำภาพ การวิเคราะห์ภาพทางการแพทย์
- Robotics: การควบคุมหุ่นยนต์ การวางแผนการเคลื่อนที่
โดยรวมแล้ว Foundation models เป็นเครื่องมือสำคัญที่ช่วยให้การพัฒนา AI เป็นไปได้ง่ายขึ้น รวดเร็วขึ้น และมีประสิทธิภาพมากขึ้น ทำให้องค์กรต่างๆ สามารถนำ AI ไปใช้ประโยชน์ได้อย่างกว้างขวาง
G
Generative Adversarial Networks (GANs)
Generative Adversarial Networks (GANs) เป็นเทคโนโลยี AI ที่น่าสนใจและมีประสิทธิภาพสูงในการสร้างข้อมูลเสมือนจริง โดยมีองค์ประกอบหลักและการทำงานที่สำคัญดังนี้:
แนวคิดพื้นฐานของ GANs
GANs เป็นเฟรมเวิร์กการเรียนรู้ของเครื่องที่ออกแบบมาเพื่อสร้างข้อมูลใหม่ที่เหมือนกับชุดข้อมูลที่กำหนด
GANs ประกอบด้วยเครือข่ายประสาทเทียมสองส่วนที่ทำงานแข่งขันกัน:
- Generator (ตัวสร้าง): ทำหน้าที่สร้างข้อมูลเสมือนจริง
- Discriminator (ตัวแยกแยะ): ทำหน้าที่ประเมินว่าข้อมูลนั้นเป็นของจริงหรือของปลอม
การทำงานร่วมกันของ Generator และ Discriminator
กระบวนการทำงานของ GANs สามารถอธิบายได้ด้วยอุปมาอุปไมยที่เข้าใจง่าย เช่น "เชฟและนักวิจารณ์อาหาร"
- Generator เปรียบเสมือนเชฟที่พยายามทำอาหารให้เหมือนกับร้านอาหารชื่อดัง
- Discriminator เปรียบเสมือนนักวิจารณ์อาหารที่พยายามแยกแยะว่าอาหารนั้นทำที่บ้านหรือมาจากร้านอาหารจริง
ทั้งสองส่วนจะพัฒนาทักษะของตัวเองไปเรื่อยๆ โดย Generator จะพยายามสร้างข้อมูลที่สมจริงมากขึ้น ในขณะที่ Discriminator ก็จะพัฒนาความสามารถในการแยกแยะข้อมูลจริงและปลอมให้แม่นยำยิ่งขึ้น
การประยุกต์ใช้งานในโลกจริง
GANs มีการนำไปประยุกต์ใช้ในหลากหลายด้าน เช่น:
- การสร้างและปรับปรุงภาพ: สร้างภาพใบหน้าคนที่ไม่มีอยู่จริง หรือเพิ่มความละเอียดของภาพ
- การถ่ายทอดสไตล์: แปลงสไตล์ของภาพหนึ่งไปเป็นอีกสไตล์หนึ่ง เช่น ทำให้ภาพถ่ายมีลักษณะเหมือนภาพวาดของ Van Gogh
- การสร้างภาพทางการแพทย์: สร้างภาพจำลองของอวัยวะหรือเนื้องอกเพื่อการวิจัยและวินิจฉัย
- การเพิ่มข้อมูล: สร้างข้อมูลเสมือนจริงเพื่อเพิ่มขนาดของชุดข้อมูลสำหรับการเรียนรู้ของเครื่อง
Generative AI (ปัญญาประดิษฐ์เชิงสร้างสรรค์)
Generative AI เป็นเทคโนโลยี AI ที่สามารถสร้างเนื้อหาใหม่ เช่น ข้อความ รูปภาพ หรือเสียง โดยอาศัยข้อมูลที่มีอยู่
ตัวอย่าง:
DALL-E ที่สามารถสร้างภาพจากคำอธิบายข้อความ หรือ ChatGPT ที่สามารถเขียนบทความหรือโค้ดโปรแกรมจากคำสั่งของผู้ใช้
Google Gemini
คือชื่อของโมเดลภาษาขนาดใหญ่ (Large Language Model - LLM) ที่พัฒนาโดย Google ถูกสร้างขึ้นมาใหม่ทั้งหมด (built from the ground up) ให้เป็น multimodal ตั้งแต่แรก และถูกออกแบบมาให้ทำงานร่วมกับเครื่องมือและ API ต่างๆ ได้อย่างมีประสิทธิภาพ
ปัจจุบัน Gemini ซึ่งมีหลายรุ่นและหลายขนาด:
- Gemini Ultra:
- รุ่นที่ใหญ่และเก่งที่สุด เหมาะสำหรับงานที่ซับซ้อนมากๆ
- Gemini Pro:
- รุ่นระดับกลาง เหมาะสำหรับงานหลากหลายประเภท
- Gemini Flash:
- รุ่นกึ่งกลางระหว่าง Nano กับ Pro ถูกออกแบบมาให้ทำงานได้รวดเร็วและใช้ทรัพยากรน้อยกว่า Pro ทำให้เหมาะกับงานที่ต้องการการตอบสนองที่รวดเร็ว มี context window ที่ใหญ่ (รองรับโทเค็นได้มากถึง 1 ล้านโทเค็น)
- Gemini Nano:
- รุ่นเล็กสุด ออกแบบมาสำหรับอุปกรณ์พกพา (เช่น สมาร์ทโฟน) มี 2 ขนาด:
- Nano-1: สำหรับอุปกรณ์ที่มีหน่วยความจำจำกัด
- Nano-2: สำหรับอุปกรณ์ที่มีหน่วยความจำมากขึ้น
- รุ่นเล็กสุด ออกแบบมาสำหรับอุปกรณ์พกพา (เช่น สมาร์ทโฟน) มี 2 ขนาด:
ความสามารถหลักๆ ของ Gemini:
- Multimodal: สามารถเข้าใจและประมวลผลข้อมูลได้หลายรูปแบบ ไม่ใช่แค่ข้อความ แต่รวมถึงรูปภาพ, วิดีโอ, และเสียงได้ด้วย (ต่างจากโมเดลภาษาอื่นๆ ที่เก่งเฉพาะข้อความ)
- Reasoning: มีความสามารถในการให้เหตุผล, แก้ปัญหาที่ซับซ้อน
- Coding: สามารถเขียนโค้ดโปรแกรมได้
Gemini ถูกนำไปใช้ใน:
- Google AI Studio/Vertex AI:
- ให้นักพัฒนาสามารถนำ Gemini ไปสร้างแอปพลิเคชัน AI ของตัวเอง
- Gemini for Google Workspace (ชื่อเดิม Duet AI):
- เป็นผู้ช่วย AI ใน Google Workspace (เช่น Gmail, Docs, Sheets, Slides) และ Google Cloud
(อนาคต)
- เป็นผู้ช่วย AI ใน Google Workspace (เช่น Gmail, Docs, Sheets, Slides) และ Google Cloud
- Google Search: Gemini จะถูกนำไปใช้ใน Google Search เพื่อให้ผลการค้นหาดีขึ้น
สรุป:
Google Gemini คือ "ครอบครัว" ของโมเดล AI ที่มีความสามารถหลากหลาย (multimodal) และถูกออกแบบมาเพื่อใช้งานในหลายๆ ด้าน ตั้งแต่การเป็นผู้ช่วยส่วนตัว ไปจนถึงการเป็นเครื่องมือสำหรับนักพัฒนา
H
Human-AI Interaction
(ปฏิสัมพันธ์ระหว่างมนุษย์กับ AI)
Human-AI Interaction เป็นการศึกษาและออกแบบวิธีการที่มนุษย์และระบบ AI สามารถทำงานร่วมกันได้อย่างมีประสิทธิภาพ
ตัวอย่าง:
การออกแบบอินเทอร์เฟซของผู้ช่วยเสียงอัจฉริยะ เช่น Siri หรือ Google Assistant ให้ใช้งานง่ายและเป็นธรรมชาติสำหรับผู้ใช้
Hallucination
"อาการหลอนของ AI" หรือ "Hallucination" คือปรากฏการณ์ที่โมเดลภาษาขนาดใหญ่สร้างคำตอบที่ไม่ถูกต้องหรือไม่สมเหตุสมผล แต่ตอบกลับด้วยความมั่นใจราวกับเป็นข้อเท็จจริง ปัญหานี้เกิดจากข้อจำกัดด้านข้อมูลและสถาปัตยกรรมของโมเดล
ในภาษาไทยมีการใช้คำหลากหลายเพื่ออธิบายพฤติกรรมนี้ เช่น "AI หลอน" "โมเดลหลอน" "ฮัลลูซิเนชัน" หรือใช้คำอธิบายอย่าง "การสร้างข้อมูลเท็จ" การแก้ไขปัญหานี้เป็นความท้าทายสำคัญในการพัฒนา AI เพื่อเพิ่มความน่าเชื่อถือและความแม่นยำของข้อมูลที่สร้างขึ้น
I
Image Recognition (การรู้จำภาพ)
Image Recognition เป็นความสามารถของ AI ในการระบุและตรวจจับวัตถุ สถานที่ การกระทำ หรือบุคคลในรูปภาพหรือวิดีโอ
ตัวอย่าง:
ระบบแท็กใบหน้าอัตโนมัติใน Facebook ที่สามารถระบุตัวบุคคลในรูปภาพได้
Instruction-tuning
เป็นวิธีการปรับแต่ง AI models แบบพิเศษ โดยใช้คำสั่งและการตอบรับที่ชัดเจน แทนที่จะใช้เพียงตัวอย่างข้อมูลเข้าและผลลัพธ์เหมือน fine-tuning, instruction tuning ใช้ประโยชน์จากภาษาธรรมชาติและการสนทนา
ผู้ฝึกสอน (human trainer) สามารถโต้ตอบกับ model, อธิบายพฤติกรรมที่ต้องการ และเกณฑ์การประเมินได้ ตัวอย่างเช่น ข้อความแจ้งเช่น "เน้นที่การสรุปเฉพาะประเด็นสำคัญจากรายงานนี้" เป็นการให้คำแนะนำที่มีข้อมูล จากนั้นผู้ฝึกสอนสามารถให้การแก้ไขแบบเรียลไทม์เมื่อแบบจำลองทำผิดพลาดเพื่อเสริมสร้างการเรียนรู้
ข้อดีที่สำคัญของ instruction tuning:
- การปรับตัวที่เร็วขึ้นโดยใช้ข้อมูลน้อยกว่าเมื่อเทียบกับการ fine-tuning คำแนะนำจะอธิบายโดยตรงถึงสิ่งที่ต้องปรับปรุง
- ควบคุมสิ่งที่เรียนรู้ได้มากขึ้นและมีความยืดหยุ่นหากข้อกำหนดเปลี่ยนแปลง สามารถปรับเปลี่ยนคำแนะนำได้
- ความสามารถในการรวม soft skills เช่น การบริการลูกค้าผ่านการฝึกสอนการสนทนา
- ความโปร่งใสที่ดีขึ้นเนื่องจากแบบจำลองไม่ใช่กล่องดำ ความสามารถของมันเชื่อมโยงอย่างชัดเจนกับคำแนะนำที่ให้ไว้
Instruction tuning มักใช้ร่วมกับ fine-tuning โดย fine-tuning จะให้ความรู้พื้นฐานในโดเมน ขณะที่ instruction tuning ช่วยให้ปรับตัวได้อย่างมีประสิทธิภาพ เมื่อรวมกันแล้ว เทคนิคเหล่านี้จะสร้างผู้ช่วย AI ที่มีความสามารถและตอบสนองได้ดี
Instruction tuning ช่วยให้การปรับแต่ง AI models เป็นไปอย่างมีประสิทธิภาพและโปร่งใสมากขึ้น เมื่อเทียบกับการ fine-tuning เพียงอย่างเดียว โดยการให้ models ได้รับคำแนะนำและการตอบรับที่เป็นภาษาธรรมชาติโดยตรง ทำให้ผู้ฝึกสอนสามารถควบคุมและคล่องตัวได้มากขึ้น
ช่วยให้ models ปรับตัวโดยใช้ข้อมูลน้อยกว่าที่จำเป็นสำหรับการ fine-tuning ซึ่งช่วยประหยัดเวลาและทรัพยากร Instruction tuning ยังช่วยให้สามารถรวม soft skills เช่น การบริการลูกค้าผ่านการฝึกสอนการสนทนา นอกจากนี้ ความเชื่อมโยงระหว่างคำแนะนำและพฤติกรรมของ model ยังให้ความสามารถในการตีความ
โดยรวมแล้ว instruction tuning ช่วยให้สามารถปรับแต่งได้อย่างรวดเร็วและเป็นพันธมิตรระหว่างมนุษย์กับ AI เป็นเทคนิคสำคัญในการสร้างผู้ช่วย AI ระดับองค์กรที่สามารถใช้ประโยชน์จากความรู้ที่ได้รับการฝึกฝนมาแล้ว และยังคงความยืดหยุ่นและตอบสนองต่อความต้องการทางธุรกิจที่เปลี่ยนแปลงไป
J
JoggAI - แพลตฟอร์มสร้างวิดีโอด้วย AI
JoggAI เป็นแพลตฟอร์มที่ช่วยให้เราสร้างวิดีโอคอนเทนต์โดยใช้อวตาร AI ที่สมจริง โดยมีตัวเลือกการสร้างอวตาร 3 รูปแบบ:
- Photo Avatar - สร้างอวตารส่วนตัวโดยปรับแต่งลักษณะใบหน้า ฉากหลัง และท่าทางได้ตามต้องการผ่านฟีเจอร์ Text to Avatar พร้อมการเคลื่อนไหวและการแสดงออกทางสีหน้าที่เป็นธรรมชาติ
- Custom Avatar - สร้างอวตาร AI ที่มีหน้าตาและเสียงเหมือนเรา สามารถพูดได้มากกว่า 50 ภาษา เพียงอัปโหลดวิดีโอสั้นๆ ของเราพร้อมให้การยินยอม
- Ready-to-use Avatar - เลือกใช้อวตาร AI ที่มีความหลากหลายกว่า 210 แบบ เพื่อเพิ่มความน่าเชื่อถือให้กับแบรนด์และเพิ่มประสิทธิภาพทางการตลาด
ลูกค้าของ JoggAI มีรายได้โดยรวมเพิ่มขึ้น 20% โดยเฉพาะอย่างยิ่งในกลุ่มสินค้าอุปโภคบริโภคและอิเล็กทรอนิกส์
แพลตฟอร์มนี้ทำให้การมีส่วนร่วมบนโซเชียลมีเดียเพิ่มขึ้น 45% ทำให้มีจำนวนการดู, การคลิก และ Conversion มากขึ้น
AI Avatar, AI Script Generator และฟีเจอร์ URL to Video ของ JoggAI ช่วยลดต้นทุนการผลิตคอนเทนต์ลง 30%
K
Knowledge Representation (การแทนความรู้)
Knowledge Representation เป็นวิธีการจัดเก็บและแทนความรู้ในระบบ AI เพื่อให้สามารถนำไปใช้ในการให้เหตุผลและแก้ปัญหาได้
ตัวอย่าง:
ฐานความรู้ในระบบผู้เชี่ยวชาญทางกฎหมายที่จัดเก็บกฎหมายและคำพิพากษาในรูปแบบที่ AI สามารถเข้าใจและใช้งานได้
L
Large Language Models
(โมเดลภาษาขนาดใหญ่)
คือโมเดลพื้นฐานประเภทหนึ่งที่ได้รับการฝึกจากข้อมูลข้อความจำนวนมหาศาล เพื่อทำงานด้านประมวลผลภาษาธรรมชาติ (NLP) โดยในระหว่างกระบวนการฝึก โมเดลจะเรียนรู้พารามิเตอร์ต่าง ๆ (เช่น ขนาดของโมเดลและชุดข้อมูล) ซึ่งจะถูกนำไปใช้ในการสร้างเนื้อหาใหม่ได้อย่างหลากหลาย
แม้จะไม่มีขีดจำกัดตายตัวว่าต้องใช้ข้อมูลมากน้อยเพียงใด แต่โมเดลภาษาขนาดใหญ่รุ่นล่าสุด (ซึ่งบางครั้งเรียกว่า Frontier AI) มักฝึกด้วยข้อมูลระดับพันล้านถึงล้านล้านหน่วยข้อมูล ตัวอย่างเช่น โมเดลที่อยู่เบื้องหลัง ChatGPT 3.5 (เผยแพร่สู่สาธารณะในเดือนพฤศจิกายน 2022) ได้รับการฝึกด้วยคำจากอินเทอร์เน็ตกว่า 300 พันล้านคำ
โมเดลภาษาขนาดใหญ่ที่เป็นที่รู้จัก ได้แก่ BERT, PaLM, GPT-2, GPT-3, GPT-3.5 และ GPT-4 ซึ่งแตกต่างกันในหลายแง่มุม เช่น ขนาดโมเดล (จำนวนพารามิเตอร์ที่ปรับจูนได้) ขอบเขตของงานที่รองรับ (การเขียนโค้ด การแชต การวิเคราะห์ทางวิทยาศาสตร์ ฯลฯ) และประเภทของข้อมูลที่ถูกนำมาใช้ในการฝึก.
Large Reasoning Models (LRMs)
คือ AI ที่ก้าวล้ำไปกว่า Large Language Models (LLMs) โดย LRMs ไม่ได้แค่เข้าใจและสร้างข้อความได้เท่านั้น แต่ยังสามารถ "คิด" วิเคราะห์ และตัดสินใจได้เหมือนมนุษย์
LLMs เก่งในการสร้างข้อความที่เหมือนมนุษย์ แต่ขาดความเข้าใจตามบริบทและความสามารถในการให้เหตุผลในเชิงลึก
LRMs ออกมาเพื่อแก้ปัญหาของ LLMs
LRMs ทำงานอย่างไร
LRMs ใช้ความสามารถของ LLMs และเพิ่มความสามารถในการให้เหตุผลเข้าไป โดยใช้:
- Symbolic Reasoning: ใช้กฎและตรรกะในการตัดสินใจ
- Commonsense Knowledge Bases: ใช้คลังความรู้ของมนุษย์
- Causal Inference: เข้าใจความสัมพันธ์ของเหตุและผล
ข้อดีของ LRMs
- การตัดสินใจที่ดีขึ้น: LRMs ช่วยให้ AI ตัดสินใจได้เหมือนมนุษย์ เช่น ในทางการแพทย์ LRMs สามารถวิเคราะห์ข้อมูลผู้ป่วยเพื่อแนะนำการรักษาที่แม่นยำได้
- เข้าใจบริบทได้ดีขึ้น: LRMs เข้าใจบริบทของสถานการณ์ได้ดีกว่า เช่น ในการบริการลูกค้า LRMs สามารถเข้าใจความตั้งใจและอารมณ์ของผู้ใช้ได้
ความท้าทายและอนาคตของ LRMs
การพัฒนา LRMs นั้นซับซ้อนและต้องคำนึงถึงจริยธรรม แต่ LRMs มีศักยภาพในการเปลี่ยนแปลงอุตสาหกรรมต่างๆ และยกระดับคุณภาพชีวิตของผู้คน
M
Machine Learning
(การเรียนรู้ของเครื่อง)
Machine Learning เป็นสาขาของ AI ที่ให้คอมพิวเตอร์สามารถเรียนรู้จากข้อมูลโดยไม่ต้องเขียนโปรแกรมอย่างชัดเจน
ตัวอย่าง:
ระบบแนะนำภาพยนตร์ของ Netflix ที่เรียนรู้จากประวัติการรับชมของผู้ใช้เพื่อแนะนำภาพยนตร์ที่น่าสนใจ
N
Natural Language Processing
(การประมวลผลภาษาธรรมชาติ)
Knowledge Representation เป็นวิธีการจัดเก็บและแทนความรู้ในระบบ AI เพื่อให้สามารถนำไปใช้ในการให้เหตุผลและแก้ปัญหาได้
ตัวอย่าง:
ฐานความรู้ในระบบผู้เชี่ยวชาญทางกฎหมายที่จัดเก็บกฎหมายและคำพิพากษาในรูปแบบที่ AI สามารถเข้าใจและใช้งานได้
Neural Network
โครงข่ายประสาทเทียม (Neural Networks) คือระบบคอมพิวเตอร์ที่เรียนแบบการทำงานของสมองมนุษย์ สร้างขึ้นเพื่อเรียนรู้ทักษะต่างๆ โดยการค้นหาและวิเคราะห์รูปแบบในข้อมูล
เปรียบเทียบกับสมอง:
- เซลล์ประสาท (Neurons): ในสมองเรามีเซลล์ประสาท โครงข่ายประสาทเทียมก็มี "เซลล์ประสาทเทียม" ซึ่งเป็นหน่วยประมวลผลเล็กๆ
- การเชื่อมต่อ: เซลล์ประสาทในสมองเชื่อมต่อกัน เซลล์ประสาทเทียมก็เชื่อมต่อกันเป็นชั้นๆ เพื่อส่งข้อมูล ชั้นต่างๆ:
- ชั้นแรก: รับข้อมูลเข้ามา
- ชั้นสุดท้าย: ให้ผลลัพธ์
- ชั้นระหว่างกลาง: (เป็นส่วนที่ซับซ้อน) ทำการประมวลผล
โครงข่ายประสาทเทียมเป็นเทคโนโลยี AI ที่ทรงพลัง สามารถเรียนรู้และแก้ปัญหาที่ซับซ้อนได้ แต่ก็มีความท้าทายในการทำความเข้าใจกระบวนการตัดสินใจภายในของมัน
O
Optical Character Recognition ซ
(การรู้จำอักขระด้วยแสง)
Optical Character Recognition หรือ OCR เป็นเทคโนโลยีที่แปลงเอกสารที่เขียนด้วยลายมือหรือพิมพ์เป็นข้อมูลดิจิทัลที่สามารถแก้ไขได้
ตัวอย่าง:
แอปพลิเคชันมือถือที่สแกนและแปลงใบเสร็จเป็นข้อมูลที่สามารถนำไปใช้ในการทำบัญชีได้
P
Predictive Analytics
(การวิเคราะห์เชิงทำนาย)
Predictive Analytics ใช้ข้อมูลในอดีตและปัจจุบันร่วมกับ AI เพื่อคาดการณ์แนวโน้มและพฤติกรรมในอนาคต
ตัวอย่าง:
ระบบพยากรณ์ยอดขายในห้างสรรพสินค้าที่ใช้ข้อมูลการขายในอดีต สภาพอากาศ และปัจจัยอื่นๆ เพื่อคาดการณ์ยอดขายในอนาคต
Parameters
พารามิเตอร์ (Parameters) ในระบบ AI
คือค่าตัวเลขที่นักพัฒนากำหนดขึ้นเพื่อควบคุมการทำงานของโมเดล ซึ่งมีบทบาทสำคัญต่อความสามารถในการวิเคราะห์และสร้างผลลัพธ์
ยกตัวอย่างเช่น GPT-4 ของ OpenAI ที่สันนิษฐานว่ามีพารามิเตอร์หลายพันล้านตัว ทำให้สามารถทำนายคำและสร้างบทสนทนาได้อย่างซับซ้อนและหลากหลาย
โดยพารามิเตอร์หลักสามารถแบ่งออกเป็นสองประเภทใหญ่ ๆ คือ
- พารามิเตอร์โครงสร้าง (Construction Parameters)
กำหนดสถาปัตยกรรมพื้นฐานของโมเดล เปรียบได้กับ “โครงกระดูก” ที่บอกว่าเซลล์ประสาทเทียมจะถูกจัดวางและเชื่อมต่อกันในแต่ละชั้นอย่างไร รวมถึงการกำหนดค่าน้ำหนัก (Weights) ของการเชื่อมต่อต่าง ๆ ซึ่งส่งผลถึงศักยภาพในการเรียนรู้และวิเคราะห์ - พารามิเตอร์พฤติกรรม (Behavior Parameters) ควบคุมวิธีการทำงาน การตอบสนอง และการปรับตัวของโมเดลเมื่อได้รับข้อมูล
การตั้งค่าพฤติกรรมเหล่านี้จะกำหนดลักษณะของผลลัพธ์ เช่น ความไวในการตอบสนอง ตลอดจนรูปแบบการโต้ตอบกับสภาพแวดล้อมภายนอก (เช่น การเชื่อมต่ออินเทอร์เน็ต) ทำให้โมเดลสามารถปรับตัวให้เหมาะสมกับโจทย์หรือบริบทที่หลากหลาย.
Prompt Engineering (วิศวกรรมพรอมต์)
Prompt Engineering คือ ศิลปะและศาสตร์ของการออกแบบและสร้างสรรค์ "คำสั่ง" หรือ "ข้อความ" (เรียกว่า "พรอมต์") ที่มีประสิทธิภาพ
เพื่อป้อนให้กับระบบปัญญาประดิษฐ์ (AI) โดยเฉพาะอย่างยิ่ง Large Language Models (LLMs) เพื่อให้ได้ผลลัพธ์ตามที่ต้องการ
เปรียบเทียบง่ายๆ:
- พรอมต์ (Prompt): เหมือน "คำถาม" หรือ "คำสั่ง" ที่เราบอก AI
- Prompt Engineering: คือการ "คิดคำถาม/คำสั่ง" อย่างไรให้ AI เข้าใจและให้คำตอบ/ผลลัพธ์ที่ดีที่สุด
เป้าหมาย:
- ผลลัพธ์ที่แม่นยำ: ได้คำตอบที่ถูกต้อง ตรงประเด็น
- ผลลัพธ์ที่เกี่ยวข้อง: ได้ข้อมูลที่ตรงกับความต้องการ
- ผลลัพธ์ที่สร้างสรรค์: ได้ไอเดียใหม่ๆ หรือมุมมองที่แตกต่าง
- ควบคุมพฤติกรรม AI: กำหนดแนวทาง, รูปแบบ, หรือสไตล์ของคำตอบ
ไม่ใช่แค่การถามคำถาม:
- Prompt Engineering เป็นมากกว่าการถามคำถามธรรมดาๆ แต่ต้องอาศัยความเข้าใจในหลักการทำงานของ AI
เข้าใจว่า AI "คิด" อย่างไร
เทคนิคต่างๆ:
- มีเทคนิคมากมายในการออกแบบพรอมต์ เช่น การให้ตัวอย่าง, การกำหนดบทบาท, การระบุรูปแบบที่ต้องการ
- การทดลองและปรับปรุง: ต้องลองผิดลองถูก ปรับแก้พรอมต์ไปเรื่อยๆ จนกว่าจะได้ผลลัพธ์ที่ดีที่สุด
สรุป:
Prompt Engineering คือทักษะสำคัญในการ "สื่อสาร" กับ AI ให้มีประสิทธิภาพ เพื่อให้ได้ประโยชน์สูงสุดจากเทคโนโลยีนี้
Pre-training
การฝึกเบื้องต้น (Pre-training) เป็นเทคนิคที่สำคัญในแมชชีนเลิร์นนิง ซึ่งเกี่ยวข้องกับการเริ่มต้นโมเดลโดยการฝึกบนชุดข้อมูลขนาดใหญ่และทั่วไป ก่อนที่จะปรับแต่ง (Fine-tuning) สำหรับงานเฉพาะปลายทาง ทำให้โมเดลสามารถเรียนรู้รูปแบบและการแสดงผลทั่วไปจากข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก ระยะการฝึกเริ่มต้นนี้ช่วยให้โมเดลมีความเข้าใจพื้นฐานเกี่ยวกับข้อมูล ทำให้สามารถปรับตัวเข้ากับงานเฉพาะทางได้อย่างรวดเร็วและมีประสิทธิภาพมากขึ้นระหว่างการปรับแต่ง ซึ่งส่งผลให้แอปพลิเคชัน AI มีประสิทธิภาพและความยืดหยุ่นมากขึ้น โดยลดความต้องการข้อมูลและเวลาในการพัฒนา ความสามารถในการใช้ประโยชน์จากโมเดลที่ได้รับการฝึกเบื้องต้นซึ่งมีอยู่ทั่วไป ยังช่วยเร่งการนำ AI ที่ทันสมัยไปใช้ในแอปพลิเคชันทางธุรกิจต่างๆ ได้อย่างรวดเร็ว
ประเด็นสำคัญ
-
การฝึกเบื้องต้นเป็นการเริ่มต้นโมเดลแมชชีนเลิร์นนิง โดยการฝึกบนชุดข้อมูลขนาดใหญ่และหลากหลาย ซึ่งไม่เกี่ยวข้องกับงานสุดท้ายของโมเดล
-
สถาปัตยกรรมของโมเดลที่ใช้สำหรับการฝึกเบื้องต้น ซึ่งมักจะเป็นเครือข่าย Transformer ได้รับการออกแบบมาให้มีความสามารถรอบด้านสำหรับการใช้งานในโดเมนปัญหาที่แตกต่างกัน
-
การฝึกเบื้องต้นสอนให้โมเดลเรียนรู้คุณสมบัติทั่วไป โดยใช้วัตถุประสงค์ เช่น การทำนายภาษาที่ถูกปิดบัง (Masked Language Modeling) หรือการเรียนรู้แบบเปรียบเทียบ (Contrastive Learning)
-
ระยะนี้ช่วยให้โมเดลสามารถรับข้อมูลจำนวนมหาศาลเพื่อเรียนรู้ความรู้พื้นฐานที่สามารถถ่ายโอนได้ในภายหลัง
-
การฝึกเบื้องต้นช่วยให้โมเดลมีความได้เปรียบอย่างมากเมื่อเทียบกับการเริ่มต้นแบบสุ่ม (Random Initialization) โดยให้ Inductive Bias ที่สำคัญสำหรับการเรียนรู้ที่รวดเร็วขึ้น
-
การเรียนรู้แบบถ่ายโอน (Transfer Learning) ผ่านการฝึกเบื้องต้นช่วยให้สามารถปรับตัวเข้ากับงานใหม่ได้อย่างรวดเร็วด้วยข้อมูลการฝึกอบรมที่จำกัด
-
โมเดลที่ได้รับการฝึกเบื้องต้นช่วยให้ธุรกิจต่างๆ ได้ผลลัพธ์ที่ดีขึ้นด้วยข้อมูลเฉพาะงานที่น้อยลง และช่วยให้สามารถนำ AI ไปใช้ได้อย่างรวดเร็ว
Q
Quantum AI (ปัญญาประดิษฐ์เชิงควอนตัม)
Quantum AI เป็นการใช้หลักการของกลศาสตร์ควอนตัมเพื่อเพิ่มประสิทธิภาพของอัลกอริทึม AI
ตัวอย่าง:
การใช้คอมพิวเตอร์ควอนตัมเพื่อแก้ปัญหาการหาเส้นทางที่ดีที่สุดในระบบโลจิสติกส์ที่ซับซ้อน
R
Robotics (หุ่นยนต์ศาสตร์)
Robotics เป็นสาขาที่เกี่ยวข้องกับการออกแบบ สร้าง และใช้งานหุ่นยนต์ ซึ่งมักจะใช้ AI ในการควบคุมและตัดสินใจ
ตัวอย่าง:
หุ่นยนต์ในโรงงานอุตสาหกรรมที่สามารถทำงานซ้ำๆ ได้อย่างแม่นยำและมีประสิทธิภาพ
Reinforcement Learning (การเรียนรู้แบบเสริมกำลัง)
Reinforcement Learning คือวิธีการสอน AI ให้ตัดสินใจ โดยให้ AI ลองผิดลองถูกในสภาพแวดล้อมจำลอง แล้วให้รางวัลหรือลงโทษตามผลลัพธ์ที่ได้
เปรียบเทียบกับการฝึกสุนัข:
- AI (สุนัข): เรียนรู้จากการกระทำ
- สภาพแวดล้อม: สถานการณ์ที่ AI ต้องตัดสินใจ
- รางวัล (ขนม): ถ้า AI ทำได้ดี
- ลงโทษ (ดุ): ถ้า AI ทำผิดพลาด
GPT กับ Reinforcement Learning:
GPT ใช้เทคนิคนี้ที่เรียกว่า "Reinforcement Learning from Human Feedback" (การเรียนรู้แบบเสริมกำลังจากความคิดเห็นของมนุษย์)
ขั้นตอน:
- ให้คนให้คะแนน: คนจะให้ตัวอย่างพฤติกรรมที่ AI ควรทำ และให้คะแนนผลลัพธ์ที่ AI สร้างขึ้น
- AI เรียนรู้: GPT-3 เรียนรู้จากคะแนนเหล่านี้ เพื่อปรับปรุงตัวเองให้เก่งขึ้น
สรุปง่ายๆ:
Reinforcement Learning คือการสอน AI เหมือนฝึกสุนัข ให้รางวัลเมื่อทำดี และลงโทษเมื่อทำพลาด เพื่อให้ AI เรียนรู้และตัดสินใจได้ดีขึ้น
S
Speech Recognition (การรู้จำเสียงพูด)
Speech Recognition เป็นความสามารถของ AI ในการแปลงเสียงพูดเป็นข้อความดิจิทัล
ตัวอย่าง:
ระบบพิมพ์ด้วยเสียงในสมาร์ทโฟนที่แปลงเสียงพูดเป็นข้อความในแอปพลิเคชันส่งข้อความ
T
Transformer Model
โมเดล Transformer มีความสามารถในการประมวลผลประโยคทั้งหมดพร้อมกัน แทนที่จะประมวลผลทีละคำหรือทีละลำดับเหมือนโมเดลแบบเก่า (เช่น RNN) จึงทำให้เข้าใจความสัมพันธ์และบริบทระยะไกลในประโยคได้ดียิ่งขึ้น โดยมีจุดเด่นดังนี้:
- การประมวลผลแบบขนาน
ไม่ต้องทำงานทีละขั้นเหมือน RNN แต่สามารถ “มอง” ทุกคำในประโยคพร้อมกันได้ ทำให้ทำงานได้เร็วขึ้น และใช้ทรัพยากรคอมพิวเตอร์สมัยใหม่ได้มีประสิทธิภาพกว่า - กลไกความสนใจ (Attention Mechanism) Transformer ใช้กลไก self-attention ที่ให้โมเดลโฟกัสเฉพาะส่วนที่สำคัญของประโยคได้อย่างเหมาะสม จับคู่คำหรือวลีที่เกี่ยวข้องกันได้ แม้ว่าจะอยู่คนละตำแหน่งในประโยคก็ตา
- การจับความสัมพันธ์ระยะไกลด้วยกลไกความสนใจ โมเดลจึงสามารถจับความสัมพันธ์ของคำที่อยู่ห่างกันในประโยคได้อย่างมีประสิทธิภาพ ซึ่งเป็นความสามารถที่โมเดลเก่า ๆ ทำได้ยาก
- ความเข้าใจบริบทที่ดีขึ้นเนื่องจากประมวลผลประโยคทั้งหมดพร้อมกัน โมเดลจึงเข้าใจความหมายของคำหรือวลีได้แม่นยำขึ้น เมื่อพิจารณาจากบริบทโดยรวม
- ประสิทธิภาพในการเรียนรู้การประมวลผลแบบขนานช่วยให้ Transformer เรียนรู้ได้รวดเร็วกว่าระบบเดิม ๆ และมักให้ผลลัพธ์ที่ดีกว่าในงานประมวลผลภาษาธรรมชาติ
โดยสรุป การที่ Transformer สามารถมองเห็นประโยคทั้งหมดพร้อมกันและเลือกโฟกัสเฉพาะส่วนที่สำคัญ ทำให้เข้าใจภาษาได้ลึกซึ้งยิ่งขึ้น และเหมาะสำหรับงานหลากหลาย เช่น การแปลภาษา การสรุปข้อความ และการตอบคำถามกลางเอกสารขนาดใหญ่ได้อย่างมีประสิทธิภาพ
Token และ Tokenization
การแบ่งคำ (Tokenization) คือกระบวนการแยกข้อความออกเป็นหน่วยข้อมูลขนาดเล็กที่เรียกว่า “โทเค็น” (token) เพื่อให้โมเดล AI สามารถประมวลผลและเข้าใจได้ง่ายขึ้น ภาพรวมมีดังนี้:
โทเค็น (Token) คืออะไร?
-
หน่วยการประมวลผลพื้นฐานของโมเดล AI
โทเค็นเป็นชิ้นส่วนข้อความที่เล็กที่สุดที่โมเดลสามารถนำไปวิเคราะห์ได้ -
ขนาดโดยประมาณ
ในภาษาอังกฤษ มักคิดเป็นประมาณ 4 ตัวอักษร หรือประมาณ 3/4 ของคำทั่วไป -
องค์ประกอบ
อาจเป็นคำทั้งคำ, ส่วนของคำ, ตัวอักษรเดี่ยว, เครื่องหมายวรรคตอน หรืออักขระพิเศษ
กระบวนการแบ่งคำ (Tokenization Process)
-
การแยกข้อความ
แยกข้อความออกเป็นหน่วยย่อยตามเกณฑ์ เช่น ช่องว่าง เครื่องหมายวรรคตอน หรือตัวอักษรที่กำหนด -
การสร้างโทเค็น
นำหน่วยย่อยเหล่านั้นมาแปลงเป็นโทเค็นที่โมเดล AI เข้าใจได้ -
การจัดการกรณีพิเศษ
เช่น คำประสม คำย่อ หรือสัญลักษณ์ที่มีความหมายเฉพาะ ต้องอาศัยวิธีการแบ่งคำ (tokenization) ที่คำนึงถึงชื่อเฉพาะหรือรูปแบบพิเศษ
ตัวอย่างการแบ่งคำ
ตัวอย่างเช่น ประโยค “I am ChatGPT” อาจถูกแบ่งเป็นโทเค็นดังนี้:
- I
- am
- Chat
- G
- PT
สังเกตว่า “ChatGPT” ถูกแบ่งออกเป็นสามโทเค็น คือ “Chat,” “G,” และ “PT” ซึ่งแสดงให้เห็นว่าการแบ่งคำไม่ได้ยึดแรกตัวเต็มเสมอไป แต่เน้นให้โมเดลอ่านได้ง่ายและเหมาะสมกับวิธีการประมวลผลของโมเดล
ความสำคัญของการแบ่งคำ
- การเตรียมข้อมูล
ช่วยเปลี่ยนข้อความดิบให้เป็นรูปแบบที่โมเดลเข้าใจได้ - ลดความซับซ้อน
การแบ่งเป็นหน่วยย่อยช่วยลดความซับซ้อนในการประมวลผล - เพิ่มประสิทธิภาพในการประมวลผล
โมเดลจะเรียนรู้ได้เร็วและให้ผลลัพธ์ที่แม่นยำขึ้น - รองรับภาษาที่หลากหลาย
วิธีการแบ่งคำที่ดีจะรองรับภาษาที่มีโครงสร้างหลากหลายได้
โดยสรุป การแบ่งคำ (Tokenization) เป็นหนึ่งในกระบวนการเริ่มต้นและสำคัญที่สุดของการประมวลผลภาษาธรรมชาติ (NLP) และมีผลต่อประสิทธิภาพการทำงานของโมเดล AI อย่างมาก ไม่ว่าจะเป็นงานวิเคราะห์ความรู้สึก การแปลภาษา หรือการตอบคำถามอัตโนมัติ การเลือกวิธีการแบ่งคำที่เหมาะสมจึงเป็นปัจจัยสำคัญในการสร้างระบบประมวลผลภาษาที่มีคุณภาพ.
U
Unsupervised Learning (การเรียนรู้แบบไม่มีผู้สอน)
Unsupervised Learning เป็นวิธีการใน Machine Learning ที่ AI เรียนรู้จากข้อมูลโดยไม่มีการระบุผลลัพธ์ที่ถูกต้องไว้ล่วงหน้า
ตัวอย่าง:
ระบบแบ่งกลุ่มลูกค้าของห้างสรรพสินค้าตามพฤติกรรมการซื้อโดยไม่ต้องกำหนดกลุ่มไว้ล่วงหน้า
V
Virtual Reality (ความเป็นจริงเสมือน)
Virtual Reality หรือ VR เป็นเทคโนโลยีที่สร้างสภาพแวดล้อมเสมือนจริงที่ผู้ใช้สามารถโต้ตอบได้ มักใช้ AI เพื่อเพิ่มความสมจริงและการตอบสนอง
ตัวอย่าง:
แอปพลิเคชัน VR สำหรับฝึกอบรมพนักงานในสถานการณ์จำลองที่อันตรายหรือซับซ้อน
W
Web Scraping (การดึงข้อมูลจากเว็บ)
Web Scraping เป็นเทคนิคที่ใช้ AI เพื่อดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติตัวอย่าง: ระบบที่รวบรวมราคาสินค้าจากเว็บไซต์ต่างๆ เพื่อเปรียบเทียบราคาและแสดงผลให้ผู้บริโภค
Z
Zero-shot Learning (การเรียนรู้แบบไม่ต้องเห็นตัวอย่าง)
Zero-shot learning คือเทคโนโลยี AI ที่สามารถเรียนรู้และเข้าใจสิ่งใหม่ๆ ได้ โดยที่ไม่ต้องมีตัวอย่างข้อมูลให้ดูมาก่อน เหมือนคนเราที่สามารถเข้าใจสิ่งใหม่ได้จากคำอธิบาย
วิธีการทำงาน:
- ระบบจะถูกฝึกฝนด้วยข้อมูลจำนวนมากก่อน เพื่อให้เข้าใจความสัมพันธ์ของสิ่งต่างๆ ในโลก
- เมื่อต้องการให้ระบบรู้จักสิ่งใหม่ เพียงแค่อธิบายให้ระบบฟัง
- ระบบจะใช้ความรู้เดิมที่มี มาเชื่อมโยงและทำความเข้าใจสิ่งใหม่นั้น
ประโยชน์:
- ไม่ต้องเสียเวลาเก็บข้อมูลตัวอย่างใหม่
- ปรับตัวได้เร็วกับความต้องการทางธุรกิจที่เปลี่ยนแปลง
- ประหยัดต้นทุนในการพัฒนา AI
- สามารถขยายการใช้งานไปยังผลิตภัณฑ์ใหม่ ตลาดใหม่ หรือกลุ่มลูกค้าใหม่ได้อย่างรวดเร็ว
- ช่วยให้องค์กรสามารถสร้างนวัตกรรม ปรับแต่งบริการ และพัฒนาระบบได้อย่างต่อเนื่อง
เทคโนโลยีนี้เหมาะสำหรับโลกธุรกิจที่เปลี่ยนแปลงเร็ว เพราะช่วยให้ระบบ AI สามารถปรับตัวและเรียนรู้สิ่งใหม่ๆ ได้อย่างรวดเร็ว โดยไม่ต้องเริ่มต้นฝึกฝนใหม่ทั้งหมด