Keynote: Exploring the world of Computer Vision
Event: SCBX Unlocking AI EP4, Computer Vision: How AI See Things Like We Do
Collaboration: SCBX และ Insiderly.ai
Venue: SCBX NextTech, สยามพารากอน ชั้น 4
Speaker: ดร.สรรพฤทธิ์ มฤคทัต Senior Researcher, NECTEC
เมื่อเทคโนโลยีพัฒนามากขึ้นเรื่อยๆ ประสิทธิภาพของคอมพิวเตอร์และสิ่งที่เรียกว่า Computer Vision ก็กว้างไกลขึ้น ช่วยให้ทุกคนสามารถสำรวจโลกที่มีขนาดกว้างใหญ่ได้ง่ายขึ้น และหากมันอยู่ในมือคนที่มีความคิดสร้างสรรค์ ก็จะช่วยพัฒนาสิ่งดีๆ ให้เกิดขึ้นตามมาอีกมากมาย
ในงานเสวนา SCBX UNLOCKING AI: EP4 หัวข้อ Computer Vision: How AI See Things Like We Do ดร.สรรพฤทธิ์ มฤคทัต Senior Researcher, NECTEC ได้มาบรรยายในหัวข้อ Exploring the World of Computer Vision เพื่ออธิบายว่าเทคโนโลยี AI สุดล้ำนี้จะช่วยให้ชีวิตของผู้คนดีขึ้นได้อย่างไร โดยแบ่งเป็นประเด็นสำคัญได้ดังต่อไปนี้
- ถ้าอยากรู้ว่า Computer Vision สามารถนำมาใช้ประโยชน์ด้านไหนได้บ้าง วิธีที่ง่ายที่สุดคือการดูภาพยนตร์ฮอลลีวู้ด เช่น ภาพยนตร์ตระกูล ‘ฅนเหล็ก’ The Terminator ที่เจ้าหุ่นยนต์อัจฉริยะนั้นมาพร้อมความไฮเทครอบด้าน หนึ่งในนั้นก็คือการมองเห็นสิ่งต่างๆ แล้วตรวจจับสิ่งของต่างๆ ประมวลผลออกมาเป็นภาพ หรือในภาพยนตร์เรื่อง Eagle Eyes ที่ปัญญาประดิษฐ์พยายามอ่านปากคนเพื่อดูว่าพูดอะไร ก็เป็นอีกความไฮเทคที่น่าสนใจเช่นกัน
- หนึ่งในสิ่งที่ Computer Vision ช่วยให้ชีวิตของเราง่ายขึ้นได้เลยทันทีก็คือ การช่วยค้นหาข้อมูลรูปแบบต่าง ๆ เช่น การค้นหารูป จากแต่ก่อนที่ต้องนั่งค้นหารูปไม่ติดลิขสิทธิ์จากแพลตฟอร์มต่างๆ แต่ทุกวันนี้เราสามารถสร้างสรรค์ภาพใหม่ขึ้นมาได้เลย เพียงใช้ Generative AI หลายประเภท และมีหลายแพลตฟอร์มที่รองรับภาพไม่ผิดลิขสิทธิ์แล้ว
สิ่งที่พบเจอในภาพยนตร์เหล่านี้ เมื่อก่อนอาจมองกันว่าไม่มีทางเป็นความเป็นจริงได้ แต่ตอนนี้เกิดขึ้นจริง หรือมีแนวโน้มใกล้กลายเป็นจริงแล้ว และไม่เพียงแค่ในภาพยนตร์ 2 เรื่องนี้เท่านั้นที่วาดภาพของการใช้เทคโนโลยีสุดล้ำทะลุกรอบความคิด แต่ยังมีเทคโนโลยีในหนังอีกมากมายที่กลายมาเป็นความจริงแล้ว เพียงแต่อาจยังไม่ได้ก้าวล้ำชนิดนำมาใช้ได้จริงอย่างแพร่หลายตามแบบเรื่องเล่า
- งาน Computer Vision ที่ล้ำลึกขึ้น ถูกนำมาใช้งานได้ในหลายสาขาอาชีพ เช่น วงการแพทย์ที่ใช้ AI ช่วยปรับคุณภาพของรูปภาพให้ดีขึ้น เพื่อช่วยแพทย์วินิจฉัยภาพเอกซเรย์ได้แม่นยำขึ้น ไปจนถึงการใช้ AI ตรวจจับวัตถุ เช่น ตรวจจับก้อนเนื้อในช่องท้อง การทำโมเดล 3D Recognition และการทำ Speech Recognition เป็นต้น
- ดร.สรรพฤทธิ์ อธิบายหลักการมองโลกของคอมพิวเตอร์ว่า คอมพิวเตอร์จะมองโลกเป็นพิกเซล (Pixel) มองเป็นรูปสี่เหลี่ยมเล็กๆ ที่วางต่อกันจนเกิดเป็นภาพขนาดใหญ่ แตกต่างจากสายตาของคนเราที่จะมองเห็นภาพใหญ่ก่อน
- งานยุคแรกที่นำ Computer Vision มาใช้ประโยชน์ก็คืองานออกแบบ โดยเขียน Code เพื่อประกอบของสิ่งเล็กๆ ระดับพิกเซลขึ้นมา ค่อยๆ ศึกษาลักษณะเด่น (Feature) ของสิ่งต่างๆ แล้วประกอบกันกลายเป็นภาพใหญ่ งาน Computer Vision เริ่มต้นขึ้นในยุคที่ไม่มีคำว่า AI เลยด้วยซ้ำ
- ปัจจุบันมีการนำโครงข่ายประสาทเทียมมาใช้ในงาน Computer Vision เพื่อช่วยสกัดลักษณะเด่นโดยอัตโนมัติจากพิกเซลต่างๆ ที่ประกอบกันเป็นรูป
- ในหลาย ๆ งานทีมวิจัยหลายทีมพบว่าลักษณะเด่นที่ได้จากโครงข่ายประสาทเทียมเหล่านี้ให้ผลดีกว่าลักษณะเด่นที่ออกแบบโดยผู้เชี่ยวชาญ เพราะมีความเหมือนและใกล้เคียงกันไม่น้อย
เนื่องจากการประกอบกันของพิกเซลแต่ละพิกเซลนั้น เหมือนกับเส้นประสาทที่มารวมกันจนกลายเป็นระบบประสาท - เป็นแรงบันดาลใจให้นักวิจัย นักสร้างสรรค์เกิดไอเดียว่าถ้าอยากสร้าง Network ใหญ่ๆ ขึ้นมาควรต้องทำอย่างไร นำไปสู่การสร้างระบบบันทึกใบหน้า ที่จะบันทึกลักษณะเด่นของใบหน้าเรา นำไปใช้ตรวจจับวัตถุที่เคลื่อนที่ว่าอยู่ตรงไหนนั่นเอง
- งานวิจัยด้านโครงข่ายประสาทเทียมนั้นมีมานานแล้ว ก่อนจะมี AI เสียอีก
แต่ในอดีตเราไม่มีวิธีสร้างโครงข่ายขนาดใหญ่ที่ใช้งานได้ดี - ปัจจุบันเรารู้แล้วว่าหากต้องการสร้างโครงข่ายขนาดใหญ่ ต้องทำอย่างไร อีกทั้งปริมาณข้อมูล และความสามารถในการคำนวณก็ดีขึ้นกว่าสมัยก่อนมาก
ทำให้การสร้างและการใช้งานโครงข่ายขนาดใหญ่ หรือที่เรียกว่า Deep Neural Network นั้นทำกันอย่างแพร่หลาย - ระบบที่เราใช้งานกันทั่วไป เช่น ระบบการตรวจสอบตัวบุคคลจากภาพใบหน้า
หรือระบบการตรวจจับวัตถุต่าง ๆ เช่น รถยนต์ จักรยานยนต์ หรือคน ต่างก็ใช้ Deep Neural Network - เรียกได้ว่างานด้าน Computer Vision ในปัจจุบันนั้นใช้ Deep Neural Network กันหมดเลย
- แต่ถึงจะนำมาใช้งานในปัจจุบันได้มากมาย ความท้าทายของงาน Computer Vision ก็มีไม่น้อย เช่น เมื่อข้อมูลเยอะขึ้น หากต้องการต้องสร้างรูปจำนวนมาก แล้วสร้างคำบรรยายภาพที่สอดคล้องกันในเวลารวดเร็ว จะควบคุมคุณภาพได้อย่างไร
ในปัจจุบันยังมีการสร้าง AI ที่สามารถทำงานบนทั้งภาพและข้อความ เช่น Stable Diffusion ที่สร้างภาพจากคำบรรยาย ระบบพวก Image Captioning ที่สร้างคำบรรยายสำหรับภาพ ระบบ Visual Question Answering ที่สามารถตอบคำถามที่เกี่ยวข้องกับภาพได้ หรือระบบ CLIP ของ OpenAI ที่ช่วยดูความสอดคล้องระหว่างภาพและคำบรรยาย เป็นต้น
ในด้านการแพทย์ เช่น การวิเคราะห์ภาพเอกซเรย์ปอด ก็ใช้หลักการเดียวกัน ระบบนั่นคือ โครงข่ายประสาทเทียมที่ใช้จะสร้างลักษณะเด่นที่เหมาะสมในการวินิจฉัยภาพ เช่น เป็นภาพเอกซเรย์ปอดของคนปกติ หรือของผู้ป่วยโควิด-19 หรือการวิเคราะห์โรคธาลัสซีเมียจากภาพถ่ายสไลด์เลือดก็ใช้ Deep Neural Network เช่นกัน
ลักษณะเด่นที่สร้างจากโครงข่ายประสาทเทียมเหล่านี้อาจไม่ไม่สามารถนำไปตีความเป็นคำพูดได้ตรง ๆ ทำให้แพทย์ทั่วไปไม่ยอมรับการวินิจฉัยโดยโครงข่ายประสาทเทียมเหล่านี้
ในปัจจุบันมีแพทย์ที่หันมาทำวิจัยเรื่อง AI เองเยอะมาก และในงานประชุมวิจัยทางการแพทย์ก็มีการประชุมวิจัยหัวข้อนี้เยอะกว่าเดิมอย่างมีนัยสำคัญ เมื่อเทียบกับ 5-6 ปีก่อน ถือเป็นกลไกสำคัญที่ทำให้เกิดการยอมรับการวินิจฉัยโดยโครงข่ายประสาทเทียมมากขึ้นเรื่อย ๆ
- อีกความท้าทายที่นักพัฒนาต้องเจอก็คือ การเข้าถึงข้อมูล Data ด้วยข้อมูลที่จำกัดทำให้นักวิจัย-คนทำงานไม่สามารถพัฒนางานที่มีคุณภาพขึ้นมาได้ เพราะบ่อยครั้งผู้ที่มีข้อมูลไม่อนุญาตให้นำไปใช้งาน หรือพัฒนาต่อ ส่งผลให้การทำงานไม่ได้คุณภาพออกมาตามที่ต้องการ
- นอกจากนั้น AI ที่เก่งกาจด้านภาษาไทยก็ยังมีน้อย เมื่อเทียบกับโมเดลจากต่างประเทศที่พัฒนาแล้ว ซึ่งก็จะนำมาสู่ความท้าทายข้อเบื้องต้นที่ได้กล่าวมาแล้วนั่นเอง และอื่นๆ อีกมากมาย