Keynote: การโคลนเสียง AI และการแปลเป็นภาษาท้องถิ่น AI Voice Cloning & Localization
Speaker : ดร.วินน์ วรวุฒิคุณชัย , Founder & CEO BOTNOI Group
Event : SCBX Unlocking AI EP1 , Thailand Path to AI opportunities
Collaboration : SCBX และ Insiderly.ai
Venue : SCBX NextTech, สยามพารากอน ชั้น 4
AI ในปัจจุบันทรงพลานุภาพหลายด้าน ไม่เพียงถามคำถามแล้วได้คำตอบอย่างฉับพลัน
แต่ยังสามารถสร้างภาพ สร้างสิ่งต่างๆ ขึ้นมาได้เพียงแค่ป้อนคีย์เวิร์ดเข้าไปไม่กี่คำ
เสียงเองก็เป็นสิ่งที่ AI สร้างขึ้นได้เช่นกัน ซึ่งอาจฟังดูน่าหวาดหวั่น แต่หากมันถูกใช้งานในเชิงบวก เพื่อช่วยเหลือผู้อื่น ย่อมเกิดประโยชน์มหาศาลตามมา
BOTNOI เป็นผู้ประกอบการที่ใช้ AI สร้างเสียง โคลนเสียง หรือ Voice Clone เพื่อสร้างสรรค์สิ่งดีๆ ให้เกิดขึ้น
ดร.วินน์ วรวุฒิชัย Founder & CEO BOTNOI Group เกริ่นด้วยการเล่าถึงพัฒนาการที่ไปไกลของการโคลนเสียง โดยยกตัวอย่าง Andrew Ng ผู้เชี่ยวชาญ อาจารย์ด้าน AI ที่พบว่ามีคนโคลนเสียงของเขาลงใน Linkedin ซึ่งหากให้ตอบว่า เสียงไหนเป็นเสียงจริงของเขา เสียงไหนเป็นเสียงที่ AI โคลนขึ้นมา
ผลปรากฏว่า คนแทบแยกไม่ออกว่า เสียงไหนคือเสียงของ Andrew Ng ตัวจริง
ปัจจุบันในบางเว็บไซต์ เช่น ThaiPBS ไปไกลกว่าเดิมด้วยการมีบริการ “อ่านให้ฟัง”เอาเสียงผู้ประกาศข่าวมาโคลนแล้วกดให้อ่านข่าว เหมาะสำหรับคนที่อยากฟังเสียงมากกว่าอ่านตัวหนังสือ
โดย BOTNOI เอาเสียงของนักข่าวช่อง ThaiPBS มาโคลน แล้วกดให้อ่านข่าวในเว็บไซต์ได้เลย ราวกับกำลังอ่านข่าวนี้อยู่จริงๆ
ลูกเล่นดังกล่าวมีความน่าทึ่ง แต่ ThaiPBS ก็โดนวิจารณ์ในวงกว้างเช่นกัน เพราะถึงแม้จะใช้ BOTNOI ทำให้ AI อ่านข่าวได้ แต่ AI ยังอ่านคำที่เป็นตัวย่อไม่ได้ เช่น ผบ.ตร. ทำให้คนเข้าใจผิดว่านักข่าวอ่านผิด
แต่มันก็แสดงให้เห็นว่า การโคลนเสียงนั้นแนบเนียนเพียงใด จนสุดท้ายต้องใส่ Disclaimer ประกอบว่า นี่คือเสียงที่สร้างขึ้นจาก AI ไม่ใช่ของผู้ประกาศตัวจริง ป้องกันการเข้าใจผิด
ที่ผ่านมา มนุษย์ผ่านพยายามเลียนแบบธรรมชาติตลอด ทั้งการสร้างเครื่องบินตามแบบนก การสร้างดาบ มีด ตามแบบเขี้ยวของเสือ
บางอย่างที่เคยมีข้อจำกัด เช่น การสร้างรถที่ไม่สามารถขับเคลื่อนได้ตัวเอง ก็หาใช่อุปสรรคอีกต่อไปในปัจจุบันที่สามารถสร้างสมองให้รถ แล้วให้ขับเองได้โดยไม่ต้องบังคับ
BOTNOI นำแนวคิดนี้มาใช้ในการสร้างเสียง ด้วยการศึกษาระบบสมอง พยายามเลียนแบบโครงสร้างสมองของมนุษย์ จนเกิดเป็นสมการ Input Output ที่ทำให้เกิดเสียงที่ตรงกับความเป็นจริงขึ้นมา
ดร.วินน์ เล่าว่า มนุษย์เราจำอะไรไม่ได้ก่อนอายุ 4 ขวบ
เขาเองลองสังเกตลูกชายว่ามีปฏิสัมพันธ์กับเสียงต่างๆ รอบตัวอย่างไร สิ่งที่เขาได้เรียนรู้ในช่วงวัยนั้นพอดีก็ได้พบว่า สมองของเด็กที่ฟังเสียงแม่สอน จะพยายามเชื่อมโยงสิ่งทีไ่ด้ยินและมองเห็น จนเกิดเป็นการเรียนรู้ขึ้นมา ซึ่งเขาก็นำมาปรับใช้ในงานของ BOTNOI ได้อย่างพอดี
ทั้งนี้หาก BOTNOI ต้องการโคลนเสียงของใคร ก็จะให้คนๆ นั้นอ่านข้อความประมาณ 200 ประโยค แล้วนำเสียงของเขา และตัว Text ที่อ่านใส่เข้าไปในระบบเพื่อให้ AI เรียนรู้
แม้ผลการทดลองในช่วงแรกจะได้เสียงที่ยังไม่เป๊ะเท่าไหร่ แต่เมื่อปรับปรุงแล้วก็เกิดคุณภาพที่ดีขึ้นตามมาอย่างมีนัยสำคัญ
นอกจากเกิดการโคลนเสียงแล้ว ยังมีการทำ Deepfake หรือการโคลนหน้าโคลนเสียงของคนๆ หนึ่งที่เลียนแบบการขยับปากคนๆ นั้นได้ โดยที่บุคคลคนนั้นอาจไม่ได้พูดคำดังกล่าวด้วย ซึ่งมีความแนบเนียนมาก
BOTNOI ยังพัฒนาเทคโนโลยีถึงขั้นทำให้เสียงของคนหนึ่ง พูดอีกภาษาหนึ่งโดยคงสำเนียง คงความเป็นตัวเองเอาไว้ได้ ซึ่งเป็นสิ่งที่น่าภาคภูมิใจ และน่าต่อยอดต่อ สามารถนำไปใช้ในการพากย์เสียงภาพยนตร์ได้
โดยหากเทคโนโลยีพัฒนาไปไกล อาจสามารถทำให้เสียงของพระเอกในภาพยนตร์ฮอลลีวู้ด สามารถพูดภาษาไทยได้ โดยคงสำเนียงตัวเองเอาไว้ตามเดิมได้ เป็นต้น
อีกกรณีศึกษาที่พบเจอก็คือ ในช่วงโควิด-19 ที่ผ่านมา ยอดขายของร้านขายของขนาดเล็กลดลง ทาง Cadbury จึงคิดค้นโมเดลที่เอานักแสดงบอลลีวู้ดชื่อดังมาช่วยโฆษณาร้านค้าเพื่อให้ยอดขายกระเตื้องขึ้น
สิ่งที่เกิดขึ้นก็คือการเอาเสียงของนักแสดงดัง Shah Rukh Khan มาใช้ แล้วทำให้ผู้คนสนใจกันอย่างกว้างขวาง เพราะมันสามารถดัดแปลงเสียง ดัดแปลงภาพให้มีความเฉพาะเจาะจงในการขายของแบบต่างๆ ได้อย่างไม่มีขีดจำกัด
แต่ทั้งนี้ก็ต้องระวังกรณีที่เอาไปใช้ในทางที่ผิดด้วย แม้จะเป็นผู้สร้างเอง แต่ดร.วินน์ก็เคยโดนคนอื่นเอาเสียงตัวเองไปโคลนเพื่อหลอกลวงผู้อื่น
กลายเป็นบทเรียนให้ BOTNOI ยิ่งต้องคิดหนักมากขึ้นว่า หากนำไปใช้ในวงกว้าง สิ่งนี้จะส่งผลกระทบตามมาอย่างไร โดยเฉพาะอย่างยิ่งในยุคที่มีแก๊งคอลเซนเตอร์อาละวาดทุกวี่ทุกวัน
การป้องกันในปัจจุบันอาจยังทำได้ยาก และมีวิธีทำได้ผลค่อนข้างน้อย หนึ่งในวิธีที่ทำได้อาจเป็นการซ่อนลายน้ำในเสียง AI เป็นความถี่ที่มนุษย์ไม่ได้ยิน แต่ก็ต้องหาวิธีที่เนียนกว่านั้นด้วย เพราะหากผู้ที่ตั้งใจจะเอาเสียงไปใช้ในการหลอกลวงอยู่แล้ว ก็อาจสามารถลบความถี่ดังกล่าว แล้วเอาไปใช้งานในทางที่ผิดอยู่ดี
ดร.วินน์ หวังว่า หน่วยงานที่เกี่ยวข้อง หรือผู้พัฒนาด้าน AI ทุกคนจะตระหนักรู้ในเรื่องนี้ แล้วช่วยกันทำให้เกิดการนำเสียงที่โคลนแล้วไปใช้ในด้านที่ถูกต้อง พร้อมกับอุดช่องว่างของการเกิดอาชญากรรมให้ได้มากที่สุด
Credit ภาพ : SCBX