Vaja 8.0

การสื่อสารด้วยเสียงพูดเป็นรูปแบบการสื่อสารพื้นฐานที่สำคัญที่ทำให้ผู้รับสารสามารถเข้าถึงข่าวสารที่ต้องการสื่อได้ง่ายและมีประสิทธิภาพ โดยไม่ต้องพึ่งพาจอภาพ เทคโนโลยีสร้างเสียงพูดจากข้อความ (Text-to-Speech synthesis: TTS) จึงเป็นเทคโนโลยีสำคัญที่จะเป็นเครื่องมือช่วยประชาสัมพันธ์ข่าวสารได้ในทุกพื้นที่ โดยสามารถสื่อสารเข้าถึงได้ทั้งกรณีเฉพาะบุคคลหรือการประกาศแบบวงกว้างในที่สาธารณะ โดยให้ระบบคอมพิวเตอร์สร้างเสียงคำพูดเพื่ออ่านข้อความตามที่กำหนดแบบอัตโนมัติเพื่อตอบสนองผู้รับสารหรือลูกค้าแบบทันทีทันใด ปรับเปลี่ยนได้ทันต่อแหตุการณ์ และเหมาะสมตามสถานการณ์ ซึ่งมีจุดเด่นที่เหนือกว่าการใช้เสียงที่บันทึกไว้ล่วงหน้า

ซอฟต์แวร์สร้างเสียงพูดแบบสองภาษา วาจาเวอร์ชั่น 8.0 เป็นโปรแกรมเครื่องมือเวอร์ชั่นใหม่ (2561) ที่ถูกวิจัย พัฒนา ปรับปรุงและเปลี่ยนแปลงกระบวนการสร้างเสียงพูดที่ใช้งานอยู่ในเวอร์ชั่นเดิมให้ทำงานได้มีประสิทธิภาพและถูกต้องมากยิ่งขึ้น โดยการพัฒนาได้เข้าไปแก้ไขและปรับปรุงในทั้ง 3 ส่วนสำคัญของกระบวนการสร้างเสียงพูดจากข้อความภาษาไทย อันได้แก่ ส่วนประมวลผลข้อความ, ส่วนแปลงข้อความเป็นสัญรูปหน่วยเสียง และส่วนสังเคราะห์เสียง ซึ่งในส่วนประมวลผลข้อความ วาจา 8.0 นี้ ได้เสนอการใช้งานหน่วยย่อยพื้นฐานของการอ่าน มาช่วยในการตัดแบ่งเพื่อสร้างเสียงอ่านให้ถูกต้อง ที่เรียกว่า พยางค์เสมือน (pseudo syllable) ในส่วนของการแปลงข้อความเป็นสัญรูปหน่วยเสียง วาจา 8.0 นี้ได้วิจัยและนำเสนอแนวทางใหม่โดยอาศัยเทคนิคการรู้จำสายอักษรและคาดเดาสายสัญรูปเสียง (sequence-to-sequence) ที่สามารถทำงานได้อย่างมีประสิทธิภาพด้วยการใช้คุณสมบัติทางภาษาศาสตร์ของแต่ละอักขระที่ผสมอยู่ในคำมาร่วมในการสอน CRFs ที่ใช้ในการคาดเดาสัญรูปเสียงด้วย และในส่วนสุดท้าย ส่วนการสร้างเสียงพูด วาจา 8.0 ได้นำเอาเสียงจากฐานข้อมูลเสียงสองภาษามาใช้งานเพื่อให้ได้เสียงสังเคราะห์ทั้งภาษาไทยและภาษาอังกฤษ ที่ให้เสียงได้ทั้งเสียงผู้หญิงและเสียงผู้ชาย โดยทั้งสามส่วนถูกประกบรวมกันเพื่อทำงานได้อย่างถูกต้องทั้งบน Windows และ Linux

-------------------------------------------------

ทีมวิจัยการเข้าใจเสียงและข้อความ

กลุ่มวิจัยปัญญาประดิษฐ์

ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ