เทคโนโลยีที่เป็นส่วนสำคัญในการทำ ASR เรียกว่า Hidden Markov Model (HMM) เทคโนโลยีชนิดนี้สามารถที่จะเข้าใจคำพูด จากการจำแนกความแตกต่างและการประมาณการถึงความเป็นไปได้ของส่วนประกอบของหน่วยที่เป็นพื้นฐานของเสียงที่อยู่ติดๆกัน โดยอาศัยหลักการที่ว่าเสียงแต่ละเสียงจะมีขอบเขตของสัญญาณและลักษณะเฉพาะที่มีความแตกต่างกัน
โดยปกติในการสร้าง Speech Recognition จะมีขั้นตอนการปฏิบัติอยู่ทั้งหมด 4 ขั้นตอน ซึ่งจะพยายามอธิบายโดยสรุปได้ดังนี้
ขั้นที่ 1 แปลงคลื่นเสียงที่มากระทบในขั้นต้นให้เป็นตัวเลขที่เราต้องการเพื่อทำความเข้าใจ
ขั้นที่ 2 คำนวณถึงลักษณะเฉพาะซึ่งเป็นสัญลักษณ์ของ Spectral โดย domain ที่เป็นหัวเรื่องของ Speech ลักษณะ เหล่านั้นจะถูกคำนวณทุกๆ 10 msec โดยแต่ละ10 msec จะถูกเรียกว่า “Frame“
ขั้นที่ 3 Artificial Neural Network (ANN) แบบ Multi – Layer Perceptron (MLP) จะถูกใช้เพื่อแยกชั้นของกลุ่มของลักษณะเหล่านั้นไปสู่ phonetic-based categories ในแต่ละ frame
Viterbi Search ใช้กำหนดถึงความต่อเนื่องของหน่วยพื้นฐานของเสียงจากความเป็นไปได้สูงสุด โดยคำนวณผ่าน Gaussian Mixture Model ข้อดีของ Viterbi Search คือการประมวลผลข้อมูลเป็นแบบ Real time แต่ข้อเสียคือระบบจะเลือกตัด Path ที่ Prob ต่ำเกินกว่ากำหนดไปและไม่นำกลับมาพิจารณาอีกเลย ทั้งๆ ที่บางครั้ง Path นั้นอาจจะมีค่าความน่าจะเป็นรวมสูงขึ้นกว่า Path อื่นเมื่อ Search ถึง Word ท้ายของประโยค
Speech Recognition เป็นเทคโนโลยีที่สามารถนำไปใช้ได้อย่างหลากหลาย อย่างเช่น ในอุตสาหกรรม Health Care ผู้ที่ใช้ประโยชน์จากเทคโนโลยีนี้คือ ฝ่าย admin และหมอ พยาบาล เภสัชกรที่ไม่ถนัดหรือไม่ชื่นชอบการพิมพ์, หรือแม้กระทั่งทางการทหาร ก็สามารถนำเทคโนโลยีนี้ไปใช้เพื่อสั่งการระบบนักบินอัตโนมัติ (Autopilot), ติดตั้งความถี่คลื่นวิทยุ หรือควบคุม flight display เป็นต้น
นอกจากนี้ เทคโนโลยีนี้ยังสามารถนำไปใช้ประโยชน์อย่างอื่นได้อีก เช่น การแปลอัตโนมัติ, การสั่งการรถยนต์, การโทรสนเทศ(Telematics), การรายงานในศาล (Court reporting หรือ Realtime Voice Writing), คอมพิวเตอร์แฮนด์ฟรี, โทรศัพท์มือถือ, หุ่นยนต์, video games, Interactive Voice Response (IVR), Speech-to-text (การแปลเสียงให้เป็นคำพูด) และการควบคุมการจราจรทางอากาศ เป็นต้น
ในต่างประเทศ Application ที่นำเทคโนโลยีนี้ไปใช้กันอย่างค่อนข้างแพร่หลาย ได้แก่ โทรศัพท์ตอบรับอัตโนมัติ เช่น จองตั๋วเครื่องบิน สอบถามรอบฉายภาพยนตร์ หรือการสั่งการอุปกรณ์ไฟฟ้าต่างๆด้วยเสียง แต่ในประเทศไทย เนื่องจากยังไม่สามารถทำ recognizer ที่มีประสิทธิภาพดีเพียงพอที่จะนำมาใช้เชิงธุรกิจได้ จึงยังไม่มีการนำมาใช้มากเท่าใดนัก
ข้อดี
1. สามารถใช้ได้ในหลายสภาวการณ์ทั้งที่ปกติและไม่ปกติ เช่น ขณะที่มือไม่ว่าง, ต้องการความคล่องตัว, สายตาไม่ว่าง, ไม่ต้องการใช้คีย์บอร์ด, มีข้อจำกัดทางร่างกาย ฯลฯ
2. ช่วยประหยัดเวลาในการทำงาน
3. ช่วยอำนวยความสะดวกมากยิ่งขึ้น
ข้อเสีย
1. ผู้ใช้ต้องออกเสียงชัดเจน และพูดตามอักขระให้ถูกต้อง
2. ขณะใช้ต้องปราศจากเสียงรบกวนจากภายนอก เพื่อไม่ให้โปรแกรมประมวลผลผิดพลาด
3. โปรแกรมสามารถแสดงคำพูดได้เป็นหลายคำเช่น “Hello” อาจจะกลายเป็น “Little” “good old” “who told”
4. ถ้าใช้ Sound Card ที่ต่ำกว่ามาตรฐานที่โปรแกรมกำหนด จะทำให้ได้ผลที่ได้ไม่ดีนัก
จากกรณีข้างต้น นับเป็นตัวอย่างของการนำเทคโนโลยีมาใช้ในทางที่ถูกต้องและก่อให้เกิดประโยชน์ต่อสังคมอีกด้วย
น.ส.ภัสสรนันท์ เอนกธรรมกุล 5202115175
น.ส.ภัคนิจ แดงสุภา 5202112602
Slides ppt: http://www.4shared.com/file/WeRTBcSG/SR_all.html
น.ส.ภัคนิจ แดงสุภา 5202112602
Slides ppt: http://www.4shared.com/file/WeRTBcSG/SR_all.html
ไม่มีความคิดเห็น:
แสดงความคิดเห็น