วันเสาร์ที่ 20 พฤศจิกายน พ.ศ. 2553

Speech Recognition

            Speech Recognition คือระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ และเข้าใจคำศัพท์ทุกคำอย่างถูกต้องเกือบ 100% โดยเป็นอิสระจากขนาดของกลุ่มคำศัพท์ ความดังของเสียงและลักษณะการออกเสียงของผู้พูด โดยระบบจะรับฟังเสียงพูดและตัดสินใจว่าเสียงที่ได้ยินนั้นเป็นคำๆใด
                เทคโนโลยีที่เป็นส่วนสำคัญในการทำ ASR เรียกว่า Hidden Markov Model (HMM) เทคโนโลยีชนิดนี้สามารถที่จะเข้าใจคำพูด จากการจำแนกความแตกต่างและการประมาณการถึงความเป็นไปได้ของส่วนประกอบของหน่วยที่เป็นพื้นฐานของเสียงที่อยู่ติดๆกัน โดยอาศัยหลักการที่ว่าเสียงแต่ละเสียงจะมีขอบเขตของสัญญาณและลักษณะเฉพาะที่มีความแตกต่างกัน
โดยปกติในการสร้าง Speech Recognition จะมีขั้นตอนการปฏิบัติอยู่ทั้งหมด 4 ขั้นตอน ซึ่งจะพยายามอธิบายโดยสรุปได้ดังนี้

ขั้นที่ 1     แปลงคลื่นเสียงที่มากระทบในขั้นต้นให้เป็นตัวเลขที่เราต้องการเพื่อทำความเข้าใจ
ขั้นที่ 2     คำนวณถึงลักษณะเฉพาะซึ่งเป็นสัญลักษณ์ของ Spectral โดย domain ที่เป็นหัวเรื่องของ Speech ลักษณะ  เหล่านั้นจะถูกคำนวณทุกๆ 10 msec โดยแต่ละ10 msec จะถูกเรียกว่า “Frame“
ขั้นที่ 3     Artificial Neural Network (ANN) แบบ Multi – Layer Perceptron (MLP) จะถูกใช้เพื่อแยกชั้นของกลุ่มของลักษณะเหล่านั้นไปสู่ phonetic-based categories ในแต่ละ frame
ขั้นที่ 4     Viterbi search จะทำการจับคู่ neural network output scores กับคำศัพท์ที่ต้องการ
Viterbi Search ใช้กำหนดถึงความต่อเนื่องของหน่วยพื้นฐานของเสียงจากความเป็นไปได้สูงสุด โดยคำนวณผ่าน Gaussian Mixture Model ข้อดีของ Viterbi Search คือการประมวลผลข้อมูลเป็นแบบ Real time แต่ข้อเสียคือระบบจะเลือกตัด Path ที่ Prob ต่ำเกินกว่ากำหนดไปและไม่นำกลับมาพิจารณาอีกเลย ทั้งๆ ที่บางครั้ง Path นั้นอาจจะมีค่าความน่าจะเป็นรวมสูงขึ้นกว่า Path อื่นเมื่อ Search ถึง Word ท้ายของประโยค
Speech Recognition เป็นเทคโนโลยีที่สามารถนำไปใช้ได้อย่างหลากหลาย อย่างเช่น ในอุตสาหกรรม Health Care ผู้ที่ใช้ประโยชน์จากเทคโนโลยีนี้คือ ฝ่าย admin และหมอ พยาบาล เภสัชกรที่ไม่ถนัดหรือไม่ชื่นชอบการพิมพ์, หรือแม้กระทั่งทางการทหาร ก็สามารถนำเทคโนโลยีนี้ไปใช้เพื่อสั่งการระบบนักบินอัตโนมัติ (Autopilot), ติดตั้งความถี่คลื่นวิทยุ หรือควบคุม flight display เป็นต้น
นอกจากนี้ เทคโนโลยีนี้ยังสามารถนำไปใช้ประโยชน์อย่างอื่นได้อีก เช่น การแปลอัตโนมัติ, การสั่งการรถยนต์, การโทรสนเทศ(Telematics), การรายงานในศาล (Court reporting หรือ Realtime Voice Writing), คอมพิวเตอร์แฮนด์ฟรี, โทรศัพท์มือถือ, หุ่นยนต์, video games, Interactive Voice Response (IVR), Speech-to-text (การแปลเสียงให้เป็นคำพูด) และการควบคุมการจราจรทางอากาศ เป็นต้น
ในต่างประเทศ Application ที่นำเทคโนโลยีนี้ไปใช้กันอย่างค่อนข้างแพร่หลาย ได้แก่ โทรศัพท์ตอบรับอัตโนมัติ เช่น จองตั๋วเครื่องบิน สอบถามรอบฉายภาพยนตร์ หรือการสั่งการอุปกรณ์ไฟฟ้าต่างๆด้วยเสียง แต่ในประเทศไทย เนื่องจากยังไม่สามารถทำ recognizer ที่มีประสิทธิภาพดีเพียงพอที่จะนำมาใช้เชิงธุรกิจได้ จึงยังไม่มีการนำมาใช้มากเท่าใดนัก
ข้อดี
1.       สามารถใช้ได้ในหลายสภาวการณ์ทั้งที่ปกติและไม่ปกติ เช่น ขณะที่มือไม่ว่าง, ต้องการความคล่องตัว, สายตาไม่ว่าง, ไม่ต้องการใช้คีย์บอร์ด, มีข้อจำกัดทางร่างกาย ฯลฯ
2.       ช่วยประหยัดเวลาในการทำงาน
3.       ช่วยอำนวยความสะดวกมากยิ่งขึ้น
ข้อเสีย
1.         ผู้ใช้ต้องออกเสียงชัดเจน และพูดตามอักขระให้ถูกต้อง
2.         ขณะใช้ต้องปราศจากเสียงรบกวนจากภายนอก เพื่อไม่ให้โปรแกรมประมวลผลผิดพลาด
3.         โปรแกรมสามารถแสดงคำพูดได้เป็นหลายคำเช่น “Hello” อาจจะกลายเป็น “Little”  “good old” “who told”
4.         ถ้าใช้ Sound Card ที่ต่ำกว่ามาตรฐานที่โปรแกรมกำหนด จะทำให้ได้ผลที่ได้ไม่ดีนัก

ตัวอย่างการนำไปใช้ในประเทศไทย
รถเข็นคนพิการควบคุมด้วยระบบรู้จำเสียงพูด (Wheelchair Controlled with Speech Recognition System) โดย นายณรงค์รัตน์ เลี้ยวรุ่งโรจน์, นายอนุพงษ์ ธรรมรักษาสิทธิ์ และรศ.ดร.โกสินทร์ จำนงไทย ภาควิชาวิศวกรรมอิเล็กทรอนิกส์และโทรคมนาคม คณะวิศวกรรมศาสตร์ KMUTT ได้นำระบบรู้จำเสียงพูด (Speech Recognition) ใช้ในการควบคุมรถเข็นคนพิการให้เคลื่อนที่ไปในทิศทางต่างๆ โดยกำหนดด้วยคำสั่ง 9 คำสั่ง ประกอบด้วยคำว่า เดินหน้า ถอยหลัง เลี้ยวซ้าย เลี้ยวขวา กึ่งซ้าย กึ่งขวา เร็วขึ้น ช้าลง และหยุด ซึ่งจะเป็นคำสั่งที่ใช้เป็นสัญญาณอินพุตเข้าสู่ระบบ และระบบก็จะประมวลผลตัดสินใจและส่งค่าเอาท์พุต ออกไปควบคุมมอเตอร์เพื่อเคลื่อนรถเข็นคนพิการในทิศทางที่สั่ง ช่วยให้คนพิการสามารถเคลื่อนที่ไปยังจุดหมายปลายทางตามที่ต้องการ และช่วยทำให้เกิดความสะดวกสบายในการเดินทาง
จากกรณีข้างต้น นับเป็นตัวอย่างของการนำเทคโนโลยีมาใช้ในทางที่ถูกต้องและก่อให้เกิดประโยชน์ต่อสังคมอีกด้วย
  น.ส.ภัสสรนันท์ เอนกธรรมกุล 5202115175
                  น.ส.ภัคนิจ แดงสุภา                 5202112602


Slides ppt: http://www.4shared.com/file/WeRTBcSG/SR_all.html

ไม่มีความคิดเห็น:

แสดงความคิดเห็น