वॉयस रिकॉग्निशन को समझना

समस्याओं को खत्म करने के लिए हमारे साधन का प्रयास करें





अपने आप को सोफे पर आराम से बैठने की कल्पना करें और बस अपने कंप्यूटर या लैपटॉप या सेल फोन को आदेश दें जैसे कि पत्र लिखने या कुछ आदेशों को पूरा करने जैसे सरल कार्य करने के लिए। क्या यह संभव है?

बेशक, यह वह जगह है जहाँ वॉयस मान्यता चित्र में आती है।




परिभाषा के अनुसार यह मानव भाषण की मान्यता की प्रक्रिया है और इसे पाठ रूप में डिकोड किया गया है।

सिद्धांत

का मूल सिद्धांत आवाज़ पहचान इस तथ्य को शामिल किया गया है कि किसी भी मनुष्य द्वारा बोली जाने वाली वाणी या शब्द हवा में कंपन पैदा करते हैं, जिसे ध्वनि तरंगों के रूप में जाना जाता है। इन निरंतर या एनालॉग तरंगों को डिजीटल और संसाधित किया जाता है और फिर उपयुक्त शब्दों और फिर उपयुक्त वाक्यों को डिकोड किया जाता है।



आवाज़ पहचान

एक भाषण मान्यता प्रणाली के घटक

तो एक मूल भाषण मान्यता प्रणाली क्या है?

एक भाषण मान्यता प्रणाली के घटक

  • डिवाइस कैप्चर करने वाला एक भाषण : इसमें एक माइक्रोफोन शामिल होता है, जो ध्वनि तरंग संकेतों को विद्युत संकेतों और एक एनालॉग से डिजिटल कनवर्टर में परिवर्तित करता है, जो कि असतत डेटा को प्राप्त करने के लिए एनालॉग संकेतों का नमूना और अंकीयकरण करता है जिसे कंप्यूटर समझ सकता है।
  • एक डिजिटल सिग्नल मॉड्यूल या एक प्रोसेसर : यह कच्चे भाषण सिग्नल पर प्रसंस्करण करता है जैसे आवृत्ति डोमेन रूपांतरण, केवल आवश्यक जानकारी को पुनर्स्थापित करना आदि।
  • प्रीप्रोसेस सिग्नल सिग्नल : प्रीप्रोसेडेड स्पीच को मेमोरी रिकॉग्निशन के आगे के कार्य को करने के लिए मेमोरी में स्टोर किया जाता है।
  • संदर्भ भाषण पैटर्न : कंप्यूटर या सिस्टम में पूर्वनिर्धारित भाषण पैटर्न या मेमोरी में पहले से संग्रहीत टेम्प्लेट होते हैं, जिन्हें मिलान के लिए संदर्भ के रूप में उपयोग किया जाता है।
  • पैटर्न मिलान एल्गोरिथ्म : अज्ञात वाक् संकेत की तुलना संदर्भ भाषण पैटर्न के साथ वास्तविक शब्दों या शब्दों के पैटर्न को निर्धारित करने के लिए की जाती है।
सिस्टम का कार्य करना

अब देखते हैं कि पूरी प्रणाली वास्तव में कैसे काम करती है।


सिस्टम का कार्य करना

  • एक भाषण को ध्वनिक तरंग के रूप में देखा जा सकता है, अर्थात् संदेश की जानकारी ले जाने वाला संकेत। एक सामान्य मनुष्य अपने आर्टिकुलर्स (भाषण अंगों) की गति की सीमित दर के साथ प्रति सेकंड 10 ध्वनियों की औसत दर से भाषण का उत्पादन कर सकता है। औसत सूचना दर लगभग 50-60 बिट्स / सेकंड है। यह वास्तव में भाषण संकेत में केवल 50 बिट्स / सेकंड की जानकारी का मतलब है। यह ध्वनिक तरंग माइक्रोफोन द्वारा एनालॉग विद्युत संकेतों में परिवर्तित किया जाता है। एनालॉग से डिजिटल कनवर्टर इस एनालॉग सिग्नल को असतत अंतराल पर तरंग की सटीक माप लेकर डिजिटल नमूनों में परिवर्तित करता है।
  • डिजिटाइज्ड सिग्नल में 16000 बार प्रति सेकंड के हिसाब से आवधिक संकेतों की एक धारा होती है और यह वास्तविक ले जाने के लिए उपयुक्त नहीं है वाक् पहचान पैटर्न आसानी से स्थित नहीं हो सकता है। वास्तविक जानकारी निकालने के लिए, टाइम डोमेन में सिग्नल को आवृत्ति डोमेन में सिग्नल में परिवर्तित किया जाता है। यह FFT तकनीक का उपयोग करके डिजिटल सिग्नल प्रोसेसर द्वारा किया जाता है। डिजिटल सिग्नल में, घटक प्रत्येक 1/100 के बादवेंएक दूसरे का विश्लेषण किया जाता है और इस तरह के प्रत्येक घटक के लिए आवृत्ति स्पेक्ट्रम की गणना की जाती है। दूसरे शब्दों में डिजिटाइज्ड सिग्नल को आवृत्ति आयामों के छोटे भागों में विभाजित किया जाता है।
  • प्रत्येक खंड या आवृत्ति ग्राफ मानव द्वारा बनाई गई विभिन्न ध्वनियों का प्रतिनिधित्व करता है। कंप्यूटर अज्ञात खंडों के मिलान को किसी विशेष भाषा के संचित ध्वन्यात्मकता के साथ करता है। यह पैटर्न मिलान 3 तरीकों से किया जाता है:

ध्वनिक ध्वन्यात्मक दृष्टिकोण का उपयोग करना : ध्वनिक ध्वन्यात्मक दृष्टिकोण में, आमतौर पर हिडन मार्कोव मॉडल का उपयोग किया जाता है। यह मॉडल भाषण मान्यता के लिए एक गैर निर्धारक संभावना मॉडल विकसित करता है। इस मॉडल में दो चर होते हैं - कंप्यूटर मेमोरी में संग्रहीत फ़ोनेम्स के छिपे हुए राज्य और डिजिटल सिग्नल के दृश्य आवृत्ति खंड। प्रत्येक फोनमेनी की अपनी संभावना होती है और खंड को संभावना के अनुसार मिलान के साथ मिलान किया जाता है और मिलान किए गए स्वरों को फिर भाषा के संग्रहीत व्याकरण नियमों के अनुसार सही शब्द बनाने के लिए एकत्र किया जाता है।

एक पैटर्न मान्यता दृष्टिकोण का उपयोग करना : पैटर्न मान्यता दृष्टिकोण में, सिस्टम को किसी भी भाषा के लिए एक विशेष भाषण पैटर्न के साथ प्रशिक्षित किया जाता है और अज्ञात वाक् पैटर्न की तुलना समय वाकिंग तकनीक का उपयोग करके संकेतों के बीच की दूरी का निर्धारण करके संदर्भ भाषण पैटर्न के साथ की जाती है।

आर्टिफिशियल इंटेलिजेंस का उपयोग करना : आर्टिफिशियल इंटेलिजेंस दृष्टिकोण बुनियादी ज्ञान स्रोतों के उपयोग पर आधारित है जैसे कि वर्णक्रमीय माप के आधार पर बोली जाने वाली ध्वनियों का ज्ञान, उचित सार्थक और वाक्यविन्यास शब्दों का ज्ञान।

कारक जिस पर वाक् पहचान प्रणाली निर्भर करती है

भाषण पहचान प्रणाली निम्नलिखित कारकों पर निर्भर करती है:

  • पृथक शब्द : लगातार बोले जाने वाले शब्दों के बीच एक ठहराव होने की आवश्यकता है क्योंकि निरंतर शब्द एक शब्द के शुरू होने या समाप्त होने पर सिस्टम को समझना मुश्किल बना सकते हैं। इस प्रकार लगातार शब्दों के बीच एक मौन रहने की आवश्यकता है।
  • सिंगल स्पीकर : एक ही समय में भाषण इनपुट देने की कोशिश करने वाले कई स्पीकर सिग्नल और रुकावट के अतिव्यापी हो सकते हैं। अधिकांश भाषण मान्यता प्रणाली का उपयोग स्पीकर निर्भर प्रणाली हैं।
  • शब्दावली का आकार : बड़ी शब्दावली वाली भाषाओं को छोटी शब्दावली वाले उन लोगों की तुलना में पैटर्न मिलान के लिए मुश्किल माना जाता है क्योंकि अस्पष्ट शब्दों के होने की संभावना बाद में कम होती है।
विंडोज 7 पर भाषण मान्यता प्रणाली

मैं भाषण पहचान प्रणाली के लिए विंडोज 7 का उपयोग करने वाले किसी भी व्यक्ति के लिए निम्नलिखित चरणों की सिफारिश करना चाहूंगा

  • स्टार्ट मेनू से या आइकन पर क्लिक करके कंट्रोल पैनल खोलें।
  • पहुँच में आसानी का चयन करें और फिर वाक् पहचान पर क्लिक करें।
  • अगला सेट अप माइक्रोफोन क्लिक करें और उपलब्ध विकल्पों में से डेस्कटॉप माइक्रोफोन चुनें।
  • अगला भाषण ट्यूटोरियल लें और दिए गए निर्देशों का पालन करें।
  • उसके बाद, अपने कंप्यूटर को बेहतर विकल्पों के लिए प्रशिक्षित करें ताकि कंप्यूटर आपके भाषण सिग्नल का एक निश्चित पैटर्न संग्रहीत करे। यह आपके कंप्यूटर को बेहतर तरीके से समझने के लिए your ट्रेन पर क्लिक करके किया जाता है और फिर निर्देशों का पालन करता है।
  • अब स्पीच रिकग्निशन आइकन शुरू करें और अपने भाषण को कंप्यूटर पर डिक्टेट करना शुरू करें। आप अपने खुद के शब्दों को कंप्यूटर शब्दकोश में भी जोड़ सकते हैं।
व्यावहारिक भाषण मान्यता प्रणाली: HM2007 का उपयोग करना

स्पीच रिकॉग्निशन आईसी का उपयोग करके एक व्यावहारिक भाषण पहचान प्रणाली का निर्माण किया जा सकता है HM2007 । HM2007 एक 48 पिन आईसी है जो भाषण पहचान समारोह प्रदान करता है। यह दो मोड में काम करता है: मैनुअल मोड या सीपीयू मोड। दोनों मोड में, आईसी को पहले उपयोगकर्ता द्वारा शब्दों को पहचानने के लिए प्रशिक्षित किया जाता है, जिसमें कहा जाता है कि कुंजी पर दबाए गए प्रत्येक शब्द के लिए प्रत्येक शब्द। आईसी शब्द के अनुरूप मेमोरी लोकेशन में प्रत्येक शब्द सिग्नल को स्टोर करता है। आईसी से डेटा आउटपुट को माइक्रोकंट्रोलर में हस्तक्षेप किया जाता है, जहां से इसे एलसीडी पर प्रदर्शित किया जाता है।

प्रैक्टिकल स्पीच रिकॉग्निशन सिस्टम

आम तौर पर हम HM2007 ऑपरेशन के लिए मैनुअल मोड का उपयोग करते हैं।

  • HM2007 में RDY पिन शामिल है जो एक सक्रिय लो पिन है जो दर्शाता है कि IC प्रशिक्षण उद्देश्य के लिए तैयार है।
  • वॉयस इनपुट IC के MICIN पिन से जुड़े माइक्रोफोन के माध्यम से दिया जाएगा।
  • आईसी एक कीपैड के साथ हस्तक्षेप किया जाता है जो प्रत्येक शब्द के अनुरूप नंबर इनपुट प्रदान करने के लिए उपयोग किया जाता है। IC दो कार्यों में काम करती है - क्लियर और ट्रेन। जब कीबोर्ड पर ट्रेन की को दबाया जाता है, तो आईसी अपनी प्रशिक्षण प्रक्रिया शुरू करता है।
  • उपयोगकर्ता 'ट्रेन' फ़ंक्शन कुंजी को दबाने से पहले एक नंबर कुंजी दबाता है और माइक्रोफोन को आवश्यक शब्द कहता है।
  • IC ME (मेमोरी इनेबल) पिन को एक उच्च सिग्नल भेजता है जो SRAM के संबंधित ME पिन से जुड़ा होता है। दबाए गए संख्या के अनुरूप 8 बिट डेटा सिग्नल SRAM (बाहरी RAM) में बाहरी बस के माध्यम से संग्रहीत किया जाता है।
  • वॉयस इनपुट का पता चलने के बाद, RDY पिन तर्क उच्च पर है और IC मान्यता की स्थिति में आता है, जहां यह मान्यता प्रक्रिया शुरू करता है।
  • प्रक्रिया का परिणाम DEN (डेटा सक्षम) पिन उच्च के साथ डेटा बस के माध्यम से दिया जाता है।
  • 8 बिट डेटा को एक श्रृंखला इंटरफ़ेस प्रोसेसर के माध्यम से माइक्रोकंट्रोलर को दिया जा सकता है या पहले कुंडी आईसी 74HC573 का उपयोग करके किया जा सकता है।
  • माइक्रोकंट्रोलर को एक एलसीडी के साथ इंटरैक्ट किया जाता है और इसे ऐसे प्रोग्राम किया जाता है कि डिस्प्ले पर संबंधित शब्द प्रदर्शित होता है।

केवल एहतियात बरतने की जरूरत है कि होमोनिम्स (समान ध्वनि वाले शब्द) का उपयोग न करें और आवाज में उत्तेजना का भी ध्यान रखें।

तो, यह सब कैसे है मूल भाषण मान्यता प्रणाली काम करता है। आगे जो भी इनपुट जोड़े जाने हैं उनका स्वागत है।

छवि क्रेडिट

भाषण और स्पीकर मान्यता के लिए एक परिचय द्वारा भाषण मान्यता प्रणाली के घटक - रिचर्ड डी। मोर और डेरिल एच। ग्रेफ।