Tech reviews and news

एलेक्सा में अब एक 'कानाफूसी मोड' है और यह आपके सोचने से कहीं अधिक जटिल है

click fraud protection

पिछले सप्ताह नए उत्पादों और विशेषताओं के व्यापक गिरावट के दौरान, अमेज़ॅन ने अपने एलेक्सा व्यक्तिगत सहायक के लिए एक नए कानाफूसी मोड की घोषणा की। यह सुविधा उस विचार के इर्द-गिर्द केंद्रित है, जब आप स्वाभाविक रूप से शांत होते हैं, जैसे कि दिन के समय सुबह जल्दी जब आपका साथी अभी भी सो रहा होगा, या शाम के दौरान जब बच्चे होते हैं सो गया।

हालाँकि, जब कुछ लोग कुछ z पकड़ रहे हैं, तब भी आप एलेक्सा से अपने कम्यूट पर अपडेट के लिए पूछ सकते हैं, या घर के साथी सदस्यों को जगाए बिना सुबह के लिए अलार्म सेट कर सकते हैं। तो अब, यदि आप एलेक्सा में अपनी आज्ञा को कानाफूसी करते हैं, तो वह वापस तरह से कानाफूसी करेगी।

एक सप्ताह पर, अमेज़ॅन है यह बताते हुए कि फीचर कैसे काम करता है, और यह जितना लगता है उससे कहीं अधिक जटिल है। अमेज़ॅन वैज्ञानिक ज़ेनाब रईसी कहते हैं कि फुसफुसाए भाषण आम तौर पर कम ऊर्जा और अप्रकाशित होते हैं, जिसका अर्थ है कि मुखर स्वर में कंपन का अभाव है। यह सुनने के लिए अमेज़ॅन इको जैसे सुनने वाले उपकरण के लिए ध्वनियों को प्रभावी ढंग से लेने के लिए बहुत कठिन बनाता है।

सम्बंधित: आपको कौन सा अमेजन इको खरीदना चाहिए

Raeesy का कहना है कि अमेज़ॅन ने दो अलग-अलग तंत्रिका नेटवर्क के प्रदर्शन की तुलना की ताकि सामान्य रूप से बोले जाने वाले शब्दों और फुसफुसाए के बीच अंतर किया जा सके। उन्होंने पाया कि एक दीर्घकालिक अल्पकालिक मेमोरी (LSTM) नेटवर्क ने बहुपरत परसेप्ट्रॉन (MLP) नेटवर्क की तुलना में बेहतर प्रदर्शन किया

उसने लिखा: “मॉडल को दो श्रेणियों में प्रशिक्षित किया जाता है। एक लॉग फिल्टर-बैंक ऊर्जा है, भाषण सिग्नल का एक काफी सीधा प्रतिनिधित्व है जो विभिन्न आवृत्ति रेंज में सिग्नल ऊर्जा को रिकॉर्ड करता है। अन्य सुविधाओं का एक समूह है जो विशेष रूप से फुसफुसाए और सामान्य भाषण के बीच संकेत अंतर का फायदा उठाने के लिए इंजीनियर है।

"हमने पाया कि एक LSTM नेटवर्क जो दस्तकारी सुविधाओं का उपयोग नहीं करता है और साथ ही साथ एक MLP भी करता है जो करता है।" संकेत मिलता है कि LSTM सीखने में सक्षम हैं कि कौन सी संकेत विशेषताएँ कानाफूसी के लिए सबसे उपयोगी हैं पता लगाना। "

Raeesy ने कहा कि इस दृष्टिकोण के लिए, वहाँ थे कि LSTM नेटवर्क के लिए और अधिक डेटा उजागर किया गया था, कम दस्तकारी सुविधाओं में सुधार की पेशकश की। इसलिए, अब एलेक्सा के भीतर जो मॉडल बैठता है, उसमें दस्तकारी की विशेषताएं शामिल नहीं हैं।

टीम को अन्य समस्याओं को दूर करना पड़ा जिसमें "एंड-पॉइंटिंग" प्रक्रिया शामिल थी। आमतौर पर, एलेक्सा अंत में मौन की अवधि के कारण एक कमांड के अंत का पता लगाने में सक्षम है। यह कानाफूसी के साथ और अधिक समस्याग्रस्त हो जाता है और एलएसटीएम नेटवर्क की क्षमता उच्चारणों के अंत के लिए कम प्रभावी थी।

उसने कहा: “अनपेक्षित रूप से, पूरे सिग्नल से औसत - परेशान अंतिम 50 फ्रेम सहित - सर्वोत्तम परिणाम मिले। हालांकि, हमें संदेह है कि क्योंकि हमारे प्रयोगों में इस्तेमाल किए गए फुसफुसाए भाषण के नमूने थे एलेक्सा के उत्पादन का उपयोग करते हुए, मैन्युअल रूप से खंडित किया गया, जबकि सामान्य भाषण के नमूने स्वचालित रूप से खंडित किए गए थे अंत-सूचक।

“मैनुअल और स्वचालित विभाजन के बीच कुछ सुसंगत अंतर हो सकता है कि प्रणाली वास्तव में थी दो प्रकार के इनपुट को अलग करने के लिए शोषण, और अंतिम 50 फ़्रेमों को छोड़ने से यह अंतर और अधिक कठिन हो गया पता लगाओ। ”

क्या आपको लगता है कि कानाफूसी मोड एलेक्सा के कौशल के लिए एक उपयोगी अतिरिक्त है? हमें ट्विटर पर एक लाइन @TrustedReviews ड्रॉप करें।

डिवीजन 2 का पहला छापा, ऑपरेशन: डार्क ऑवर्स, इस सप्ताह के अंत में आ रहा है

डिवीजन 2 चुपचाप पिछले कुछ महीनों में दूर टिक गया है, सामग्री के मानक पोस्ट-लॉन्च MMO आहार को अपना...

और पढो

सैमसंग रिफ्ट को टक्कर देने के लिए एक हाई-एंड वीआर हेडसेट का निर्माण कर रहा है

सैमसंग और ओकुलस ने पिछले कुछ वर्षों में एक फलदायक, पारस्परिक रूप से लाभप्रद साझेदारी विकसित की है...

और पढो

ऐप्पल ने नाटकीय रूप से भर्ती टीम को काटने के लिए कहा

कहा जाता है कि Apple ने अपनी भर्ती टीम को नाटकीय रूप से कटौती करने के लिए एक और संकेत दिया है कि ...

और पढो

insta story