Microsoft का नया भाषण AI सुनें जो 3 सेकंड के ऑडियो से आपकी आवाज़ की नकल करता है
माइक्रोसॉफ्ट ने एक उपकरण का खुलासा किया है जो किसी व्यक्ति की आवाज और भाषण को अनुकरण कर सकता है, जब इसे आधार बनाने के लिए केवल तीन सेकंड का नमूना ऑडियो दिया जाता है।
अनुसंधानों का कहना है कि VALL-E टूल एक प्राकृतिक कोडेक भाषा मॉडल है, और भाषण को संश्लेषित करने के लिए इसका उपयोग किया जा सकता है। विचार टेक्स्ट-टू-स्पीच क्षमताओं में सुधार करना है और इसे थोड़ा और प्राकृतिक बनाना है।
![वर्जिन मीडिया ब्रॉडबैंड डील](/f/01d0a18db7e4319b7d69c2bde924ce25.png)
वर्जिन मीडिया ब्रॉडबैंड डील
इसकी विंटर सेल के हिस्से के रूप में, आप Virgin Media से £33 प्रति माह की दर से 516Mbps की औसत डाउनलोड गति प्राप्त कर सकते हैं। अनुबंध 18 महीने के लिए रहता है और £9.99 स्थापना शुल्क है लेकिन इतनी उच्च गति के लिए, यह बड़े घरों के लिए एक आदर्श खरीद है।
- वर्जिन मीडिया
- 516Mbps औसत गति
- £33/माह
में एक GitHub पर पोस्ट करें, Microsoft का कहना है कि भाषण के बहुत सीमित नमूने के साथ भी, उपकरण आवाज में प्रामाणिकता और भावना को बनाए रखने में सक्षम है।
चाहे वक्ता क्रोधित हो, खुश हो, निराश हो, या नींद में हो VALL-E आवाज का अनुकरण करते समय भावनाओं को बनाए रखने में पॉप हो सकता है। यह अभी तक पूर्ण नहीं है, इससे बहुत दूर है, और ऐसा लगता है कि कुछ मजबूत उच्चारणों के साथ समस्याएं हैं, लेकिन कुल मिलाकर यह अवधारणा के प्रमाण के लिए काफी प्रभावशाली है।
कंपनी ने मेटा द्वारा बनाई गई तकनीक का उपयोग करके टूल को प्रशिक्षित किया। लिब्रीलाइट टूल में 7,000 वक्ताओं से 60,000 घंटे अंग्रेजी भाषा में बोली जाती है। मेटा ने सिग्नल खराब होने पर ऑडियो कॉल पर अंतराल को भरने का प्रयास करने के लिए तकनीक बनाई, लेकिन माइक्रोसॉफ्ट के दिमाग में अन्य लक्ष्य हैं।
![वैल-ई अवलोकन](/f/7783bc7f7e848a647f2b0f52ead73a26.jpg)
जैसा कि एआई से संबंधित किसी भी चीज के साथ होता है, ऐसी आशंका होगी कि प्रौद्योगिकी का दुरुपयोग किया जा सकता है ताकि ऐसा प्रतीत हो सके जैसे किसी ने कुछ ऐसा कहा है जो उन्होंने नहीं किया है। यह कुछ ऐसा है जिसे हम पहले ही वीडियो डीपफेक के साथ अनुभव कर चुके हैं।
हालांकि, अगर तकनीक का सही कारणों से उपयोग किया जाता है, तो यह उन लोगों की मदद कर सकती है, जिनकी आवाज खो गई है, वे अपने भाषण में फिर से दूसरों के साथ संवाद कर सकते हैं।
आप इसे अभी तक अपने लिए नहीं आज़मा सकते, लेकिन Microsoft के पास है बहुत सारे नमूने जारी किए (के जरिए आर्स टेक्निका) तकनीक का प्रदर्शन।
परीक्षणों की व्याख्या करते हुए एक पोस्ट में माइक्रोसॉफ्ट कहता है: “VALL-E संदर्भ में सीखने की क्षमताओं के रूप में उभरता है और इसका उपयोग किया जा सकता है एक ध्वनिक के रूप में एक अनदेखी वक्ता की केवल 3-सेकंड नामांकित रिकॉर्डिंग के साथ उच्च-गुणवत्ता वाले वैयक्तिकृत भाषण को संश्लेषित करें तत्पर। प्रयोग के परिणाम बताते हैं कि वाक् स्वाभाविकता और वक्ता समानता के मामले में VALL-E अत्याधुनिक जीरो-शॉट TTS सिस्टम से महत्वपूर्ण रूप से बेहतर प्रदर्शन करता है। इसके अलावा, हम पाते हैं कि VALL-E वक्ता की भावना और ध्वनिक संकेत के ध्वनिक वातावरण को संश्लेषण में संरक्षित कर सकता है।"
शायद तूमे पसंद आ जाओ…
![2023 में Google से क्या उम्मीद करें](/f/be456d1453898d9813c85f3841af4916.png)
2023 में Google से क्या उम्मीद करें
![2023 में Microsoft से क्या उम्मीद करें](/f/b232b3292ee42b3737ade65fabe8f1c0.png)
2023 में Microsoft से क्या उम्मीद करें
![2023 में Apple से क्या उम्मीद करें: AR, Mac Pro और iPhone 15](/f/8c7109825b427439331f9e6eb873d51a.png)
2023 में Apple से क्या उम्मीद करें: AR, Mac Pro और iPhone 15
हमारी पत्रकारिता पर भरोसा क्यों?
2004 में स्थापित, विश्वसनीय समीक्षा हमारे पाठकों को क्या खरीदना है, इस पर पूरी तरह से, निष्पक्ष और स्वतंत्र सलाह देने के लिए मौजूद है।
आज, हमारे पास दुनिया भर से एक महीने में लाखों उपयोगकर्ता हैं, और एक वर्ष में 1,000 से अधिक उत्पादों का आकलन करते हैं।