Tech reviews and news

Hören Sie sich die neue Sprach-KI von Microsoft an, die Ihre Stimme aus 3 Sekunden Audio nachahmt

click fraud protection

Microsoft hat ein Tool vorgestellt, das die Stimme und Sprache einer Person simulieren kann, wenn nur drei Sekunden Audiobeispiel als Grundlage zur Verfügung stehen.

Das VALL-E-Tool ist ein natürliches Codec-Sprachmodell, sagen die Forscher, und kann verwendet werden, um Sprache zu synthetisieren. Die Idee ist, die Text-to-Speech-Fähigkeiten zu verbessern und es etwas natürlicher klingen zu lassen.

Breitband-Deal von Virgin Media

Breitband-Deal von Virgin Media

Im Rahmen des Winterschlussverkaufs erhalten Sie bei Virgin Media eine durchschnittliche Download-Geschwindigkeit von 516 Mbit/s für 33 £ pro Monat. Der Vertrag hat eine Laufzeit von 18 Monaten und es gibt eine Installationsgebühr von 9,99 £, aber für so hohe Geschwindigkeiten ist dies ein idealer Kauf für große Haushalte.

  • Jungfrau-Medien
  • 516 Mbit/s Durchschnittsgeschwindigkeit
  • £33/Monat
Angebot ansehen

In einem auf GitHub posten, sagt Microsoft, selbst mit der sehr begrenzten Sprachprobe ist das Tool in der Lage, die Authentizität und Emotion in der Stimme beizubehalten.

Unabhängig davon, ob der Sprecher wütend, amüsiert, angewidert oder schläfrig ist, kann VALL-E einen Knall darin haben, die Emotion aufrechtzuerhalten, wenn es die Stimme simuliert. Es ist weit davon entfernt, noch nicht perfekt zu sein und scheint Probleme mit einigen der stärkeren Akzente zu haben, aber insgesamt ist es für einen Proof of Concept ziemlich beeindruckend.

Das Unternehmen trainierte das Tool mit einer von Meta entwickelten Technologie. Das LibriLight-Tool verfügt über 60.000 Stunden englischsprachige Sprache von 7.000 Sprechern. Meta hat die Technologie entwickelt, um zu versuchen, die Lücken bei Audioanrufen zu füllen, wenn das Signal schlecht ist, aber Microsoft hat andere Ziele im Sinn.

VALL-E-Übersicht
Bildnachweis: Microsoft

Wie bei allem, was mit KI zu tun hat, wird es Befürchtungen geben, dass die Technologie missbraucht werden könnte, um den Anschein zu erwecken, als hätte jemand etwas gesagt, was er nicht gesagt hat. Das haben wir bereits bei Video-Deepfakes erlebt.

Wenn die Technologie jedoch aus den richtigen Gründen eingesetzt wird, könnte sie Menschen, die ihre Stimme verloren haben, helfen, wieder in ihrer eigenen Sprache mit anderen zu kommunizieren.

Sie können es noch nicht selbst ausprobieren, aber Microsoft hat es getan veröffentlichte viele Proben (über Ars Technica) präsentiert die Technologie.

In einem Beitrag, in dem die Versuche erläutert werden, sagt Microsoft: „VALL-E entwickelt kontextbezogene Lernfähigkeiten und kann verwendet werden Synthetisieren Sie qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen registrierten Aufnahme eines unsichtbaren Sprechers als Akustik prompt. Experimentergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Darüber hinaus stellen wir fest, dass VALL-E die Emotionen des Sprechers und die akustische Umgebung der akustischen Aufforderung in der Synthese bewahren kann.“

Du magst vielleicht…

Was Sie 2023 von Google erwarten können

Was Sie 2023 von Google erwarten können

Thomas Dehanvor 2 Wochen
Was Sie 2023 von Microsoft erwarten können

Was Sie 2023 von Microsoft erwarten können

Ryan Jonesvor 2 Wochen
Was Sie 2023 von Apple erwarten können: AR, Mac Pro und iPhone 15

Was Sie 2023 von Apple erwarten können: AR, Mac Pro und iPhone 15

Max Parkervor 2 Wochen

Warum unserem Journalismus vertrauen?

Trusted Reviews wurde 2004 gegründet, um unseren Lesern eine gründliche, unvoreingenommene und unabhängige Kaufempfehlung zu geben.

Heute haben wir jeden Monat Millionen von Benutzern aus der ganzen Welt und bewerten mehr als 1.000 Produkte pro Jahr.

WhatsApp würde Großbritannien verlassen, bevor es die Verschlüsselung schwächt

WhatsApp würde Großbritannien verlassen, bevor es die Verschlüsselung schwächt

Der Leiter von Meta-eigenem WhatsApp sagt, dass es lieber im Vereinigten Königreich blockiert wür...

Weiterlesen

Netflix gibt sich endlich Mühe mit Untertiteln

Netflix gibt sich endlich Mühe mit Untertiteln

Netflix ermöglicht es Zuschauern, das Erscheinungsbild von Untertiteln in seinen TV-Apps anzupass...

Weiterlesen

Sonos Era 100 vs Denon Home 150: Wie schneiden sie ab?

Sonos Era 100 vs Denon Home 150: Wie schneiden sie ab?

Für die meisten scheint der größte Herausforderer von Sonos auf dem Home-Audio-Markt Apple oder s...

Weiterlesen

insta story