Speaker Recognition

15. 3. 2022 Azure, Programming

Chtěli byste si ověřovat svoji identitu pomocí vašeho hlasu? Před pár lety se to mohlo zdát jako sci-fi, dnes je to realita. Podívejte se na tento článek a zjistěte, co všechno Speaker Recognition, jedna ze služeb Azure – Speech services, umí.

Co je služba Speaker Recognition

Speaker Recognition dokáže identifikovat a ověřit mluvčího podle jeho jedinečných hlasových charakteristik – pomocí hlasové biometrie.

Jak funguje identifikace mluvčího?

Identifikace mluvčího slouží k určení identity neznámého mluvčího ve skupině lidí a umožňuje přiřadit řeč jednotlivým mluvčím v dané skupině. Při registraci mluvčího dochází k nahrávání hlasu a extrahování jedinečných hlasových prvků, které jsou potřebné k vytvoření hlasového zápisu. Registrace je nezávislá na textu, tudíž mluvčí může říkat cokoliv.

Ve fázi identifikace porovná služba vstupní hlas mluvčího se seznamem zapsaných mluvčích. Speaker Recognition najde nejvíce podobný hlasový záznam a pak ještě pět dalších s podobným skóre v rozsahu od 0 do 1. Pokud žádný z registrovaných zápisů nemá skóre větší nebo rovno 0,5, vrátí se odpověď 0, ,,nebyla nalezena žádná shoda.“

Limity zvukového záznamu:

Jak funguje ověření mluvčího?

Ověření mluvčího zjednodušuje proces ověřování identity u jednotlivců – a buď na textu závisí anebo na textu nezávisí.

Schéma ověření mluvčího, které u speaker recognition probíhá.
Schéma fungování ověření mluvčího | zdroj: Microsoft.com

Ověření závislé na textu

Při tomto ověřování si mluvčí zvolí specifickou frázi, kterou speaker recognition použije během registrace i během ověřování. Při registraci mluvčího se extrahují hlasové prvky a zároveň je také zvolená přístupová fráze, aby vytvořily jedinečný hlasový zápis. K ověření se používá hlasový podpis společně s přístupovou frází. Když dochází k ověřování mluvčího, záznam hlasu se pošle do rozhraní API, kde se porovná hlas a fráze se zaregistrovaným profilem mluvčího. Vrátí se výsledek v rozsahu 0 – 1, který určuje, jestli byl kandidát přijat, nebo byl zamítnut. Hodnota vetší nebo rovna 0,5 znamená, že mluvčí je přijat.

V aktuální verzi rozhrání API poskytují 10 anglických frází, které si můžete vybrat pro ověření mluvčího. Můžete si také ale vytvořit vlastní přístupová hesla odesláním požadavků do rozhraní API pro ověření závislé na textu.

Limity zvukového záznamu:

Ověření nezávislé na textu

Ověření nezávislé na textu se od druhého ověření liší tím, že nemá žádné omezení ohledně toho, co mluvčí říká během zápisu a ověřování hlasové ukázky. Pouze extrahuje hlasové prvky – stejně jako u identifikace mluvčího. Při ověření se porovná hlasová ukázka se zaregistrovaným profilem mluvčího a vrátí se výsledek v rozsahu od 0 do 1, který rozhodne o přijetí nebo nepřijetí mluvčího. Toto ověření se používá k určování zvuku, jestli pochází od živé osoby, nebo je to imitace přihlášeného řečníka.

Limity zvukového záznamu:

Použití služby Speaker Recognition

Speaker Recognition zle využít například u ověřování zákazníků call centra, na přepis schůzek, na personalizaci zařízení pro více uživatelů atd.

Vytvoření Speaker Recognition

vytvoření Speaker recognition potřebujete:

Upozornění: Speaker recognition aktuálně podporují pouze oblasti „WestUS“.

Závěr

Snad vás služba Speaker Recognition zaujala a budete si ji chtít sami vyzkoušet. Existují také další služby Speech, které si můžete vyzkoušet a které by se vám mohly hodit na zmodernizovaní a vylepšení vašich aplikací. Také by vás mohl zajímat náš článek ,,Speech to text v praxi.“