Speaker Recognition

Chtěli byste si ověřovat svoji identitu pomocí vašeho hlasu? Před pár lety se to mohlo zdát jako sci-fi, dnes je to realita. Podívejte se na tento článek a zjistěte, co všechno Speaker Recognition, jedna ze služeb Azure – Speech services, umí.

Obsah

Co je služba Speaker Recognition

Speaker Recognition dokáže identifikovat a ověřit mluvčího podle jeho jedinečných hlasových charakteristik – pomocí hlasové biometrie.

Jak funguje identifikace mluvčího?

Identifikace mluvčího slouží k určení identity neznámého mluvčího ve skupině lidí a umožňuje přiřadit řeč jednotlivým mluvčím v dané skupině. Při registraci mluvčího dochází k nahrávání hlasu a extrahování jedinečných hlasových prvků, které jsou potřebné k vytvoření hlasového zápisu. Registrace je nezávislá na textu, tudíž mluvčí může říkat cokoliv.

Ve fázi identifikace porovná služba vstupní hlas mluvčího se seznamem zapsaných mluvčích. Speaker Recognition najde nejvíce podobný hlasový záznam a pak ještě pět dalších s podobným skóre v rozsahu od 0 do 1. Pokud žádný z registrovaných zápisů nemá skóre větší nebo rovno 0,5, vrátí se odpověď 0, ,,nebyla nalezena žádná shoda.“

Limity zvukového záznamu:

maximální délka je 120 sekund
maximálně 50 mluvčích
SNshoda schodaR 2dB

Jak funguje ověření mluvčího?

Ověření mluvčího zjednodušuje proces ověřování identity u jednotlivců – a buď na textu závisí anebo na textu nezávisí.

Schéma ověření mluvčího, které u speaker recognition probíhá. — Schéma fungování ověření mluvčího | zdroj: Microsoft.com

Ověření závislé na textu

Při tomto ověřování si mluvčí zvolí specifickou frázi, kterou speaker recognition použije během registrace i během ověřování. Při registraci mluvčího se extrahují hlasové prvky a zároveň je také zvolená přístupová fráze, aby vytvořily jedinečný hlasový zápis. K ověření se používá hlasový podpis společně s přístupovou frází. Když dochází k ověřování mluvčího, záznam hlasu se pošle do rozhraní API, kde se porovná hlas a fráze se zaregistrovaným profilem mluvčího. Vrátí se výsledek v rozsahu 0 – 1, který určuje, jestli byl kandidát přijat, nebo byl zamítnut. Hodnota vetší nebo rovna 0,5 znamená, že mluvčí je přijat.

V aktuální verzi rozhrání API poskytují 10 anglických frází, které si můžete vybrat pro ověření mluvčího. Můžete si také ale vytvořit vlastní přístupová hesla odesláním požadavků do rozhraní API pro ověření závislé na textu.

Limity zvukového záznamu:

maximální délka – 10 sekund
minimální počet nahrávek pro registraci – 3 nahrávky
maximální počet nahrávek pro registraci – 50 nahrávek
pro registraci minimální SNR 2dB
pro ověření minimální SNR 10dB

Ověření nezávislé na textu

Ověření nezávislé na textu se od druhého ověření liší tím, že nemá žádné omezení ohledně toho, co mluvčí říká během zápisu a ověřování hlasové ukázky. Pouze extrahuje hlasové prvky – stejně jako u identifikace mluvčího. Při ověření se porovná hlasová ukázka se zaregistrovaným profilem mluvčího a vrátí se výsledek v rozsahu od 0 do 1, který rozhodne o přijetí nebo nepřijetí mluvčího. Toto ověření se používá k určování zvuku, jestli pochází od živé osoby, nebo je to imitace přihlášeného řečníka.

Limity zvukového záznamu:

maximální délka je 120 sekund
minimální SNR 2dB

Použití služby Speaker Recognition

Speaker Recognition zle využít například u ověřování zákazníků call centra, na přepis schůzek, na personalizaci zařízení pro více uživatelů atd.

Vytvoření Speaker Recognition

K vytvoření Speaker recognition potřebujete:

Upozornění: Speaker recognition aktuálně podporují pouze oblasti „WestUS“.

Závěr

Snad vás služba Speaker Recognition zaujala a budete si ji chtít sami vyzkoušet. Existují také další služby Speech, které si můžete vyzkoušet a které by se vám mohly hodit na zmodernizovaní a vylepšení vašich aplikací. Také by vás mohl zajímat náš článek ,,Speech to text v praxi.“

Co je služba Speaker Recognition

Jak funguje identifikace mluvčího?

Limity zvukového záznamu:

Jak funguje ověření mluvčího?

Ověření závislé na textu

Limity zvukového záznamu:

Ověření nezávislé na textu

Limity zvukového záznamu:

Použití služby Speaker Recognition

Vytvoření Speaker Recognition

Závěr

Doporučené články

Computer Vision – co že to je na tom obrázku?

Speech to Text – úvod

Ink Recognizer – úvod

Form Recognizer – úvod