Speech to Text – úvod

6. 3. 2020 Azure, Programming

Chcete odstranit bariéry v komunikaci, šum v pozadí nebo se zapojit do konverzace v reálném čase? Toto vše zvládne služba Speech to Text.

Pomocí služby Speech to Text můžete rychle převádět zvuk z různých zdrojů na text. Tato funkce je součástí služby Speech v balíčku Azure Cognitive Services. Nastavení si můžete přizpůsobit tak, že nebudete muset řešit problémy se stylem řeči, jedinečnými slovníky nebo šumem na pozadí. V reálném čase se pak můžete zapojit do konverzací nebo pomoct komukoli sledovat chod konverzace.

Funkce

Služba Speech to Text poskytuje hned několik funkcí, které vám ulehčí práci. Využívá modely hlubokých neuronových sítí, aby poskytla mimořádně přesné rozpoznání řeči. Aby se všichni účastníci mohli naplno zapojit do konverzace, přepisuje také zvuk na text v reálném čase. Rozpoznávání řeči lze přizpůsobit podle stylu řeči nebo terminologii specifické pro konkrétní oblasti a je provozovatelné kdekoli – v cloudu, v místním prostředí nebo v kontejnerech na hraničních zařízeních.

Microsoft se díky dlouholetému výzkumu jako první vyrovnal člověku v rámci úlohy rozpoznání hovorové řeči od společnosti Switchboard a nadále podporuje špičkový výzkum v oblasti rozpoznávání řeči. Pomocí optimalizace rozpoznávání řeči s využitím přizpůsobených modelů je vám umožněno automatické generování vlastních modelů s využitím vašich dat v Office 365. Například výrazy specifické ve vaší organizaci nebo výrazy specifické pro konkrétní odvětví.

Tato služba vám také umožňuje přepisovat konverzace více uživatelům v reálném čase a umožnit tak účastníkům soustředit se na obsah diskuze. Umí identifikovat, kdo co a kdy řekl, a pak rychle přistupovat k dalším krokům. Díky ní můžete optimalizovat prostředí pro zařízení s více mikrofony a povolením analýzy textového přepisu získáte další informace ze svých konverzací.

Přepis konverzace

Postup, který vidíte na obrázku, najdete níže v číslovaném seznamu.

Scéma funkce Přepis konverzace
Schéma funkce Přepis konverzace | Zdroj: microsoft.com

Na tomto schématu můžete vidět, jak funguje Přepis konverzace. Z vašeho zařízení se pomocí mikrofonu dostanou data do Speech SKD také společně s daty vzorků uživatelů, ke kterým se vám vygeneruje podpis. Pomocí Conversation Transcripton Service získáte identifikaci mluvčího a transkripci řeči. To se vrátí zpátky do Speech SDK a z něj dostanete výpis ID mluvčího a transkripci rozhovoru.

Využití v praxi

Služba Speech to Text je velice užitečná. Jako příklad jejího využití může být zpřístupnění obsahu videokonferencí i postiženým lidem, nebo díky ní nahrát výklad učitele spolužákovi, který zrovna chybí v hodině tak, aby slyšel informace přímo od zdroje a mohl si sám vypsat vše důležité. Také vám umožní získat jakýkoli výklad v textové podobě, takže nezapomenete vaše případné nejasnosti a můžete si je kdykoli dohledat.

Ceník

Tabulka cen za službu Speech to Text | Zdroj: microsoft.com

Shrnutí

Tato služba vám ušetří čas a práci. Nebudete muset zdlouhavě vypisovat to, co chcete vzkázat, ale jednoduše nadiktujete a máte vystaráno. Také vám umožní se zapojovat do konverzací v reálném čase. Je to velice praktická služba, která vám ulehčí život. Článek o podobné službě Text to Speech najdete zde:

Odkazy

Podklady v anglickém jazyce na: https://azure.microsoft.com/en-us/services/cognitive-services/speech-to-text/

Podklady v českém jazyce na: https://azure.microsoft.com/cs-cz/services/cognitive-services/speech-to-text/

Podrobný ceník na: https://azure.microsoft.com/cs-cz/pricing/details/cognitive-services/speech-services/

Další dokumentace k funkci Přepis konverzace na: https://docs.microsoft.com/cs-cz/azure/cognitive-services/speech-service/conversation-transcription