Text Analytics – úvod

24. 4. 2020 Azure, Programming

Chcete v dlouhém textu najít klíčové fráze, rozpoznat zabarvení nebo jazyk textu? Toto vše a další vám umožní služba Text Analytics, o které se v tomto článku dozvíte více informací. Tak na co čekáte?

Služba Text Analytics vám zjednodnoduší prácí, při pracování s dlouhými články a dokumenty. Díky této službě v článku jednoduše vyhledáte klíčová slova a fráze. Také rozpoznáte jazyk nebo zabarvení textu. Služba nalezne, pojmenuje a propojí entity, které jsou obsaženy v textu (např. lidé, místa, časy, apod.). Více o těchto funkcích se dozvíte dále.

Funkce

Služba Text Analytics má hned několik funkcí, o kterých se můžete více dozvědět dále:

Detekce jazyka

Máte v textu cizojazyčné slovo a nevíte z jakého je jazyka nebo potřebujete rychle identifikovat jazyk delších dokumentů? Funkce detekce jazyka je odpověď na vaše problémy.

Funkce detkce jazyka umí vyhodnotit textové zadání pro každý dokument a vrátí identifikátory jazyka se skóre, které indikuje sílu analýzy. Dokáže detekovat široké spektrum jazyků, variant, dialektů a některých oblastí a regionů. 

Tato schopnost je užitečná pro uložiště obsahu, která shromažďují libovolné texty, u nichž není jazyk znám. Díky výsledkům této analýzy můžete určit, ve kterém jazyce je vstupní dokument napsaný. Služba vám také vrátí skóre, které určuje spolehlivost modelu. Je uvedeno v procentech pravděpodobnosti. Na obrázku vidíte výsledek vykonaný touto funkcí.

Obrázek funkce Detekce jazyka
Detekce jazyka | Zdroj: microsoft.com

Extrakce klíčových frází

Potřebujete rychle určit klíčové fráze v dlouhých dokumentech a rychle identifikovat tak hlavní body? Vyzkoušejte funkci Extrakce klíčových frází.

Funkce extrakce klíčových frází vyhodnotí nestrukturovaný text a pro každý dokument vrátí seznam klíčových frází. Funguje nejlépe, když jí poskytnete větší množství textu, na kterém chcete pracovat. Užitečná je pak tehdy, když potřebujete rychle identifikovat hlavní body v množství dokumentů.

Když například užijete jako vstupní text „Today is very nice day and many people in Prague are outside,“ což v českém jazyce znamená: „Dnes je velmi hezký den a hodně lidí v Praze je venku,“ vrátí vám služba hlavní body: nice day (hezký den), people (lidé) a Prague (Praha). Na obrázku vidíte výsledek vykonaný touto funkcí.

 Obrázek funkce Extrakce klíčových frází
Extrakce klíčových frází | Zdroj: microsoft.com

Rozpoznávání pojmenovaných entit

Chcete v textu identifikovat různé informace nebo klasifikovat citlivé údaje v textu? S funkcí rozpoznání pojmenovaných entit to není žádný problém.

Funkce rozpoznávání pojmenovaných entit prochází nestrukturovaný text a vrací seznam pojmenovaných entit i propojení entit. Tato funkce umí identifikovat i osobní a citlivé informace, jako je telefonní číslo, e-mailová adresa nebo číslo bankovního účtu. Identifikace těchto entit může pomoci při klasifikaci citlivých dokumentů a redigování osobních údajů.

Rozpoznávání pojmenovaných entit je schopnost identifikovat různé entity v textu a kategorizovat je do předem definovaných tříd nebo typů, jako je například osoba, umístění, událost, produkt a organizace.

Propojení entit je schopnost identifikovat a odstranit identitu entity nalezenou v textu. Aby bylo možné propojit rozpoznané entity v textu, je zapotřebí znalostní databáze v příslušném jazyce. Jako databáze se používá Wikipedie.

Obrázek funkce Rozpoznávání pojmenovaných entit
Rozpoznávání pojmenovaných entit | Zdroj: microsoft.com

Analýza subjektivního hodnocení

Píšete příspěvky na sociální sítě, blogy nebo jiné a potřebujete znát výsledky mínění vašich vět? Funkce analýza subjektivního hodnocení je pro vaše požadavky jako stvořená.

Funkce Analýza subjektivního hodnocení vyhodnotí text a vrátí skóre mínění pro každou větu. Je užitečná při zjišťování pozitivních a záporných mínění v sociálních médiích, na revizích zákazníků, diskusních fórech a dalších.

Služba vám určí skóre mínění pro celý dokument, ale i pro každou větu zvlášť. Na obrázku se můžete podívat, jak tyto výsledky vypadají.

Obrázek funkce Analýza subjektivního hodnocení
Analýza subjektivního hodnocení | Zdroj: microsoft.com

Využití v praxi

Text Analytics je velice užitečná služba, která se dá využít hned několika způsoby. Píšete-li dlouhé texty a máte v nich hledat klíčová slova nebo fráze, služba Text Analytics je vám odpovědí. Umí také zjistit, které zeměpisná místa nebo časy jsou v textu uvedeny. Dokáže rozpoznat, jaký má váš text na čtenáře dojem. Díky ní se ve svých textech perfektně vyznáte a budete vždy vědět, co vše se ve vašem textu nachází.

Shrnutí

Služba Text Analytics vám ušetří čas a práci. Nebudete muset zdlouhavě vyhledávat klíčové fráze nebo slova, rozpoznávat mínění textu nebo hledat entity v dokumentu. Tato služba to udělá za vás a vy tak budete mít více času na svůj osobní rozvoj. Zanedlouho vyjde článek o tom, jak tuto službu nasadit do praxe.

Odkazy

Podklady v anglickém jazyce na:  https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/

Podklady v českém jazyce na:  https://azure.microsoft.com/cs-cz/services/cognitive-services/text-analytics/

Podrobný přehled nákladů této služby na:  https://azure.microsoft.com/cs-cz/pricing/details/cognitive-services/text-analytics/