Text Analytics – úvod

24. 4. 2020 Azure, Programming

Chcete v dlouhém textu najít klíčové fráze, rozpoznat zabarvení nebo jazyk textu? Toto vše a další vám umožní služba Text Analytics, o které se v tomto článku dozvíte více informací. Tak na co čekáte?

Služba Text Analytics vám zjednodnoduší prácí, při pracování s dlouhými články a dokumenty. Díky této službě v článku jednoduše vyhledáte klíčová slova a fráze. Také rozpoznáte jazyk nebo zabarvení textu. Služba nalezne, pojmenuje a propojí entity, které jsou obsaženy v textu (např. lidé, místa, časy, apod.). Více o těchto funkcích se dozvíte dále.

Funkce

Služba Text Analytics má hned několik funkcí, o kterých se můžete více dozvědět dále:

Detekce jazyka

Máte v textu cizojazyčné slovo a nevíte z jakého je jazyka nebo potřebujete rychle identifikovat jazyk delších dokumentů? Funkce detekce jazyka je odpověď na vaše problémy.

Funkce detkce jazyka umí vyhodnotit textové zadání pro každý dokument a vrátí identifikátory jazyka se skóre, které indikuje sílu analýzy. Dokáže detekovat široké spektrum jazyků, variant, dialektů a některých oblastí a regionů. 

Tato schopnost je užitečná pro uložiště obsahu, která shromažďují libovolné texty, u nichž není jazyk znám. Díky výsledkům této analýzy můžete určit, ve kterém jazyce je vstupní dokument napsaný. Služba vám také vrátí skóre, které určuje spolehlivost modelu. Je uvedeno v procentech pravděpodobnosti. Na obrázku vidíte výsledek vykonaný touto funkcí.

Obrázek funkce Detekce jazyka
Detekce jazyka | Zdroj: microsoft.com

Extrakce klíčových frází

Potřebujete rychle určit klíčové fráze v dlouhých dokumentech a rychle identifikovat tak hlavní body? Vyzkoušejte funkci Extrakce klíčových frází.

Funkce extrakce klíčových frází vyhodnotí nestrukturovaný text a pro každý dokument vrátí seznam klíčových frází. Funguje nejlépe, když jí poskytnete větší množství textu, na kterém chcete pracovat. Užitečná je pak tehdy, když potřebujete rychle identifikovat hlavní body v množství dokumentů.

Když například užijete jako vstupní text „Today is very nice day and many people in Prague are outside,“ což v českém jazyce znamená: „Dnes je velmi hezký den a hodně lidí v Praze je venku,“ vrátí vám služba hlavní body: nice day (hezký den), people (lidé) a Prague (Praha). Na obrázku vidíte výsledek vykonaný touto funkcí.

 Obrázek funkce Extrakce klíčových frází
Extrakce klíčových frází | Zdroj: microsoft.com

Rozpoznávání pojmenovaných entit

Chcete v textu identifikovat různé informace nebo klasifikovat citlivé údaje v textu? S funkcí rozpoznání pojmenovaných entit to není žádný problém.

Funkce rozpoznávání pojmenovaných entit prochází nestrukturovaný text a vrací seznam pojmenovaných entit i propojení entit. Tato funkce umí identifikovat i osobní a citlivé informace, jako je telefonní číslo, e-mailová adresa nebo číslo bankovního účtu. Identifikace těchto entit může pomoci při klasifikaci citlivých dokumentů a redigování osobních údajů.

Rozpoznávání pojmenovaných entit je schopnost identifikovat různé entity v textu a kategorizovat je do předem definovaných tříd nebo typů, jako je například osoba, umístění, událost, produkt a organizace.

Propojení entit je schopnost identifikovat a odstranit identitu entity nalezenou v textu. Aby bylo možné propojit rozpoznané entity v textu, je zapotřebí znalostní databáze v příslušném jazyce. Jako databáze se používá Wikipedie.

Obrázek funkce Rozpoznávání pojmenovaných entit
Rozpoznávání pojmenovaných entit | Zdroj: microsoft.com

Analýza subjektivního hodnocení

Píšete příspěvky na sociální sítě, blogy nebo jiné a potřebujete znát výsledky mínění vašich vět? Funkce analýza subjektivního hodnocení je pro vaše požadavky jako stvořená.

Funkce Analýza subjektivního hodnocení vyhodnotí text a vrátí skóre mínění pro každou větu. Je užitečná při zjišťování pozitivních a záporných mínění v sociálních médiích, na revizích zákazníků, diskusních fórech a dalších.

Služba vám určí skóre mínění pro celý dokument, ale i pro každou větu zvlášť. Na obrázku se můžete podívat, jak tyto výsledky vypadají.

Obrázek funkce Analýza subjektivního hodnocení
Analýza subjektivního hodnocení | Zdroj: microsoft.com

Využití v praxi

Text Analytics je velice užitečná služba, která se dá využít hned několika způsoby. Píšete-li dlouhé texty a máte v nich hledat klíčová slova nebo fráze, služba Text Analytics je vám odpovědí. Umí také zjistit, které zeměpisná místa nebo časy jsou v textu uvedeny. Dokáže rozpoznat, jaký má váš text na čtenáře dojem. Díky ní se ve svých textech perfektně vyznáte a budete vždy vědět, co vše se ve vašem textu nachází.

Shrnutí

Služba Text Analytics vám ušetří čas a práci. Nebudete muset zdlouhavě vyhledávat klíčové fráze nebo slova, rozpoznávat mínění textu nebo hledat entity v dokumentu. Tato služba to udělá za vás a vy tak budete mít více času na svůj osobní rozvoj. Zanedlouho vyjde článek o tom, jak tuto službu nasadit do praxe.

Odkazy

Podklady v anglickém jazyce na:  https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/

Podklady v českém jazyce na:  https://azure.microsoft.com/cs-cz/services/cognitive-services/text-analytics/

Podrobný přehled nákladů této služby na:  https://azure.microsoft.com/cs-cz/pricing/details/cognitive-services/text-analytics/

Nastavení souborů Cookies

1. Co jsou soubory cookies

Soubory cookies jsou krátké textové soubory, které internetová stránka odešle do vašeho prohlížeče. Umožňují internetové stránce zaznamenat informace o vaší návštěvě, například zvolený jazyk a podobně. Následující návštěva stránek tak pro vás může být snazší a příjemnější. Soubory cookies jsou důležité, neboť bez nich by procházení sítě Internet bylo mnohem složitější. Soubory cookies umožňují lepší využití naší internetové stránky a přizpůsobení jejího obsahu vašim potřebám. Soubory cookies používá téměř každá internetová stránka na světě.

2. Druhy souborů cookies

Relační (tedy dočasné) soubory cookies nám umožňují propojovat vaše jednotlivé aktivity po dobu prohlížení těchto internetových stránek. V okamžiku otevření okna vašeho prohlížeče se tyto soubory vytvoří a po zavření okna vašeho prohlížeče se odstraní.

Trvalé soubory cookies nám pomáhají váš počítač identifikovat, jestliže opětovně navštívíte naši internetovou stránku.

3. Využívání souborů cookies

V souladu s ustanovením § 89 odst. 3 zák. č. 127/2005 Sb., o elektronických komunikacích, v účinném znění, si vás tímto dovolujeme informovat, že naše internetové stránky využívají pro svoji činnost soubory cookies, tedy vaše soubory cookies, včetně trvalých, zpracováváme.

Internetové prohlížeče obvykle obsahují správu souborů cookies. V rámci nastavení vašeho prohlížeče tak pravděpodobně můžete jednotlivé soubory cookies ručně mazat, blokovat či zcela zakázat jejich používání. Pro více informací použijte nápovědu vašeho internetového prohlížeče. Jsou-li cookies povoleny, lze toto nastavení internetového prohlížeče považovat za souhlas se zpracováním osobních údajů.

4. Účel použití souborů cookies

K personalizaci obsahu a reklam, poskytování funkcí sociálních médií a analýze naší návštěvnosti využíváme soubory cookies. Informace o tom, jak náš web používáte, sdílíme se svými partnery působícími v oblasti sociálních médií, inzerce a analýz. Používáním internetových stránek vyjadřujete souhlas propojením následujících služeb: Google Analytics, Google Tag Manager, Facebook Pixel, Microsoft Clarity.

Soubory cookies využíváme, kromě účelu uvedeného v předchozím odstavci, pouze pro měření návštěvnosti webové stránky.

5. Správce osobních údajů

Provozovatelem webové stránky studuj.digital a správcem osobních údajů je společnost: pg-sec s.r.o., sídlem Rybná 716/24, Staré Město, 110 00 Praha 1, identifikační číslo 09580905, zapsaná v obchodním rejstříku Městského soudu v Praze, oddíl C, vložka 338028.

​6. Zásady ochrany osobních údajů

Podrobnější informace o souborech cookies a zpracování tvých osobních údajů najdete v našich Zásadách ochrany osobních údajů.

Nezbytné

Tyto soubory cookie jsou nutné pro základní funkce stránky, a jsou proto vždy povolené. Mezi ně patří soubory cookie, které stránce umožňují si vás zapamatovat při procházení stránky v rámci jedné relace nebo, pokud o ně požádáte, mezi relacemi.

Volitelné

Výkon

Tyto soubory cookie nám pomáhají vylepšovat funkce stránek sledováním využití této webové stránky. V některých případech zrychlují zpracování vašeho požadavku a umožňují nám zapamatovat si vaše vybrané předvolby na stránce. Pokud soubory cookie zakážete, může se tím zhoršit přesnost našich doporučení a zpomalit funkčnost stránek.

Sociální média a relamy

Díky souborům cookies sociálních médií si můžete připojit ke svým sociálním sítím a prostřednictvím sociálních médií sdílet obsah z naší webové stránky. Reklamní soubory cookie (třetích stran) shromažďují informace pro lepší přizpůsobení reklamy tvým zájmům, a to na webových stránkách studuj.digital i mimo ně. V některých případech tyto soubory cookies zpracovávají vaše osobní údaje. Pokud chcete získat více informací o zpracování osobních údajů, přečtěte si naše Zásady ochrany osobních údajů. Pokud zakážete soubory cookies, mohou se zobrazovat reklamy, které méně souvisejí s vašimi zájmy, nebo nebudete moci účinně používat odkazy na Facebook, Instagram či jiné sociální sítě anebo nebudete moci sdílet obsah na sociálnch médiích.