Umělá inteligence – 4. díl

10. 5. 2020 Azure, Programming

V minulém díle jsme si ukázali knihovny, ze kterých je možné importovat data a jak přiřadit názvy k jednotlivým sloupcům. Dnes se v rámci tohoto seriálu pustíme do editace metadat, nahrazení chybějících dat, vypočítání jednoduché statistiky a vyhodnocení pravděpodobnostní funkce a lineárních korelačních modulů.

TIP: Nezapomeňte, že po výkladové části následuje úkol na procvičení a následné řešení ke kontrole.

Práce s metadaty

V této kapitole si ukážeme, jak editovat metadata, nahrazovat chybějící data, vypočítávat jednoduché statistiky a vyhodnocovat pravděpodobnost funkcí a lineárních korelačních modulů.

Výklad

Vytvoření experimentu

Spustíme si naše Microsoft Azure Machine Learning Studio (dále jen MLS), přihlásíme se a založíme nový experiment z šablon Microsoftu nesoucí název „Sample 2: Dataset Processing and Analysis„.

EXPERIMENTS -> NEW -> EXPERIMENT -> SAMPLE 2 -> OPEN IN STUDIO

založme si nový experiment | zdroj: studio.azureml.net/

Nyní se nám otevřel již hotový experiment. Pojďme si projít jeho jednotlivé části.

Screenshot z apliakce MLS s kompletní sítí experimentu.
kompletní síť experimentu | zdroj: studio.azureml.net/

Import Data

Tento blok importuje data z webového serveru ve formátu CSV.

Edit Metadata #1

Upravuje metadata v námi zvoleném sloupci, tedy prvním. Nezapomeňte správně vyplnit následující možnosti:

Screenshot z apliakce MLS při editaci metadat.
nastavení metadat | zdroj: studio.azureml.net

TIP: Podrobnosti o bloku upravující metadata najdeme na: https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/edit-metadata

Edit Metadata #2

Má totožné možnosti výběru nastavení jako předchozí blok. Na této si ale můžeme navíc ukázat, jak jde nastavit více sloupců najednou.

Screenshot z apliakce MLS při editaci metadat.
nastavení metadat | zdroj: studio.azureml.net

Nyní se dostáváme k rozdělení na tři různé větve, pojďme se nejprve podívat doleva.

Screenshot z apliakce MLS s rozdělením výstupu bloku na tři různé větve.
trojvětví | zdroj: studio.azureml.net

Levá větev

V této větvi se data nejprve vyčistí tak, že se vše chybějící nahradí hodnotou 0. Poté máme možnost zobrazení základní statistiky (Summarize Data) či vyhodnotit pravděpodobnost u sloupce prise (Evalute Probability Function) či lineární korelace (Compute Linear Correlation).

Korelace znamená vzájemný vztah mezi dvěma procesy nebo veličinami. Pokud se jedna z nich mění, mění se korelativně i druhá a naopak.

Screenshot z apliakce MLS zobrazující levou větev.
levá větev | zdroj: studio.azureml.net

Prostřední větev

V druhé větvi se data opět nejprve vyčistí, avšak jiným systémem než minule. Zde jsou chybějící data nahrazena mediánem (střední hodnotou) daného sloupce. Následně se opět z dat vytvoří lineární korelace.

Screenshot z apliakce MLS zobrazující prostřední větev.
prostřední větev | zdroj: studio.azureml.net

Pravá větev

V poslední větvi se nám data vyčistí opět dle jiného klíče než u předchozích větví. Je zde použito tzv. Probability PCA metody. Následně se opět vytvoří jednoduchá lineární korelace.

Probability PCA metoda je technika používaná v případech, kdy potřebujeme doplnit nějaká chybějící data pomocí pravděpodobností.

Screenshot z apliakce MLS zobrazující pravou větev.
pravá větev | zdroj: studio.azureml.net

Práce s experimentem

Nezapomeňte si celý experiment spustit pomocí tlačítka RUN a prohlédnout si výsledky v jednotlivých zobrazovacích blocích.

Úkol na procvičení

Do nového experimentu naimportujte data z této adresy (https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data). Vytvořte názvy sloupců (ty naleznete zde: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/heart-disease.names). Data vyčistěte minimálně třemi způsoby a zobrazte si je v lineární korelaci.

Řešení úkolu

Řešení projektu naleznete v Azure AI Gallery na adrese: https://gallery.azure.ai/Experiment/STC-Learn-Project-02

Závěr

Vyčištění dat je v Azure je velice efektivní. Azure za vás dokáže sám dopočítat chybějící nejpravděpodobnější údaje pomocí spousty algoritmů. Stačí jen vybrat ten pravý.

Nastavení souborů Cookies

1. Co jsou soubory cookies

Soubory cookies jsou krátké textové soubory, které internetová stránka odešle do vašeho prohlížeče. Umožňují internetové stránce zaznamenat informace o vaší návštěvě, například zvolený jazyk a podobně. Následující návštěva stránek tak pro vás může být snazší a příjemnější. Soubory cookies jsou důležité, neboť bez nich by procházení sítě Internet bylo mnohem složitější. Soubory cookies umožňují lepší využití naší internetové stránky a přizpůsobení jejího obsahu vašim potřebám. Soubory cookies používá téměř každá internetová stránka na světě.

2. Druhy souborů cookies

Relační (tedy dočasné) soubory cookies nám umožňují propojovat vaše jednotlivé aktivity po dobu prohlížení těchto internetových stránek. V okamžiku otevření okna vašeho prohlížeče se tyto soubory vytvoří a po zavření okna vašeho prohlížeče se odstraní.

Trvalé soubory cookies nám pomáhají váš počítač identifikovat, jestliže opětovně navštívíte naši internetovou stránku.

3. Využívání souborů cookies

V souladu s ustanovením § 89 odst. 3 zák. č. 127/2005 Sb., o elektronických komunikacích, v účinném znění, si vás tímto dovolujeme informovat, že naše internetové stránky využívají pro svoji činnost soubory cookies, tedy vaše soubory cookies, včetně trvalých, zpracováváme.

Internetové prohlížeče obvykle obsahují správu souborů cookies. V rámci nastavení vašeho prohlížeče tak pravděpodobně můžete jednotlivé soubory cookies ručně mazat, blokovat či zcela zakázat jejich používání. Pro více informací použijte nápovědu vašeho internetového prohlížeče. Jsou-li cookies povoleny, lze toto nastavení internetového prohlížeče považovat za souhlas se zpracováním osobních údajů.

4. Účel použití souborů cookies

K personalizaci obsahu a reklam, poskytování funkcí sociálních médií a analýze naší návštěvnosti využíváme soubory cookies. Informace o tom, jak náš web používáte, sdílíme se svými partnery působícími v oblasti sociálních médií, inzerce a analýz. Používáním internetových stránek vyjadřujete souhlas propojením následujících služeb: Google Analytics, Google Tag Manager, Facebook Pixel, Microsoft Clarity.

Soubory cookies využíváme, kromě účelu uvedeného v předchozím odstavci, pouze pro měření návštěvnosti webové stránky.

5. Správce osobních údajů

Provozovatelem webové stránky studuj.digital a správcem osobních údajů je společnost: pg-sec s.r.o., sídlem Rybná 716/24, Staré Město, 110 00 Praha 1, identifikační číslo 09580905, zapsaná v obchodním rejstříku Městského soudu v Praze, oddíl C, vložka 338028.

​6. Zásady ochrany osobních údajů

Podrobnější informace o souborech cookies a zpracování tvých osobních údajů najdete v našich Zásadách ochrany osobních údajů.

Nezbytné

Tyto soubory cookie jsou nutné pro základní funkce stránky, a jsou proto vždy povolené. Mezi ně patří soubory cookie, které stránce umožňují si vás zapamatovat při procházení stránky v rámci jedné relace nebo, pokud o ně požádáte, mezi relacemi.

Volitelné

Výkon

Tyto soubory cookie nám pomáhají vylepšovat funkce stránek sledováním využití této webové stránky. V některých případech zrychlují zpracování vašeho požadavku a umožňují nám zapamatovat si vaše vybrané předvolby na stránce. Pokud soubory cookie zakážete, může se tím zhoršit přesnost našich doporučení a zpomalit funkčnost stránek.

Sociální média a relamy

Díky souborům cookies sociálních médií si můžete připojit ke svým sociálním sítím a prostřednictvím sociálních médií sdílet obsah z naší webové stránky. Reklamní soubory cookie (třetích stran) shromažďují informace pro lepší přizpůsobení reklamy tvým zájmům, a to na webových stránkách studuj.digital i mimo ně. V některých případech tyto soubory cookies zpracovávají vaše osobní údaje. Pokud chcete získat více informací o zpracování osobních údajů, přečtěte si naše Zásady ochrany osobních údajů. Pokud zakážete soubory cookies, mohou se zobrazovat reklamy, které méně souvisejí s vašimi zájmy, nebo nebudete moci účinně používat odkazy na Facebook, Instagram či jiné sociální sítě anebo nebudete moci sdílet obsah na sociálnch médiích.