Umělá inteligence – 5. díl

12. 7. 2020 Azure, Programming

V minulém díle jsme se podívali na to, jak se vypořádat s chybějícími daty v datasetu, použili pravděpodobnostní funkci a naučili se upravovat metadata. Tentokrát se již začneme věnovat umělé inteligenci a vytrénujeme si první model.

Ti všímavější si jistě říkali, proč se tato série jmenuje „Umělá inteligence,“ když se ji v článcích nevěnujeme. Důvod je takový, že je nutné předem vědět, jak Azure Machine Learning Studio používat. Proto, pokud jste předchozí díly neviděli, doporučuji si je projít před pokračováním.

Úvod

Náplní experimentu v tomto článku bude predikce ceny automobil podle některých parametrů (např. typ paliva – benzín / nafta, lokace motoru – vpředu / vzadu, rozměrech, maximálních otáčkách motoru, a mnoha dalších).

Budeme využívat předpřipravený experiment „Sample 6: Train, Test, Evaluate for Regression: Auto Imports Dataset“.

Screenshot z Azure MLS - kompletní síť experimentu.
kompletní síť experimentu | zdroj: studio.azureml.net/

Teorie

Budeme se věnovat dvěma procesům AI – tréninku (training) a vyhodnocení (evaluation). Netřeba se však bát, jelikož díky MLS se ke kódu ani složité matematice nedostaneme.

Trénink

Pro trénink potřebujeme dataset, který obsahuje všechny informace a hodnoty včetně té, kterou budeme chtít předpovídat (v tomto případě cenu). Při něm si AI vytvoří souvislosti a zjistí, jak moc závisí cena na všech jednotlivých parametrech automobilů.

Vyhodnocení

Druhou fází je vyhodnocení správnosti naší AI, ke které budeme potřebovat také dataset s kompletními daty. Během postupně vyzkouší, jak přesná naše AI je. Funguje to tak, že se pomocí modelu predikuje cena na základě vstupních parametrů (tedy všech parametrů až na cenu) a posléze tuto predikovanou hodnotu porovnáme s hodnotou v datasetu a vypočítáme tzv. odchylku (tedy nějaké procento, jak moc se ceny liší).

Nové bloky

Na obrázku výše jste si mohli všimnout, že nám také přibylo několik nových bloků, pojďme se na ně podívat podrobněji…

Split Data

Blok Split Data nám jeden vstupní dataset rozdělí na dva (jeden pro trénink a druhý pro vyhodnocení), abychom jich nemuseli importovat více. Ve vlastnostech bloku si můžeme nastavit, v jakém poměru se data rozdělí – já použiji výchozí nastavení 60 % a 40 %.

Train Model

V tomto bloku začíná ta pravá „magie“ – trénink.
Jsou zde dva vstupy – nevycvičený model a data. S nimi proběhne algoritmus, který nevycvičený model vycvičí, abychom ho byli schopni použít pro predikci.

Jako data zvolíme první výstup z bloku Split Data (tedy naše tréninková data) a nevycvičený model získáme pomocí některého bloku regrese – Poisson Regression je typ lineární regrese a Decision Forest Regression si představte jako několik rozhodovacích stromů.

Ve vlastnostech bloku můžeme zvolit, které parametry chceme později predikovat.

Screenshot z Azure MLS - výběr parametru k predikci.
výběr dat k pozdější predikci | zdroj: studio.azureml.net/

Score Model

Tento blok slouží pro vyhodnocení, tedy pro predikci cen. První vstup – vycvičený model – získáme jako výstup z bloku Train Model a druhý vstup tvoří opět data automobilů, u kterých chceme cenu predikovat.

Výstupem je nový dataset, který obsahuje sloupec Scored Labels, což jsou predikované ceny.

Evaluate Model

Vstupem jsou dva vyhodnocené datasety, které dostaneme jako výstup dvou bloků Score Model.

Výstupem je porovnání a informace o přesnosti našeho vycvičeného modelu.

Výsledek

Veškerá práce je nyní hotová a my můžeme experiment spustit. Po úspěšném dokončení otevřeme reprezentaci dat pro jeden libovolný blok Score Model a podíváme se na predikované ceny – níže je výsledek z bloku, který má jako vstup první Train Model (vycvičený pomocí Poissnovy regrese) a druhou část dat (testovací).

Screenshot z Azure MLS - predikované ceny.
predikované ceny | zdroj: studio.azureml.net/

Vidíme, že výsledky jsou relativně podobné, jako ceny zadané, přesto se zde objevují i výjimky, kde to uskočí o větší část. To dokazuje, že AI není perfektní, avšak přesnost můžeme zvýšit zvolením jiných postupů pro trénování.

Ve vizualizaci bloku Evaluate Model nalezneme různé typy odchylek. Pro nás bude nejzajímavější Mean Absolute Error (střední absolutní odchylka) – ta vyjadřuje průměrný absolutní rozdíl mezi predikovanou a reálnou cenou. Bude nás také zajímat tzv. Coefficient of Determination (koeficient determinace), který nám udává, jak přesná naše AI je.

Screenshot z Azure MLS - výsledek bloku Evaluate Model.
porovnání dvou výsledků v bloku Evaluate Model | zdroj: studio.azureml.net/

Export vycvičeného modelu

Pokud chceme vycvičený model uložit pro použití později v jiných experimentech / projektech, můžeme si ho uložit mezi tzv. Trained models (viz 2. díl série).

Vybereme si libovolný blok Train Model a otevřeme kontextovou nabídku pomocí pravého kliknutí a v podnabídce Trained Model stiskneme Save as Trained Model. Objeví se dialogové okno, kde si můžeme model pojmenovat.

Screenshot z Azure MLS - uložení vycvičeného modelu.
uložení vycvičeného modelu | zdroj: studio.azureml.net/

Po úspěšném uložení se nám model objeví v sekci Trained Models a také mezi bloky v editoru.

Screenshot z Azure MLS - uložený model v sekci Trained Models.
uložený model v sekci Trained Models | zdroj: studio.azureml.net/
Screenshot z Azure MLS - uložený model v seznamu bloků v editoru.
uložený model v seznamu bloků | zdroj: studio.azureml.net/

Závěr

V tomto článku se objevilo mnoho nových a relativně složitých souvislostí. Pokud jste je napoprvé všechny nepobrali, nezoufejte, zkuste si článek přečíst znovu později. Nebo si můžete pohrát se zapojením a nastavením jednotlivých bloků a sledovat, co se jak mění.

Nastavení souborů Cookies

1. Co jsou soubory cookies

Soubory cookies jsou krátké textové soubory, které internetová stránka odešle do vašeho prohlížeče. Umožňují internetové stránce zaznamenat informace o vaší návštěvě, například zvolený jazyk a podobně. Následující návštěva stránek tak pro vás může být snazší a příjemnější. Soubory cookies jsou důležité, neboť bez nich by procházení sítě Internet bylo mnohem složitější. Soubory cookies umožňují lepší využití naší internetové stránky a přizpůsobení jejího obsahu vašim potřebám. Soubory cookies používá téměř každá internetová stránka na světě.

2. Druhy souborů cookies

Relační (tedy dočasné) soubory cookies nám umožňují propojovat vaše jednotlivé aktivity po dobu prohlížení těchto internetových stránek. V okamžiku otevření okna vašeho prohlížeče se tyto soubory vytvoří a po zavření okna vašeho prohlížeče se odstraní.

Trvalé soubory cookies nám pomáhají váš počítač identifikovat, jestliže opětovně navštívíte naši internetovou stránku.

3. Využívání souborů cookies

V souladu s ustanovením § 89 odst. 3 zák. č. 127/2005 Sb., o elektronických komunikacích, v účinném znění, si vás tímto dovolujeme informovat, že naše internetové stránky využívají pro svoji činnost soubory cookies, tedy vaše soubory cookies, včetně trvalých, zpracováváme.

Internetové prohlížeče obvykle obsahují správu souborů cookies. V rámci nastavení vašeho prohlížeče tak pravděpodobně můžete jednotlivé soubory cookies ručně mazat, blokovat či zcela zakázat jejich používání. Pro více informací použijte nápovědu vašeho internetového prohlížeče. Jsou-li cookies povoleny, lze toto nastavení internetového prohlížeče považovat za souhlas se zpracováním osobních údajů.

4. Účel použití souborů cookies

K personalizaci obsahu a reklam, poskytování funkcí sociálních médií a analýze naší návštěvnosti využíváme soubory cookies. Informace o tom, jak náš web používáte, sdílíme se svými partnery působícími v oblasti sociálních médií, inzerce a analýz. Používáním internetových stránek vyjadřujete souhlas propojením následujících služeb: Google Analytics, Google Tag Manager, Facebook Pixel, Microsoft Clarity.

Soubory cookies využíváme, kromě účelu uvedeného v předchozím odstavci, pouze pro měření návštěvnosti webové stránky.

5. Správce osobních údajů

Provozovatelem webové stránky studuj.digital a správcem osobních údajů je společnost: pg-sec s.r.o., sídlem Rybná 716/24, Staré Město, 110 00 Praha 1, identifikační číslo 09580905, zapsaná v obchodním rejstříku Městského soudu v Praze, oddíl C, vložka 338028.

​6. Zásady ochrany osobních údajů

Podrobnější informace o souborech cookies a zpracování tvých osobních údajů najdete v našich Zásadách ochrany osobních údajů.

Nezbytné

Tyto soubory cookie jsou nutné pro základní funkce stránky, a jsou proto vždy povolené. Mezi ně patří soubory cookie, které stránce umožňují si vás zapamatovat při procházení stránky v rámci jedné relace nebo, pokud o ně požádáte, mezi relacemi.

Volitelné

Výkon

Tyto soubory cookie nám pomáhají vylepšovat funkce stránek sledováním využití této webové stránky. V některých případech zrychlují zpracování vašeho požadavku a umožňují nám zapamatovat si vaše vybrané předvolby na stránce. Pokud soubory cookie zakážete, může se tím zhoršit přesnost našich doporučení a zpomalit funkčnost stránek.

Sociální média a relamy

Díky souborům cookies sociálních médií si můžete připojit ke svým sociálním sítím a prostřednictvím sociálních médií sdílet obsah z naší webové stránky. Reklamní soubory cookie (třetích stran) shromažďují informace pro lepší přizpůsobení reklamy tvým zájmům, a to na webových stránkách studuj.digital i mimo ně. V některých případech tyto soubory cookies zpracovávají vaše osobní údaje. Pokud chcete získat více informací o zpracování osobních údajů, přečtěte si naše Zásady ochrany osobních údajů. Pokud zakážete soubory cookies, mohou se zobrazovat reklamy, které méně souvisejí s vašimi zájmy, nebo nebudete moci účinně používat odkazy na Facebook, Instagram či jiné sociální sítě anebo nebudete moci sdílet obsah na sociálnch médiích.