Mi az a gépi tanulás?
Hogyan működik, miért fontos
A gépi tanulás egy mesterséges intelligencia technika, amely arra tanítja a számítógépeket, hogy tapasztalatokból tanuljanak. A gépi tanulási algoritmusok számítási módszereket használnak arra, hogy közvetlenül az adatokból „tanuljanak meg” információkat anélkül, hogy egy előre meghatározott egyenletre, mint modellre támaszkodnának. Az algoritmusok adaptívan javítják teljesítményüket, ahogy a tanuláshoz elérhető minták száma növekszik. A mélytanulás a gépi tanulás speciális formája.
Hogyan működik a gépi tanulás
A gépi tanulás kétféle technikát használ: a felügyelt tanulást, amely egy modellt képez ismert bemeneti és kimeneti adatokra, hogy megjósolhassa a jövőbeli kimeneteket, és a felügyeletlen tanulás, amely rejtett mintákat vagy belső struktúrákat talál a bemeneti adatokban.
Felügyelt tanulás
A felügyelt gépi tanulás olyan modellt hoz létre, amely bizonytalanság jelenlétében bizonyítékokon alapuló előrejelzéseket készít. A felügyelt tanulási algoritmus a bemeneti adatok ismert halmazát és az adatokra adott ismert válaszokat veszi fel (kimenet), és betanítja a modellt, hogy ésszerű előrejelzéseket generáljon az új adatokra adott válaszra vonatkozóan. Akkor használja a felügyelt tanulást, ha ismert adatokkal rendelkezik a megjósolni kívánt kimenethez.
A felügyelt tanulás osztályozási és regressziós technikákat használ a gépi tanulási modellek fejlesztéséhez.
Az osztályozási technikák diszkrét válaszokat jeleznek előre – például, hogy egy e-mail valódi-e vagy spam, vagy hogy egy daganat rákos vagy jóindulatú-e. Az osztályozási modellek a bemeneti adatokat kategóriákba sorolják. A tipikus alkalmazások közé tartozik az orvosi képalkotás, a beszédfelismerés és a kreditpontozás.
Akkor használja az osztályozást, ha az adatok címkézhetők, kategorizálhatók vagy meghatározott csoportokba vagy osztályokba oszthatók. Például a kézírás-felismerő alkalmazások osztályozást használnak a betűk és számok felismerésére. A képfeldolgozásban és a számítógépes látásban felügyelet nélküli mintafelismerési technikákat használnak a tárgyak észlelésére és a kép szegmentálására. Az osztályozás végrehajtásának számos algoritmusa létezik már.
A regressziós technikák folytonos válaszokat jeleznek előre – például nehezen mérhető fizikai mennyiségeket, mint például az akkumulátor töltöttségi állapota, a hálózat elektromos terhelése vagy a pénzügyi eszközök ára. A tipikus alkalmazások közé tartozik a virtuális érzékelés, az elektromos terhelés előrejelzése és az algoritmikus kereskedés.
Akkor használjon regressziós technikákat, ha adat(tartománnyal) dolgozik, vagy ha a válasz jellege valós szám, például hőmérséklet vagy egy berendezés meghibásodásáig eltelt idő. A regresszió végrehajtására számos algoritmusa létezik már.
Felügyelet nélküli tanulás
A felügyelet nélküli tanulás rejtett mintákat vagy belső struktúrákat talál az adatokban. Arra használják, hogy következtetéseket vonjanak le címkézett válaszok nélküli bemeneti adatokból álló adatkészletekből.
A klaszterezés a leggyakoribb felügyelet nélküli tanulási technika. Feltáró adatelemzésre használják, hogy rejtett mintákat vagy csoportosításokat találjanak az adatokban. A klaszteranalízis alkalmazásai közé tartozik a génszekvencia-elemzés, a piackutatás és az objektumfelismerés.
Például, ha egy mobiltelefon-cég optimalizálni szeretné azokat a helyeket, ahol mobiltelefon-tornyokat építenek, akkor gépi tanulással megbecsülhetik a tornyukra támaszkodó embercsoportok számát. Egy telefon egyszerre csak egy toronyhoz tud beszélni, ezért a csapat klaszterezési algoritmusokat használ a cellatornyok legjobb elhelyezésének megtervezésére, hogy optimalizálja a jelvételt az ügyfelek csoportjai vagy klaszterei számára. A klaszterezés végrehajtásának számos algoritmusa létezik már.
Hogyan dönti el, hogy melyik gépi tanulási algoritmust használja?
A megfelelő algoritmus kiválasztása rendkívül fontos. Több tucat felügyelt és nem felügyelt gépi tanulási algoritmus létezik, és mindegyik más-más megközelítést alkalmaz a tanuláshoz.
Nincs „a legjobb módszer”, vagy egy mindenki számára megfelelő „méret”. A megfelelő algoritmus megtalálása részben csak próbálkozás és hiba váltakozásában rejlik. Még a tapasztalt adattudósok sem tudják megmondani, hogy egy algoritmus működik-e anélkül, hogy kipróbálnák. Az algoritmus kiválasztása azonban attól is függ, hogy mekkora és milyen típusú adatokkal dolgozik, milyen betekintést szeretne nyerni az adatokból, és hogyan fogja ezeket a statisztikákat felhasználni.
Íme néhány irányelv a felügyelt és a felügyelet nélküli gépi tanulás közötti választáshoz:
- Válassza a felügyelt tanulást, ha meg kell tanítania egy modellt, hogy előrejelzést készítsen, például egy folytonos változó jövőbeli értéket, például a hőmérsékletet vagy a részvényárfolyamot, vagy egy osztályozást, például azonosítsa az autókat webkamerás videófelvételek alapján.
- Válassza a felügyelet nélküli tanulást, ha fel kell tárnia adatait, és modellt szeretne betanítani egy jó belső reprezentáció megtalálására, például az adatok klaszterekre való felosztására.