• Grey LinkedIn Icon
  • Facebook
  • Twitter
  • YouTube

Copyright © 2019 Design Your Life – Minden jog fenntartva

  • Bálint Vojnits

Az adatbányászat és gépi tanulás ugyanazt a kérdést taglalja: Hogyan tanulhatunk az adatokból?

Frissítve: 2019. nov 13.


Az adatbányászat nem a digitális korszak találmánya. A koncepció már több mint egy évszázados de nagyobb figyelmet először az 1930-as években kapott.

Hacker Bits szerint az adatbányászat modern használata 1936-ban idult meg, amikor Alan Turing arról ötletelt, mi lenne ha létezne egy olyan automatikus intelligencia, a modern számítógépekhez hasonló számítást végezhet. A Forbes 1950-ben beszámolt az úgynevezett Turing tesztről, ami azt vizsgálta, hogy a számítógép intelligenciája hasonló-e az emberéhez? Ahhoz, hogy a teszt sikerüljön, a számítógépnek emberi gondolkodást kellett szimulálnia. Csak két évvel később hozta létre a világ első öntanuló-programját, az Arthur Samuel a Samuel Checkers-Playing programot. A gép a játék közben minden mozdulatból tanult és tovább fejlődött, így egyre jobbak lettek a nyerési arányai.

Azóta hosszú utat tettünk meg. Ma a Datamindly az adatbányászatot (data mining) és a gépi tanulás (machine learning) tudását arra használja, hogy javítsa ügyfelei gyártói, vagy üzleti folyamatait, hogy a szervezeten belüli személyes kapcsolatokat vizsgálja, vagy egyszerűen új bevételi forrásokat találjon, máskor befektetési döntéseket készít elő.

Mind az adatbányászat, mind a gépi tanulás módszertanok az úgynevezett data science, vagyis tudományos alapokból építkeznek. Bár a két módszertan gyakran átfedésben van egymással, mégis van különbség.

Íme néhány példa az adatbányászat és a gépi tanulás közötti különbségekre és azok alkalmazhatóságára.


Adatok felhasználása

Az adatbányászat és a gépi tanulás egyik legfontosabb különbsége az, hogy hogyan használjuk és alkalmazzuk őket a mindennapi életünkben. Például az adatbányászatot gyakran a gépi tanulás automatizálja adat-kapcsolatok elemzéséhez. Az UBER is gépi tanulást használ az ETA (a megkérkezés várható időpontja) kiszámításához.


Az adatbányászatot számos célra használjuk, ideértve a pénzügyi kutatásokat is. Adatbányászati eszközöket és programozott webes lekérdezéseket használunk ahhoz, hogy meghatározzuk a vállalkozásunk online növekedési lehetőségeit és annak költségeit. Az adatbányászatot az értékesítési tendenciák adatainak összegyűjtése is használjuk a marketingtől egészen a készlet gazdálkodásig. Az adatbányászatot természetesen a közösségi médiaprofilok, a weboldalak adatainak elemzéséhez is használjuk.


A gépi tanulás az adatbányászat alapelveit testesíti meg, miközben az automatikus korrelációkból tanulva új algoritmusokat is gyárt. Pontosan ez a technológia az önjáró autók mögött is, amiknek vezetés közben gyorsan kell alkalmazkodni az új körülményekhez.


Gépi tanulás technológia van a mögött is, amikor azonnali ajánlásokat kapunk egy Amazon termék vásárlásakor.


Banki ügyfeleinket a csalások előrejelzésében segítjük a gépi tanulás technológiájával. A techológiánk képess azonosítani és felszámolni a pénzügyi csalásokat valós időben. A csalások azonnali azonosításával nem csak a Bank ügyfeleit, de a kiskereskedőket is védeni tudjuk.


Alapok a tanuláshoz

Mind az adatbányászat, mind a gépi tanulás alapja ugyanaz, de különböző módon. Az adatbányászat a meglévő információkban keres olyan mintákat, amelyek a döntekben segíthetnek. Egyik retail ügyfelem egy ruházati márka, akinek több millió ügyfélrekordját elemzem: a legjobban eladott termékeket, a legtöbbet visszaküldött termékeket és az ügyfél visszajelzéseit. Ez a folyamat drasztikusan csökkenti raktározás költségeit és célzott temékajánlások segítségével több ruhát segít eladni.


A gépi tanulás a meglévő adatokból teremti meg azt az alapot, amely ahhoz szükséges hogy a gép tanítsa saját magát.


Míg a gépi tanulással meglévő adatmintákat vizsgálva tanuljuk hogyan viselkedjünk és mit tehetünk egy jövőben bekövetkező gazdasági esemény kapcsán, addig az adatbányászatot általában a gépi tanulás információ forrásaként használjuk.


Bár az adatbányászat adatok és paraméterek automatikus keresésére és elemzésére szolgál, az emberi interakció elengedhetetlen, mert az adatbányászat nem látja automatikusan a már meglévő adatok gépi tanuláshoz hasonló mélységű kapcsolatát.


Mintafelismerés

Fontos, hogy a megfelelő szoftvereket és eszközöket használjuk ahhoz, hogy nagy mennyiségű adatot biztonsággal elemezzünk és hasznos mintákat találjunk. Ellenkező esetben az adatok nagy része használhatatlanná válik. Ilyen mintaelemzést használunk értékesítés előrejelzésénél is, ahol azt mondjuk meg, hogy a vásárlási magatartásuk alapján milyen terméket fognak vásárolni bizonyos ügyfelek.

Az igaz, hogy az adatbányászat bizonyos mintákat fedezhet fel csoportba besorolás és szekvenciaelemzés révén, ugyanakkor a gépi tanulás ezt a koncepciót egy lépéssel tovább veszi: ugyanazokkal az algoritmusokkal, mint az adatbányászat a gépi tanulás automatikusan tanul és alkalmazkodik.


Mivel a rosszindulatú programok is egyre eltejedőben vannak, a gépi tanulással olyan mintákat is vizsgálhatunk, amik nagy pontossággal segítenek beazonosítani a rosszindulatú programokat.


Javított pontosság

Mind az adatbányászat, mind a gépi tanulás segít az adatok rendszerezésében, tisztításában és azok pontosságának javításában. Az is igaz, hogy az adatbányászat már meglévő adatstruktúrákat tud használni adatforrásnak, ami meghatározza az adatok gyűjtésének és rendszerezésének módját.


A gépi tanulás egyik legfontosabb alapja tehát maga az adatbányászat. Az adatbányászat segítségével azokhoz a pontos adatokhoz férünk hozzá, amik a gépi tanulás folyamatát finomítja, hogy egyre pontosabb eredményeket érjünk el. Míg egy ember hamar elveszhet az adatstruktúrák összefüggéseiben, míg a gépi tanulási technológia az adatváltozásokat is követve nagyon pontos következtetéseket képes levonni több millió adat összefüggésből egy végső folyamat automatizálásához.


Gépi tanulással kombinálva elemzem ügyfeleim múltbéli CRM adatait, amivel tipikusan konverziót és ügyfélelégedettséget növelek. Azt is meg tudom jósolni, hogy mely termékek és szolgáltatások fognak a legjobban menni, hol és mikor?


Az adatbányászat jövője és a gépi tanulás

A 2020-ra a felhalmozott adatok digitális adattömege 4,4 zettabytes-ról 44 zettabájtra fog nőni a Forbes szerint. Emellett 1,7 megabájt új információt hozunk létre minden másodpercben a bolygón. A több adat tovább növeli az igényt a fejlett adatbányászati ​​és gépi tanulási technikák iránt és arra kényszeríti az iparágat, hogy lépést tartson az adatmennyiség növekedésével. A jövőben valószínű, hogy mégtöbb átfedéseket látunk majd az adatbányászat és a gépi tanulás között, mivel mindkettő érdeke nagy mennyiségű adat gyűjtése és azok felhasználhatósága.


A Bio IT World beszámolója szerint az adatbányászat jövője a prediktív elemzés. Már ma nagyon fejlett analitikát látunk az orvosi kutatások terén. A tudósok már ma képesek prediktív elemzést alkalmazni ahhoz, hogy megjósolják, melyik kezelés fog jobban működni.

Ahhoz képest csak a felszínt kapargatjuk, amikor több milliárt gép kapcsolódik majd össze, a kórházak az autópályákal és a mobil eszközökkel és a gépek egymástól fognak tanulni.



Ha szívesen olvasnál, vagy hallgatnál engem máskor is, akkor e-mailben értesítelek a legfrissebb blogjaimról. Ok?

RENDBEN


5 megtekintés