data science

Adathalmazok adatelemzéshez a Kaggle weboldalról

adathalmazok adatelemzéshez a Kaggle weboldalról
Szerző Sipos Ottó

Ha belevetetted magadat a data science (adattudomány) tanulásába, első lépésként adathalmazok kellenek, amin majd kipróbálhatod, begyakorolhatod a módszereket, adatelemzéseket.

Több féle adaton is szeretnéd kipróbálni az elsajátított adat elemzési módszert?

Kutass fel ingyenesen elérhető, a közösség által összegyűjtött adathalmazokat.

Adathalmazok (dataset-ek) adatelemzéshez

Az egyik kedvenc weboldalam, ahonnan ingyenes dataset-eket lehet letölteni, a Kaggle.

Sok-sok féle adathalmaz érhető el az oldalon és folyamatosan töltik fel az újakat is.

Olyannyira, hogy a bőség miatt nem is olyan könnyű megtalálni a téged érdeklőket.

Az elemezhető adatokat a Kaggle >> Datasets oldalon találod.

Hol vannak az adathalmazok a Kaggle weboldalon?

Kaggle adathalmazok

Egyszerűen elkezdheted böngészni a listát vagy használhatod a keresőt a számodra érdekes dataset-ek megtalálásához.

Kombinált keresés a dataset-ek között

Nálam hatékonynak bizonyult, ha egyszerre két féle keresést is ráengedek a listára.

Egyrészt használom a Kaggle saját keresőjét: az alábbi képen a „sales”, az értékesítés jellegű adathalmazokra szűkítek vele.

Másrészt bevetem a klasszikus, oldalon belüli keresést, a CTL+F-et: a képen ezzel a „video”-val kapcsolatos dataset-ekre szűrök rá.

A kettős keresés eredményeképpen a listában csak a „sales” jellegű adathalmazok jelennek meg és ezekből kiemelten a videó jellegű eladások.

Hogyan használj kombinálva két keresési lehetőséget a dataset megtalálásához

Kombinált keresés a datasetek között

A módszerhez persze angol szavakat kell használni, de hamar közel juthatsz vele a téged érdeklő elemzési adatokhoz.

Néhány extra karakter az adathalmaz kereséshez

A Kaggle keresője megengedi pár extra karakter használatát.

  1. Ha a keresett kifejezést idézőjelek közé teszed, akkor pontos keresést végezhetsz a kifejezésre. Ha például a „house sales” (ház eladás) kifejezésre keresel idézőjeleket használva, akkor a keresési eredmények között nem jelennek meg a car sales, video sales és hasonló keresések.
  2. Ha + jelet használsz két szó között, akkor az egyik ÉS a másik szóra is történik a keresés. A szavaknak ilyenkor nem kell egymás mellett lenniük.
  3. Ha azt szeretnéd, hogy egyik VAGY a másik szó legyen a találatok között, akkor használj közöttük pipe | jelet.
  4. A * karakterrel helyettesíthetsz betűket. A példa kedvéért a hou* megadásával találatokat haphatsz a house, household, housing és egyéb szavakra.
  5. Ha azt szeretnéd, hogy adott szó ne legyen a találatok között, használj a szó előtt – jelet.

Találatok sorba rendezése

A Kaggle több szempontú sorba rendezést tesz lehetővé.

Kaggle adathalmazok (dataset-ek) sorba rendezése

  • Hotness – mostanában a legtöbb Kaggle használó által használt, népszerű dataset-ek
  • Most voted – amire a legtöbben szavaztak
  • Recently updated – mostanában feltöltött vagy frissített dataset-ek
  • Recently active – legutóbb használt, futtatott adathalmazok
  • Relevence – a keresett szóra, kifejezésre leginkább illeszkedő adathalmazok

Kiemelt és tag-elt dataset-ek

A Kaggle-nél egy team folyamatosan tanulmányozza a dataset-ek megjelenését és használatát.

A véleményük alapján létrejön egy lista az általuk figyelemre méltónak tartott, kiemelt adathalmazokból.

Állíthatod a keresés során, hogy ezek közül szeretnél válogatni vagy a keresésed használja az össze elérhető dataset-et.

A kiemelések mellett egy ideje megjelent a dataset-ek tag-elése. Az adathalmaz mellett található tag-re (címkére) kattintva a címkéhez tartozó összes elérhető dataset megjelenik a listában.

 

A szerzőről

Sipos Ottó

Sipos Ottó a Clear Online és a csaladapa.hu alapítója.
Tudásportálok üzleti, termék és tartalomfejlesztési vezetője.
Digitális marketing szakértő
A Clear Online képzésein 15 éves online vállalkozási tapasztalatát osztja meg veled.