Ha belevetetted magadat a data science (adattudomány) tanulásába, első lépésként adathalmazok kellenek, amin majd kipróbálhatod, begyakorolhatod a módszereket, adatelemzéseket.
Több féle adaton is szeretnéd kipróbálni az elsajátított adat elemzési módszert?
Kutass fel ingyenesen elérhető, a közösség által összegyűjtött adathalmazokat.
Adathalmazok (dataset-ek) adatelemzéshez
Az egyik kedvenc weboldalam, ahonnan ingyenes dataset-eket lehet letölteni, a Kaggle.
Sok-sok féle adathalmaz érhető el az oldalon és folyamatosan töltik fel az újakat is.
Olyannyira, hogy a bőség miatt nem is olyan könnyű megtalálni a téged érdeklőket.
Az elemezhető adatokat a Kaggle >> Datasets oldalon találod.
Egyszerűen elkezdheted böngészni a listát vagy használhatod a keresőt a számodra érdekes dataset-ek megtalálásához.
Kombinált keresés a dataset-ek között
Nálam hatékonynak bizonyult, ha egyszerre két féle keresést is ráengedek a listára.
Egyrészt használom a Kaggle saját keresőjét: az alábbi képen a „sales”, az értékesítés jellegű adathalmazokra szűkítek vele.
Másrészt bevetem a klasszikus, oldalon belüli keresést, a CTL+F-et: a képen ezzel a „video”-val kapcsolatos dataset-ekre szűrök rá.
A kettős keresés eredményeképpen a listában csak a „sales” jellegű adathalmazok jelennek meg és ezekből kiemelten a videó jellegű eladások.
A módszerhez persze angol szavakat kell használni, de hamar közel juthatsz vele a téged érdeklő elemzési adatokhoz.
Néhány extra karakter az adathalmaz kereséshez
A Kaggle keresője megengedi pár extra karakter használatát.
- Ha a keresett kifejezést idézőjelek közé teszed, akkor pontos keresést végezhetsz a kifejezésre. Ha például a „house sales” (ház eladás) kifejezésre keresel idézőjeleket használva, akkor a keresési eredmények között nem jelennek meg a car sales, video sales és hasonló keresések.
- Ha + jelet használsz két szó között, akkor az egyik ÉS a másik szóra is történik a keresés. A szavaknak ilyenkor nem kell egymás mellett lenniük.
- Ha azt szeretnéd, hogy egyik VAGY a másik szó legyen a találatok között, akkor használj közöttük pipe | jelet.
- A * karakterrel helyettesíthetsz betűket. A példa kedvéért a hou* megadásával találatokat haphatsz a house, household, housing és egyéb szavakra.
- Ha azt szeretnéd, hogy adott szó ne legyen a találatok között, használj a szó előtt – jelet.
Találatok sorba rendezése
A Kaggle több szempontú sorba rendezést tesz lehetővé.
- Hotness – mostanában a legtöbb Kaggle használó által használt, népszerű dataset-ek
- Most voted – amire a legtöbben szavaztak
- Recently updated – mostanában feltöltött vagy frissített dataset-ek
- Recently active – legutóbb használt, futtatott adathalmazok
- Relevence – a keresett szóra, kifejezésre leginkább illeszkedő adathalmazok
Kiemelt és tag-elt dataset-ek
A Kaggle-nél egy team folyamatosan tanulmányozza a dataset-ek megjelenését és használatát.
A véleményük alapján létrejön egy lista az általuk figyelemre méltónak tartott, kiemelt adathalmazokból.
Állíthatod a keresés során, hogy ezek közül szeretnél válogatni vagy a keresésed használja az össze elérhető dataset-et.
A kiemelések mellett egy ideje megjelent a dataset-ek tag-elése. Az adathalmaz mellett található tag-re (címkére) kattintva a címkéhez tartozó összes elérhető dataset megjelenik a listában.