50 interessante datasets om gegevens te vinden die je nodig hebt

May 9, 2024
50 interessante datasets om gegevens te vinden

Of je nu een wetenschappelijk project doet, een infographic maakt of een presentatie geeft, gegevens maken alles interessanter.

Als je echter interessante gegevens probeert te verzamelen, wil je je haren uit je hoofd trekken. En niet iedereen heeft de middelen om op grote schaal gegevens te verzamelen.

Gelukkig zijn er genoeg mensen in deze wereld die van mening zijn dat gegevens en datasets zoveel mogelijk gedeeld moeten worden. Zij hebben voldoende middelen gecreëerd om het eenvoudiger te maken.

Waar kan ik gratis datasets vinden?

Gelukkig zijn er genoeg mensen in deze wereld die van mening zijn dat gegevens en datasets zoveel mogelijk gedeeld moeten worden. Zij hebben voldoende middelen gecreëerd om het eenvoudiger te maken.

We hebben het internet afgestruind en hebben 500 van de interessantste datasets gevonden. Om het kort en krachtig te houden, zijn hier 50 datasets om je op weg te helpen.

Om het je gemakkelijker te maken, hebben we de voorbeelden van datasets in enkele categorieën onderverdeeld. Je kunt het zoeken op Google overslaan, en je kunt op de onderstaande links klikken om snel naar de gewenste sectie te gaan.

Voordat je diep in de bronnen duikt als je visuals wilt maken met je gegevens, meld je aan voor een Piktochart account. Het is gratis om te beginnen en je kunt één van de infographics, verslagen, posters, brochures of presentatiesjablonen gebruiken om het gemakkelijker te maken.

Reeksen bedrijfs- en werkgelegenheidsgegevens

datawetenschappers die datasets van bedrijven en werknemers gebruiken om gegevens te visualiseren

1. Crunchbase – Vind bedrijfsinformatie over private en publieke bedrijven. Je kunt opzoeken hoeveel investeringen ze hadden, wie de oprichters waren en of ze fusies of overnames hadden.

2. Glassdoor onderzoek – Glassdoor biedt gegevens over werkgelegenheid. Je kunt bijvoorbeeld berekenen hoeveel je kunt besparen door werknemers te behouden.

3. Open Corporates – Open Corporates is de grootste open database van bedrijven en bedrijfsgegevens ter wereld. Open Corporates wordt gebruikt door banken en overheden en zijn er trots op dat ze de meest nauwkeurige gegevens hebben.

Reeksen gegevens over criminaliteit/conflicten/drugs

4. Uniform Crime Reporting van de FBI – De Uniform Crime Reporting verzamelt statistische misdaadrapporten, publicaties en datapunten van duizenden steden, universiteiten, staten en federale wetshandhavingsinstanties.

5. Uppsala Conflict Data Program – Het Uppsala Conflict Data Program (UCDP) levert gegevens over georganiseerde misdaad en burgeroorlogen over de hele wereld.

6. National Institute on Drug Abuse – Het National Institute on Drug Abuse (NIDA) houdt toezicht op de prevalentie van en trends in drugsmisbruik in de Verenigde Staten.

politieagenten die gegevens streamen

Internet datasets

7. DBpedia – DBpedia heeft als doel de informatie van Wikipedia gemakkelijk doorzoekbaar te maken via SPARQL queries of door de informatie direct te downloaden. Zo kun je bijvoorbeeld zoeken naar NBA-spelers die in de jaren 80 zijn geboren in steden met meer dan 1 miljoen inwoners.

8. Google Trends – Met Google Trends kun je kijken naar wat er in de wereld gebeurt. Het geeft je gegevens over wat populair wordt en hoeveel mensen naar een bepaalde term zoeken, waardoor dit nuttig is voor verkennende gegevensanalyse.

9. Instagram API – Facebook biedt je de mogelijkheid om de API van Instagram te gebruiken om snel toegang te krijgen tot opmerkingen, metagegevens en statistieken.

Wat maakt een infographic opvallend? Deze whitepaper van Piktochart en HubSpot onthult de anatomie van een winnende infographic. Gratis downloaden.

voorbeeld van persoonlijke bestedingsgegevens uit internetdatasets

Financiële datasets

Als je op zoek bent naar economische en financiële gegevens, zoek dan niet verder dan deze topbronnen, die een overvloed aan historische datasets herbergen.

gegevens over aandelenkoersen en economische indicatoren via financiële datasets

10. Comtrade – Officiële gegevensreeksen over de handel in goederen en diensten die worden beheerd door de COMTRADE-database van de VN. Er zijn tools voor datavisualisatie, een API en andere extractietools beschikbaar.

11. Datahub – Beurs – Van goudprijzen en NASDAQ-noteringen tot S&P 500-bedrijven, je vindt het allemaal op datahub.io

12. Wereldwijde financiële gegevens – Global Financial Data geeft je precies wat er op het doosje staat: gegevens over de financiën van de wereld. Variërend van vastgoed en wereldwijde macrogegevens tot marktgegevens.

13. IMF-gegevens – Het IMF, of Internationaal Monetair Fonds, is een organisatie die de monetaire samenwerking tussen landen wil bevorderen. Je kunt gegevens vinden over handel, overheidsfinanciën en financiële ontwikkeling.

14. The Atlas of Economic Complexity – De Atlas of Economic Complexity biedt gegevens over de dynamiek van de wereldhandel in de loop der tijd. Wil je toevallig weten hoeveel textiel China naar Zuid-Korea heeft geëxporteerd? Eitje.

15. Wereldbank – De Wereldbank levert niet alleen financiële gegevens over landen, maar ook gegevens over onderwijs en gezondheid.

16. Financial Times Data – Hier vind je koude, harde cijfers over de verschillende markten in de wereld. De gegevens omvatten schommelingen in valuta, rendementen van obligaties en grondstoffenprijzen.

Gezondheidsgegevens sets

17. Ziektebestrijdingscentrum (CDC) – Het CDC levert kwantitatieve gegevens over een breed scala aan gezondheidsgerelateerde onderwerpen, zoals diabetes, levensverwachting, kanker en obesitas. Ze bieden ook andere bronnen die je kunt gebruiken om meer gegevens te vinden.

18. Enigma Public – gezondheid – Enigma Public noemt zichzelf “de breedste verzameling van openbare gegevens ter wereld”. De voornamelijk op de VS gerichte site biedt gegevens over door voedsel overgedragen uitbraken, Medicare-medicijnuitgaven en OSHA. Het biedt tevens gegevens over andere onderwerpen zoals transport en immigratie.

19. Gezondheidsgegevens – Gezondheidsportaal met meer dan 3.000 waardevolle datasets over epidemiologie en bevolkingsstatistieken, beheerd door het Amerikaanse Department of Health & Human Services. API beschikbaar.

20. NHS Digital – Biedt gegevens over de gezondheidszorg en sociale zorg in het Verenigd Koninkrijk. Wil je weten welke medicijnen worden voorgeschreven door artsen in het Verenigd Koninkrijk? Nu kun je erachter komen.

21. US Food & Drug Administration – De FDA verstrekt gegevens over welke medicijnen momenteel zijn goedgekeurd in de VS. De gegevens worden elke week bijgewerkt. Misschien moet je je Excel-vaardigheden eventjes bijspijkeren, aangezien de gegevens alleen beschikbaar zijn in database- of CSV-vorm.

22. Wereldgezondheidsorganisatie – Zoals de naam al doet vermoeden, levert de WHO gegevens over verschillende gezondheidsgerelateerde onderwerpen. Van verkeersveiligheid, water en sanitaire voorzieningen tot geestelijke gezondheid.

chronische ziekte indicatoren gezondheidszorg dataset

Amusement datasets

23. BFI – Film Forever – Hier vind je gegevens over de filmindustrie in het Verenigd Koninkrijk. Je kunt gegevens vinden over hoe een film de Britse cultuur heeft beïnvloed en in welke mate Avengers: Endgame elke andere film irrelevant maakte in de week dat hij uitkwam.

24. Voetbalgegevens – Wil je weten wie de scheidsrechter was bij een bepaalde football wedstrijd (of voetbal, afhankelijk van waar je vandaan komt) in Schotland? Dan heb je geluk. Voetbalgegevens bieden precies dat, en nog veel meer. De site is sterk gericht op weddenschappen, maar je kunt er ook veel informatie vinden over voetbalwedstrijden uit het verleden.

25. Statista – Videogames – De subcatalogus van Statista, waar je statistieken, feiten en marktgegevens over de wereldwijde videogame-industrie kunt vinden, zoals het aantal games en game-inkomsten.

Gegevensreeksen van de overheid

26. Australische overheidscatalogus – Zoals je misschien al aan de naam kunt zien, is deze dataset gericht op de Australische overheid. Je kunt gegevens vinden over bodemkwaliteit, zeeleven of milieuplanning.

27. Data.gov – De Amerikaanse tegenhanger van de AGC. Stapels gegevens over ongeveer 14 verschillende onderwerpen. Van landbouw en openbare veiligheid tot lokaal bestuur. De datasets zijn ouder, maar nog steeds accuraat en goed te gebruiken.

28. Data.gov.uk – Met meer dan 50 000 datasets is het geen probleem om te vinden wat je wilt weten over de Britse overheid.

29. data.europa.eu – Open dataportaal van de Europese Commissie en andere instellingen van de Europese Unie, met meer dan 14.000 datasets over energie, landbouw of economie.

30. Londen Datastore – Gegevens over het leven in Londen. Wil je weten hoeveel de bevolking in vijf jaar is toegenomen? Of wil je misschien weten hoeveel toeristen ze hadden in vergelijking met vorig kwartaal? Je vindt het in de London Datastore.

31. NYC Open Data – Als Londen niet je ding is, kun je de gegevens voor New York City opzoeken. Je kunt gegevens vinden over corruptie, verkiezingen en media.

32. Open Data Canada – Het officiële overheidsportaal voor het delen van openbare datasets in Canada. Net als de Australian Government Catalogue en Data.gov.

33. UK Data Service – De visie van UK Data Service is om “de samenleving te versterken en het leven van mensen te verbeteren door middel van kwalitatief onderzoek door het ontsluiten van de kracht van gegevens”. Ze werken samen met verschillende instellingen en instanties om gegevens te verzamelen over een breed scala aan onderwerpen.

Transportgegevens sets

34. National Travel & Tourism Office – De site ziet er misschien uit alsof hij in de jaren 90 is gemaakt, maar hij levert goed werk met gegevens over internationaal toerisme in de VS.

35. NYC taxiritgegevens – Hier vind je gedetailleerde gegevens van de NYC Taxi and Limousine Commission. De gegevens omvatten ophaal- en afzetdata/-tijdstippen, ophaal- en afzetlocaties, reisafstanden, gespecificeerde tarieven, tariefsoorten, betaalwijzen en door de bestuurder opgegeven passagiersaantallen.

36. Statista – Reizen – Hier vind je gegevens over verschillende onderwerpen die met toerisme te maken hebben, zoals hotels, vakantiebestemmingen en meer.

37. US Travel Association – De U.S. Travel Association is een non-profitorganisatie die alle onderdelen van de reisindustrie vertegenwoordigt en hoogwaardige onderzoeksgegevens levert over toerisme en transport.

Weer en milieu datasets

38. Africa Climate – Gegevens over milieu en klimaatverandering in Afrikaanse landen, gerapporteerd door grote internationale organisaties zoals de Wereldbank, de WHO en het Wereldfonds.

39. Open AQ – De missie van Open AQ is het bestrijden van luchtvervuiling. Ze voegen fysieke luchtkwaliteitsgegevens samen uit openbare gegevensbronnen van de overheid, onderzoeksbronnen en andere bronnen.

40. Weather.gov – Levert weer-, water- en klimaatgegevens, voorspellingen en waarschuwingen voor de bescherming van levens en de verbetering van de nationale economie. Deze bron biedt historische weergegevens uit de VS.

Diverse datasets

Interessante data gedreven artikelen en bronnen om datasets te vinden

41. Amazon AWS – Amazon biedt een open register van alle open gegevens op AWS. Van satellietbeelden tot webcrawl en IRS-gegevens.

42. Data.World – Biology – Hier vind je open gegevens over biologie die zijn bijgedragen door duizenden gebruikers en organisaties over de hele wereld.

43. NASA Earth Data System – Sinds 1994 zijn de gegevens van NASA over aardwetenschappen gratis en open voor alle gebruikers, voor welk doel dan ook. Het biedt bijna real-time gegevens van cool klinkende meetinstrumenten zoals een Moderate Resolution Imaging Spectroradiometer of een Atmospheric Infrared Sounder. Netjes.

44. FiveThirthyEight – FiveThirtyEight gebruikt harde gegevens en statistische analyses om verhalen te vertellen over politiek, sport, economie en cultuur. In naam van transparantie delen ze de gegevens die in hun artikelen zijn gebruikt.

45. Google openbare gegevens – Meer een zoekmachine voor gegevens.

46. Kaggle – Een data science-community die regelmatig datasets deelt over de meest uiteenlopende onderwerpen en categorieën, zoals de complete FIFA19-spelersdataset, wijnrecensies of röntgenfoto’s van de borstkas.

47. Pew Internet – Pew Research Center is een onpartijdige fact tank die de meest uiteenlopende gegevensbronnen verzamelt. Ook bieden ze de resultaten van hun eigen onderzoek en analyse gratis aan, maar pas twee jaar nadat de rapporten zijn uitgebracht.

48. Reddit – Datasets – Een subreddit voor datasets. Enkele van de toppers van het afgelopen jaar zijn: 480.000 beoordelingen van Rotten Tomato critici, UC Berkeley’s Self-Driving dataset en 1.340 koffieboon beoordelingen.

49. Reeep Data – Gratis datasets over schone energie, inclusief actoren, projectuitkomstdocumenten, landenbeleidsrapporten en meer dan 3.000 termen over schone energie.

50. USDA – Voedingssamenstelling – Het Ministerie van Landbouw van de Verenigde Staten biedt gegevens over de samenstelling en voedingswaarden van verschillende voedingsmiddelen.

Zorg ervoor dat je die interessante datasets goed benut

De juiste gegevens op de juiste manier presenteren kan het verschil maken tussen een doorsnee datavisualisatie-project en een verbazingwekkend goed project.

Sommige publicaties, zoals de Economist Intelligence Unit of Bellingcat, hebben hun hele reputatie gebouwd op hun goede gebruik van gegevens en datasets in hun verslaggeving. En hoewel je niet zo ver hoeft te gaan als zij of hun datawetenschappers, kun je zeker van hen leren voor je dataverwerkingsprojecten.

Maak de bevindingen van je dataset interessant en begrijpelijk

Of je nu je eigen persoonlijke gegevens of publiekelijk toegankelijke gegevens wilt gebruiken (uit de bovenstaande bronnen) voor je datavisualisatie-projecten, zorg ervoor dat je dat doet op een manier die andere mensen kunnen begrijpen en waarvan ze kunnen leren. Een dataset is alleen nuttig als je het kunt presenteren op een manier die opgenomen kan worden door je publiek.

Hoe je je datavisualisatie project tot een goed einde brengt

Of je nu een schoolproject samenstelt op basis van één dataset of dat je een data science-project en/of data science-portfolio afrondt, je moet eerst onderzoek doen en data verkennen.

Als je eenmaal weet waar je je op moet richten, concentreer je dan op dat ene punt dat je wilt overbrengen, gebruik een eenvoudig ontwerp en visualiseer je gegevens op zo’n manier dat ze gemakkelijk te begrijpen zijn.

Hoe je aan de slag kunt om je dataset om te zetten in een visual

Bekijk deze gratis sjablonen waarmee je kunt beginnen om je eigen visuals te maken met gegevens uit geloofwaardige datasets. De gratis infographic maker van Piktochart maakt het je gemakkelijk om gegevens te visualiseren in prachtige visuals.

Gegevens die op de juiste manier worden gepresenteerd, kunnen het verschil maken tussen een middelmatige en fantastische presentatie.

Sommige publicaties, zoals de Economist Intelligence Unit of Bellingcat, hebben hun hele reputatie gebouwd op hun goede gebruik van gegevens in de verslaggeving. En hoewel je niet zo ver hoeft te gaan als zij, kun je zeker van hen leren.

Als je gegevens gaat gebruiken in je projecten, zorg er dan voor dat je dat doet op een manier die andere mensen kunnen begrijpen. Concentreer je op één enkel punt dat je wilt overbrengen, gebruik een eenvoudig ontwerp en visualiseer je gegevens op zo’n manier dat ze gemakkelijk te begrijpen zijn. Bekijk deze gratis sjablonen waarmee je kunt beginnen om je eigen visuals te maken met gegevens.

Ai Ching
Ai Ching Goh