Wat zijn gestructureerde gegevens

Voorwaarden waaraan gestructureerde gegevens moeten voldoen.

Gestructureerde gegevens moeten voldoen aan de volgende drie voorwaarden:
  1. Elke gemeten variabele staat in een kolom.
  2. Elke waarneming van de variabele staat in een rij.
  3. Elk type waarneming vormt een tabel.
Figuur 1. Grafische afbeelding van gestructureerde gegevens
Grafische afbeelding van gestructureerde gegevens
Opmerking: Wanneer aan deze drie voorwaarden voldaan wordt heb je in feite de 3e normaalvorm van Codd.

De volgende tabel toont de gegevens van een meting bij een denkbeeldig experiment in een formaat dat je veel tegenkomt.

Naam Behandeling.A Behandeling.B
Melissa 6 7
Roger 18
Vicky 4 1

Wanneer je de rijen en kolommen verwisselt heb je dezelfde gegevens, maar de tabel ziet er dan iets anders uit.

Behandeling Melissa Roger Vicky
Behandeling.A 6 4
Behandeling.B 7 18 1

Gestructureerd ziet de gegevensverzameling er uit zoals in de volgende tabel.

Naam Behandeling Meting
Melissa Behandeling.A 6
Melissa Behandeling.B 7
Roger Behandeling.A
Roger Behandeling.B 18
Vicky Behandeling.A 4
Vicky Behandeling.B 1
Dit maakt de waarden, variabelen en waarnemingen duidelijker. De gegevensverzameling bevat
  • 3 variabelen (kolommen): Naam, Behandeling en Meting.
  • 6 waarnemingen (rijen).
Opmerking: Ga na dat de gegevensverzameling aan de drie voorwaarden voldoet.

Echte gegevensverzamelingen zijn vaak op bijna elke denkbare manier in strijd met de drie voorwaarden voor gestructureerde gegevens. De meest voorkomende problemen bij niet goed gestructureerde gegevensverzamelingen zijn:

  • Kolomkoppen bevatten waarden van een variabele i.p.v. een variabelenaam.
  • Combinatie van variabelen in een kolom.
  • Variabelen in zowel rijen als kolommen.

In de taken hierna zullen in kleine voorbeelden deze problemen gedemonstreerd worden en opgelost worden met behulp van Power Query.