Statistik
I denne artikel vil vi gennemgå emnet statistik. Ofte støder man på store mængder data, der kunne fx være et datasæt over alle gymnasieelevernes valg af fritidsinteresser. Umiddelbart kan det være svært at få et overblik over deres valg, men det er der statistikken kommer i spil. Statistik er i bund og grund et værktøj der hjælper os med at få overblik. Der er forskellige former for statistik og i det følgende vil vi gennemgå det man kalder for deskriptiv statistik.
Ikke-grupperede observationer – Typetal, Middelværdi, Varians, Standardafvigelse, Spredning
I den deskriptive statistik findes der to slags observationer, grupperede og ikke-grupperede. Vi starter med at kigge på de ikke grupperede. Vi starter med at kigge på et eksempel. Forneden ses en tabel over skostørrelserne for eleverne i en klasse.
En tabel som den foroven kaldes i statistikkens verden for et observationssæt. Vi vil nu gerne kunne give en statistisk beskrivelse af observationssættet. For at gøre dette benytter man nogen man kalder for statistiske deskriptorer. Vi vil gennemgå tre slags.
Den første kaldes observationssættets størrelse. Observationssættets størrelse angiver det samlede antal observationer. Vi kan se at i eksemplet foroven har vi angivet skostørrelser for 12 elever, dvs. at observationssættets størrelse i eksemplet er 12. Hvis der havde været 22 elever i tabellen, så havde observationssættets størrelse været 22.
Den næste deskriptor vi vil gennemgå kaldes typetallet. Typetallet er den observation der oftest fremgår observationssættet, den mest hyppige observation. Hvis der er flere observationer der har den samme hyppighed, vil der blot være flere observationer.
Vil du blive bedre til statistik opgaver? Så prøv Danmarks førende matematiktræner gratis! Vær igang på under 10 sekunder
Hvis vi kigger på eksemplet kan vi se skostørrelserne 38, 39, 41,42 fremkommer alle sammen 2 gange. Derfor vil typetallene være 38, 39, 41 og 42 i vores eksempel.
Den næste deskriptor vi vil gennemgå er en af de vigtigste og vi kalder den for middelværdien. Middelværdien bliver desuden også ofte kaldt for gennemsnittet og statistikken betegnes den ofte med . Men hvad er middelværdien?
Man kan bestemme middelværdien ved at lægge alle observationerne i observationssættet sammen og dernæst dele med antal observationer.
I det ovenstående eksempel kan vi bestemme middeltallet ved at opskrive
VI kan opskrive et generelt udtryk for middelværdien ved at benytte det matematiske symbol , som kaldes summationstegnet. Ved at benytte summationstegnet kan vi opskrive middelværdien for et observationssæt ved at opskrive udtrykket
Det ovenstående udtryk kan virke skræmmende, men i bund og grund betyder summationstegnet ikke andet end at man lægger samtlige observationer sammen. N’et øverst er antallet af observationer, som i vores eksempel er 12. Nedenunder symbolet står der i = 1, det betyder at man starter med at summere fra det første led. Så i bund og grund er summationstegnet bare en lettere måde at skrive
Nogle gange må man godt være doven i matematikken. Udover kun at bestemme middelværdien, har man ofte brug for at kunne udregne hvordan de observerede værdier spreder sig omkring middelværdien.
Til dette benytter man variansen og standardafvigelsen, som man også kalder spredningen. Variansen er for et observationssæt er givet ved
Så hvad betyder udtrykket foroven?
Variansen er middelværdien af de kvadrerede afvigelser fra middelværdien. Hvis vi vil bestemme variansen for vores eksempel opskriver vi
Prøv selv at gennemregne udtrykket for variansen. Når man har fundet variansen kan man bestemme standardafvigelsen. Standardafvigelsen er defineret ved at være kvadratroden af variansen
Vi kan derfor let bestemme standardafgivelsen for vores eksempel. Vi har i foroven bestemt variansen til at være . Derfor kan vi opskrive et udtryk for standardafvigelsen
Frekvens og kumuleret frekvens
Vi har nu gennemgået nogle af det grundlæggende værktøjer for de ikke-grupperede observationer og nu er vi klar til at gå videre til næste skridt. Vi vil nu kigge på begreberne frekvens og kumuleret frekvens.
Når man skal bestemme frekvensen, så er det i bund og grund hyppigheden af observationen angivet i procent.
Træn mange flere opgaver, som der kommer til din matematik eksamen. Vi er Danmarks bedste!
Forneden har vi opstillet en tabel med observationerne af de forskellige skostørrelser. I anden række har vi angivet hyppigheden af hver enkel skostørrelse.
Den tredje og sidste række angiver frekvensen i procent.
Vi kan fx se at der er to i klassen der har en skostørrelse på 39. Vi ved at der er tolv elever i klassen. Vi kan hurtigt bestemme frekvensen ved blot at dele det antal elever der bruger størrelse 39 med det samlede antal elever og dernæst gange med 100%.
Vi opskriver
De resterende frekvenser bestemmes på samme måde.
Den kumulerede frekvens kan også beskrives som den opsummerede frekvens. Man lægger frekvensen sammen med de forrige frekvenser og dermed ender man altid med at den kumulerede frekvens i den sidste kolonne bliver 100%.
I tabellen forneden har vi opskrevet de kumulerede frekvenser.
Men hvorfor beregner vi overhovedet den kumulerede frekvens?
Når man har beregnet den kumulerede frekvens for et observationssæt kan man hurtigt indhente ny viden om det. Vi kan fx se at 50% af eleverne bruger en størrelse 40 eller derunder og at 25% af eleverne bruger størrelse 38 eller derunder. Der er den slags viden man får ud af et observationssæt når man beregner de kumulerede frekvenser.
Boksplot
Det næste vi vil introducere er det såkaldte boksplot. Et boksplot er et kasseformet plot der hjælper med at give overblik over observationerne. Forneden ses eksempler på to boksplots.
Som man kan se på figuren består et boksplot af en kasse med en lodret streg i. Kassens ende til venstre kaldes den nedre kvartil, kassens lodrette streg kaldes medianen og enden til højre er den øvre kvartil.
Den nedre kvartil svarer til 25% af observationerne, medianen svarer til 50% af observationerne og den øvre kvartil svarer til 75% af observationerne. Det to vandrette streger på hver sin ende af kassen illustrerer observationens nedre og øvre grænse.
Hvis vi fx kigger på det røde boksplot på figuren. Vi kan se at den laveste observation er 155. Den nedre kvartil er 164, dvs at 25% af observationerne havde en værdi på 164 eller mindre. Medianen er 169, den øvre kvartil er 171 og den øvre observationsgrænse er 185.
Lav et boksplot med Ti Nspire
Men hvordan laver vi et boksplot ud fra vores eksempel med skostørrelserne?
For at gøre dette benytter vi et digitalt værktøj. Vi benytter TI-Nspire. Vi starter med at åbne et nyt dokument i Nspire og dernæst vælger vi ”Tilføj Lister og Regneark”
Det næste vi skal gøre er at indskrive observationssættet i regnearket. Dette gøres ligesom på billedet forneden
Vi vælger desuden at kalder rækken ”A” for sko.
Det næste vi gør er at tilføje et plot, dette gøres ved at dele skærmen op og tilføje et ”plot-vindue”. Øverst oppe vælges ”Sidelayout” og vi vælger mulighed nr. 2 som er en vertical split-screen.
Du har nu to vinduer. I det nye vindue vælges ”Tilføj Diagrammer og Statistik”.
Dernæst skal vi vælge ”Tilføj variable” på den vandrette akse, der vælges variablen ”sko”. Nu arrangeres prikkerne som på figuren forneden.
Vi er nu klar til at få Nspire til at lave vores boksplot. Højre klik på skærmen og vælg ”Boxplot”
Nu fremstiller Nspire et boksplot over vores observationer. Ved at bevæge musen rundt kan se de forskellige værdier. Vi kan fx se at den nedre kvartil er 38,5. Hvilket betyder at 25% af eleverne har en skostørrelse på 38,5 eller mindre.
Grupperede observationer – Typeintervallet, Hyppighed
Forneden ses en tabel over aldersfordelingen for medlemmerne i en Golfklub.
Tabellen viser et grupperet observationssæt. I et grupperet observationssæt er de enkelte observationer blevet inddelt i intervaller. Når man arbejder i den deskriptive statistik skrives observationssættet oftest som i tabellen forneden.
Den opmærksomme læser vil hurtigt se at intervallerne er det man kalder for halvåbne. Lad os nu kigge på nogle af de statistiske deskriptorer for et grupperet observationssæt. Det første vi vil kigge på er observationssættets størrelse.
Boost din matematik karakter – kom gratis igang og scor topkarakter med Danmarks førende matematik træner
Observationssættets størrelse angiver det samlede antal observationer. I vores eksempel med golfklubben er det antal medlemmer som kan bestemmes til at være 516.
Den næste statistiske deskriptor er typeintervallet. Typeintervallet er det interval der har størst hyppig, dvs det med flest observationer i. I vores eksempel kan vi se at typeintervallet er ]45-50], da der er 86 medlemmer i den aldersgruppe.
Vi vil nu kigge på hvordan man beregner middelværdien for grupperede observationer. Umiddelbart kan det virke som en umulig opgave da vi ikke kender hver enkelt medlems alder, men kun i hvilken aldersgruppe folk ligger.
Derfor må vi lave en antagelse. Vi antager at medlemmernes alder fordeler sig lige jævnt i hvert interval, og derfor må gennemsnitsalderen i hvert interval blive intervallets midtpunkt som vi betegner . Vi kan derfor opskrive et generelt udtryk for middelværdien for grupperede observationer
hvor angiver intervallets hyppighed og angiver det samlede antal observationer. Lad os beregne middelværdien for vores eksempel
Middelværdien for aldersfordelingen af medlemmer bliver altså 47,50.
Frekvens og kumuleret frekvens for grupperede observationer
Det næste vi skal kigge på er frekvens og kumuleret frekvens. Disse udregnes på præcis sammen måde som for de ikke-grupperede observationerne. Den eneste forskel er at vi her har med Intervalfrekvenser at gøre.
Skemaet forneden viser de forskellige intervalfrekvenser og den kumulerede frekvens. Prøv selv at regne dem efter.
Vi kan afbilde den kumulerede frekvens i såkaldt sumkurve. Første aksen af sumkurven er en skala med intervalendepunkterne, imens andenaksen inddeles fra 0% til 100%. For hvert intervalendepunkt markeres den kumulerede frekvens, og dermed har men en kurve der går fra 0% til 100%.
Lav en sumkurve med Ti Nspire
Når man bliver bedt om at lave en sumkurve skal man benytte et digitalt værktøj. Vi benytter TI-Nspire. Vi vil nu lave en sumkurve over eksemplet med golfklubben.
Start derfor med at åbne et nyt dokument i Nspire og vælg ”Tilføj Lister og Regneark”.
Dernæst skal vi indtaste vores data. Rækken ”B” kalder vi for ”hyp”, der indskrives alle hyppighederne. Række ”C” kalder vi for ”frek”, der skal frekvenserne stå.
Vi kan få Nspire til at udregne alle frekvenserne ved skrive ”frek:=hyp/sum(hyp)*100” i feltet under det felt hvor der står ”frek”.
I række ”D” skriver vi intervallernes endepunkter.
I række ”E” skal vi have indskrevet den kumulerede frekvens. Dette kan vi få Nspire til at gøre ved at skrive ”kumuleret:=cumulativesum(frek)”
Vi har nu det vi skal bruge for at lave sumkurven. Det næste skridt er at dele skærmen op i to
I det tomme vindue vælges ”Tilføj Grafer”
Dernæst vælges ude i venstre side ”Grafindtastninger/Redigér” og dernæst ”Punktplot”.
Nu skal vi have bestemt hvad der skal ud af førsteaksen og andenaksen. Ved ”x” skrives endepunkter og ved ”y” skrives kumuleret.
Dernæst skal vi have tilpasset grafen. Højreklik og vælg ”Vindue/Zoom” og der næst ”Zoom – Data”
Nu fås et plot som vist på figuren forneden.
Det næste vi skal gøre er at forbinde punkterne. Ude i venstre side vælges ”Geometri”, ”Punkter og linjer” og dernæst ”Linjestykke”.
Punkterne forbindes ved at trykke på et punkt og dernæst på det punkt det skal forbindes med. Forbind nu alle punkterne
Vi har nu vores sum kurve. Vi ønsker nu at bestemme nedre og øvre kvartil samt medianen. Det gøres ved at sætte tre vandrette funktioner ind i grafen og dernæst bestemme funktionernes skæringspunkt med sumkurven.
Få hjælp til din matematik forståelse. Vi er anbefalet af lærere og vi er anmelderrost på Trustpilot! Opret dig via Facebook nu og se resultater
Den nedre kvartil bestemmes ved at indsætte funktionen f(x)=25, medianen bestemmes ved at indsætte funktionen f(x)=50 og den øvre kvartil bestemmes ved at indsætte funktionen f(x)=75. Vi starter med at indsætte funktionerne. Ude i venstre side vælges ”Grafindtastning/Redigér” og dernæst ”Funktion”.
Dette gøres tre gange. En gang for hver funktion.
Vi skal nu bestemme skæringspunkterne mellem funktionerne og sumkurven.
Ude i venstre side vælges ”Geometri”, ”Punkter og linjer” og ”Skæringspunkt(er)”
Skæringspunkterne findes ved først at trykke på funktionen og dernæst det linjestykke den skærer med. Når alle tre skæringspunkter er fundet kan man få Nspire til at vise koordinatsættet ved at højreklikke på punktet og vælge ”Koordinater og ligninger”.
Vi kan nu se at den nedre kvartil er 39,8, medianen er 48,7 og den øvre kvartil er 57.
Dette vil sige at 25% af medlemmerne er 39,8 år. 50% eller derunder er 48,7 år og 75% er 57 eller derunder.
Her er der flere artikler du kan læse 🙂
Komplet guide til alt, hvad du skal vide om integral regning, Lær alt om rumgeometri, så du kan forstå det, Læs hvordan Isabell fik 4 til sin matematik eksamen
Share: