Deskriptiv statistik ud fra berømte måleserier

Størrelse: px
Starte visningen fra side:

Download "Deskriptiv statistik ud fra berømte måleserier"

Transkript

1 Deskriptiv statistik ud fra berømte måleserier Newcombes måling af lysets hastighed 1 Newcombe arbejdede sammen med Michelson i slutningen af forrige århundrede og indførte nye teknikker til målingen af lysets hastighed. Det resulterede bl.a. i en serie på 66 præcisionsmålinger af lysets hastighed, som Newcombe foretog i perioden juli-september 1882 ved at måle returtiden for en lysstråle, der blev sendt ned af Potomac-floden og tilbage igen. Derved tilbagelagde lyset i alt en distance på knap 7½ kilometer, hvilket derfor tog i størrelsesordenen 7.5 km km/s 5 = s = ns. De 66 målinger fremgår af det følgende skema med de første 11 målinger i den første kolonne, de næste 11 målinger i den næste kolonne osv.: Det kan jo godt virke lidt uoverskueligt med disse mange data, så for at få et overblik over dem taster i dem ind i en liste på vores lommeregner 2 : Spørgsmålet er nu, hvordan vi skal forholde os til disse data? Hvordan kan vi fx trække en rimelig værdi ud for lysets returtid og derigennem finde en rimelig værdi for lysets hastighed? Som altid kan det da betale sig først at kigge lidt på dataene før vi kaster os ud i vilde beregninger. 1 Efter More and McCabe: Introduction to the Practice of Statistics, 2nd ed, Freeman, side 3. 2 Du kan også indsætte disse data via den ovenstående tabel eller fra den regnearksfil, der er lagt ud på EMU sammen med dette dokument. 1

2 Grafisk inspektion af data Deskriptiv statistik med grafisk lommeregner (TI-84-serien). Vi vil nu foretage forskellige grafiske afbildninger af Newcombes data for at forsøge at forstå, hvordan vi kan trække en rimelig præcis værdi ud for lysets returtid. Sådanne statistiske plots indskrives i, dvs. i STAT PLOT-menuen: De to første plottyper: Punkt-grafer og linje-grafer benyttes til 2-dimensionale datasæt, så vi skal have fat i de fire sidste plottyper, dvs. histogrammet, det udvidede boksplot, det almindelige boksplot og normalfordelingsplottet: Vi starter med histogrammet: Ligeså snart vi har valgt histogrammet ændres de nederste linjer til at vi nu kun kan vælge en x-liste og en hyppighedsliste (idet frequency på engelsk betyder hyppighed på dansk). Den sidste er valgfri, og hvis vi ikke oplyser en hyppighedsliste, sættes alle hyppighederne bare til 1, som vist! Da vores datasæt netop ligger i listen L 1, er vi altså færdige med at indstille plottypen. For at få den tegnet vælger vi nu som sædvanlig ZoomStat (dvs. Zoom 9) og overlader det til maskinen at sætte plottet rimeligt op: 2

3 Som det ses er der afsat rimelig plads til oplysningerne fra en trace. Vi ser også at næsten alle målingerne ligger i to stort set lige store blokke, og at der er afsat plads til 8 blokke i alt. Det er standard for et histogram tegnet med ZoomStat. Men vi kan selvfølgelig nemt gå ind i -menuen og ændre på dette. Læg mærke til at bredden af de enkelte blokke styres af Xscl. Det er lidt ukonventionelt, men meget praktisk. For at sætte antallet af blokke op, skal vi altså blot sætte Xscl tilsvarende ned. Hvis vi fx deler Xscl med 2.5 får vi altså i stedet 20 blokke: Vi får da en mere klokkeformet fordeling men stadig med to tydelige undtagelser til venstre for klokken. Noget tyder altså på at de to laveste målinger er atypiske. Den klokkeformede fordeling tyder også på at fordelingen godt med tilnærmelse kunne være normalfordelt. Det kan vi checke med et normalfordelingsplot. Vi ændrer derfor plottypen: Igen ændrer det drastisk på de følgende indtastningslinjer. Først skal vi oplyse en dataliste (og her er L 1 jo igen netop det rigtige valg). Men så derefter kan vi vælge mellem to forskellige typer normalfordelingsplot, idet vi kan afsætte dataene vandret ud af x-aksen eller lodret op af y-aksen. Da vi har tradition for det første godkende vi maskinens forslag, og beder igen maskinen om selv at tilrettelægge plottet med ZoomStat: Igen skinner de to laveste målinger i øjnene, idet de tydeligt bryder med det retlinjede mønster, der ellers præger dataene. Det ser altså virkeligt ud, som om de to laveste målinger er problematiske! 3

4 Inden vi forlader normalfordelingsplottet vil vi lige komme med en enkelt kommentar til, hvordan det bliver til: Den laveste måling, her 24756, har den kumulerede frekvens 1/66 og afsættes derfor med y-koordinaten invnorm(1/132) = , idet 1/132 er midtpunktet i det første kumulerede frekvensinterval [0;1/66]. Den næstlaveste måling, her 24798, har den kumulerede frekvens 2/66 og afsættes derfor med y-koordinaten invnorm(3/132) = , idet 3/132 er midtpunktet i det næste kumulerede frekvensinterval [1/66;2/66] osv. Atypiske målinger: Hvordan kan vi nu indføre et passende kriterium for hvornår målinger er så atypiske, at de bør give anledning til særlige overvejelser? Her kan det være nyttigt med et udvidet boksplot. Det bygger på en undersøgelse af kvartilerne for det pågældende datasæt. Først må vi derfor forstå kvartilbegrebet, der bygger på en amerikansk konvention, og derved for eksempel adskiller sig fra en engelsk konvention, der igen adskiller sig fra en dansk konvention. Kvartiler er altså ikke noget særligt veldefineret begreb indenfor international statistik! Først definerer vi medianen Med som den midterste observation, hvis antallet af observationer er ulige. Ellers definerer vi det som gennemsnittet af de to midterste observationer, hvis antallet af observationer er lige. Medianen behøver altså ikke selv være en observation! Så definerer vi første halvdel af datasættet, som mængden af de observationer, der går forud for medianen. Tilsvarende definerer vi sidste halvdel af datasættet som mængden af de observationer, der følger efter medianen. Første kvartil Q1 er så medianen for første halvdel af datasættet og sidste kvartil Q3 er medianen for sidste halvdel af datasættet. Her er et par eksempler: Eksempel 1: Datasættet {2, 5, 7, 8, 10, 12} har medianen Med = (7+8)/2 = 7.5 (som er gennemsnittet af de to midterste observationer). Første halvdel af datasættet består så af observationerne {2, 5, 7}, hvorfor den første kvartil er Q1 = 5, mens sidste halvdel af datasættet består af observationerne {8, 10, 12}, hvorfor den sidste kvartil er Q3 = 10. Eksempel 2: Datasættet {1, 3, 3, 5, 7, 7, 10, 12, 12} har medianen Med = 7 (som er den midterste observation). Første halvdel af datasættet består så af observationerne {1, 3, 3, 5}, hvorfor den første kvartil er Q1 = (3+3)/2 = 3, mens sidste halvdel af datasættet består af observationerne {7, 10, 12, 12}, hvorfor den sidste kvartil er givet ved Q3 = (10+12)/2 = 11. I et boksplot afsætter man nu alle observationerne i forhold til de fem statistiske nøgletal: 4

5 mindste observation, første kvartil, medianen, sidste kvartil, største observation minx - Q1 - Med - Q3 - maxx Midterområdet fra første til sidste kvartil, dvs. kvartilboksen, indeholder derfor (stort set) halvdelen af observationerne. Forskellen mellem første og sidste kvartil, dvs. tallet Q3 - Q1 kaldes kvartilbredden. Det angiver altså kvartilboksens længde. Vælger vi det almindelige boksplot, fås derfor (her vist som en montage af fem plots): Den engelske statistiker Tukey foreslog nu i 70 erne at man skulle anvende den følgende regel for atypiske observationer: Tukeys regel En observation er atypisk, hvis dens afstand fra den nærmeste kvartil overstiger 1½ kvartilbredde Der er forskellige måder at begrunde denne regel på, men her noterer vi os blot at den minder om definitionen på et exceptionelt udfald, som er et udfald, hvis afstand til middelværdien er større end 3 spredninger. I det udvidede boksplot afsættes atypiske observationer nu som enkeltpunkter: Begge de to laveste observationer er altså klart atypiske! Spørgsmålet er så blot, hvad vi skal gøre ved dem? Hvis de skyldes fejl i målingerne skal vi selvfølgelig smide dem ud, men de kunne også rumme interessante oplysninger! Den klassiske fejl er at smide dem ud pr automatik: Fx vil mange edb-overvågningsprogrammer smide atypiske målinger ud, fordi man går ud fra at de repræsenterer fejlmålinger, der kan forstyrre den efterfølgende databehandling. Da man benyttede satellitter til at holde øje med ozon-koncentrationen i atmosfæren smed man således i en årrække sommerens ozon-tal for sydpolen ud, da de var atypisk små. Først senere gik det 5

6 op for forskerne, at der ikke var tale om fejlmålinger, men om et reelt og problematisk hul i ozonlaget. Newcombe selv besluttede at smide den laveste væk, men beholde den næstlaveste. Vi vælger at smide dem begge ud, og fortsætter herefter med dataanalysen! Den hurtigste metode til at finde de to mindste observationer i datalisten er nok at sortere listen efter observationernes størrelse. Det gøres ved hjælp af kommandoen SortA( fra [LIST]- menuen (hvor A står for Ascending): Efter at de er smidt ud, får vi nu pæne histogrammer, normalfordelingsplot og udvidede boksplot. De bekræfter vores forventning om, at de resterende 64 målinger opfører sig pænt, dvs. som målinger med tilfældige fejl, der klumper sig sammen om den sande værdi : Således opmuntrede er vi nu grundigt forberedte til at diskutere den numeriske analyse af dataene! 6

7 Enkeltvariabel statistik Den numeriske analyse af datasæt styres via kommandoen 1-var-stats på CALCmenuen under : Vi får da først gennemsnittet og spredningen oplyst for dataene: = σx = NB: Der er to spredningsmål, både standardafvigelsen Sx og spredningen σx. Vi vil ikke her gå i dybden med forskellen på de to spredningsmål. Tilsvarende får vi også medianen og kvartilerne oplyst: Q1 = Med = Q3 = Det minder meget om de foregående oplysninger: medianen har næsten samme værdi som middelværdien og kvartilbredden på 6.5 er af samme størrelsesorden som spredningen. De to typer deskriptorer har hver deres fordele og ulemper: Middelværdien er demokratisk og inddrager alle observationerne på lige fod i udregningen af gennemsnittet. Medianen derimod er robust og påvirkes ikke synderligt af en enkelt eller to fejlmålinger. Men da vi har smidt de atypiske målinger ud, synes det rimeligt at bruge middelværdien som det bedste bud på den sande returtid. målt returtid 24827,75 Men hvor præcis er den? Da vi har mange observationer til rådighed synes det rimeligt at tro, at gennemsnittet er behæftet med langt mindre usikkerhed end de enkelte observationer. De enkelte observationer har usikkerheden σ x = Standardreglen i statistik om virkningen af at tage gennemsnittet af n uafhængige målinger er nu at nedsætte denne usikkerhed med faktoren n 1 svarende til kvadratroden af antallet af frihedsgrader: usikkerheden på den enkelte måling usikkerheden på gennemsnittet = antal frihedsgrader 7

8 Det kan godt virke lidt ejendommeligt, at skulle tage hensyn til antallet af frihedsgrader, men forestil dig at du skulle beregne usikkerheden på gennemsnittet ud fra blot en enkelt observation. Det giver tydeligvis ingen mening. Der skal mindst 2 observationer til, før vi kan vurdere usikkerheden. Man siger derfor, at det er observationerne 2,..,n, der bærer informationen om usikkerheden, og derfor er antallet af frihedsgrader netop n 1. I dette tilfælde er usikkerheden på gennemsnittet derfor givet ved σx σ = = x 63 Det udregnes på lommeregneren ved at hente den statistiske variabel på - Statistics skærmen: På den baggrund kan vi altså slutte, at vi nok kun skal opgive returtiden med højst 1 decimal: målt returtid = 24827,8 ± 0,6 Men er det så virkelig et sandt resultat? Det kan man ikke afgøre statistisk! Sagen er at Newcombes målinger var de første af sin art og byggede på delikate kalibreringer af hans apparatur. Kun efterfølgende og mere sofistikerede målinger kan vise, hvor nøjagtige Newcombes kalibreringer egentlig var. Sådanne senere målinger blev foretaget af bl.a. Michelson i I dag kender vi lysets hastighed langt mere præcist end Newcombe faktisk så præcis, at vi bruger dens værdi som en af de grundlæggende eksakte værdier i SI-systemet: c = m/s Med den viden vi har i dag kan vi regne os frem til, at Newcombe burde have fået returtiden: Sand(!) returtid = ns Den ligger klart uden for Newcombes usikkerhedsinterval. Faktisk er forskellen overraskende stor: = dvs. den sande værdi ligger mere end 8 standardafvigelser fra Newcombes resultat. Det er altså højst exceptionelt, så i dag ved vi derfor, at Newcombe havde problemer med kalibreringen af sit udstyr. Men set med samtidens øjne var hans målinger et afgørende fremskridt! 8

9 Projekt: Cavendish målinger af Jordens densitet 3 I 1798 fandt den engelske fysiker Cavendish Jordens (gennemsnitlige) densitet ved omhyggelige målinger af gravitationskonstanten G udført med en præcis torsionsbalance. Cavendish udtrykte jordens densitet i forhold til vands densitet og opnåede i 29 successive målinger de følgende resultater: 5,50 5,47 5,29 5,55 5,75 5,27 5,57 4,88 5,34 5,34 5,29 5,85 5,42 5,62 5,26 5,30 5,10 5,65 5,61 5,63 5,44 5,36 5,68 5,39 5,53 5,07 5,46 5,79 5,58 *** Undersøg disse data grafisk og numerisk med henblik på bl.a. at diskutere de følgende spørgsmål: Er der atypiske målinger? Er målingerne med tilnærmelse normalfordelte? Hvor præcis en værdi kan man udtrække for Jordens densitet fra disse data? Hvad er den moderne værdi for Jordens densitet? Stemmer den overens med Cavendish målinger? 3 Efter More and McCabe: Introduction to the Practice of Statistics, 2nd ed, Freeman, side 28. 9

10 Avancerede emner 1) Normalfordelingsapproksimationen Zoom 9 med 12 bokse Som vi har set, kan vi tegne histogrammer over måledata nemt og smertefrit, men hvordan får vi indtegnet normalfordelingsapproksimationen til histogrammet? Der skal vi udnytte, at de enkelte kasser i histogrammet har bredden Xscl. Det samlede areal under histogrammet er derfor givet ved n*xscl, hvor n er antallet af observationer. Når vi skal indtegne sandsynlighedstætheden for normalfordelingen, der jo har det samlede areal 1, skal den derfor ganges med n*xscl. Så skal vi have fat i nogle rimelige bud på middelværdien og spredningen for normalfordelingen. Men dem kan vi jo få fra en enkeltvariabelstatistik. Det fineste er da at bruge standardafvigelsen Sx som bud på spredningen, men det gør ikke megen forskel om vi skulle komme til at bruge σx i stedet. Før vi tegner normalfordelingsapproksimationen skal vi altså huske at udføre en enkeltvariabel statistik, dvs. 1-var Statistics på måledataene! Derefter indskriver vi den følgende graffunktion n*xscl*normalpdf(x,, Sx) i graflisten (hvor pdf står for point distribution function). Her henter vi de enkelte statistiske deskriptorer under -Window- og -Statistics-menuen: Spørgsmålet er så selvfølgelig om denne approksimation er overbevisende! Men det er jo det samme problem vi har med normalfordelingsplottet: Hvornår ligner det i tilstrækkelig grad en ret linje. Det ville altså være rart om vi kunne checke lidt mere håndfast, hvor god normalfordelingsapproksimationen egentlig er. Men det kunne vi jo fx gøre ved at udføre en lineær regression på normalfordelingsplottet. Her er X-dataene ikke noget problem. De skal bare sorteres med en SORTA( kommando som forklaret tidligere. Problemet er blot at vi ikke har direkte adgang til Y- dataene! Vi må derfor beregne dem selv, og da sandsynlighedsfordelingerne ikke er liste-robuste, dvs. de virker ikke på lister, må vi selv beregne dem én for én med en sekvens-kommando (fra List-Ops-menuen): 10

11 Dermed er vejen banet for at få udført en almindelig lineær regression på L 1 og L 2 og se, hvor godt det passer med en ret linje: Det ser jo rigtigt pænt ud med en forklaringsgrad på 98,56%. Vi kan så også trække de relevante parametre ud for normalfordelingsapproksimationen. Den rette linje har ligningen X µ 1 µ Y = = X σ σ σ Spredningen er altså givet ved den reciprokke hældning a -1, mens middelværdien er givet ved b/a: Middelværdien er ikke overraskende givet ved den gamle kending , mens spredningen på ligger en anelse højere end de tidligere skøn baseret på enkelt variabel statistik: Sx = og σx = ! Men det ændrer selvfølgelig ikke væsentligt ved de tidligere konklusioner. 11

12 2) Tukeys regel Deskriptiv statistik med grafisk lommeregner (TI-84-serien). Ifølge Tukeys regel er en observation atypisk, hvis dens afstand til nærmeste kvartilværdi overstiger 1,5 kvartilbredder. Hvordan kan man nu begrunde en sådan regel? Den nemmeste måde at forstå den på er at se på et normalfordelt observationsmateriale. Hvis datasættet er standardnormalfordelt med middelværdi 0 og spredning 1, så ligger første kvartil efter de første 25% af observationerne, dvs. Q1 = invnorm(0.25) = eller ca. 2/3. Tilsvarende ligger sidste kvartil efter de første 75% af observationerne, dvs. Q3 = invnorm(0.75) = eller ca. 2/3. I runde tal er kvartilbredden for en standardnormalfordeling derfor 4/3. Halvanden kvartilbredde er derfor i runde tal givet ved 3/2 4/3 = 2. Vi ser derfor at for et normalfordelt observationsmateriale svarer 1½ kvartilbredde netop til 2 standardafvigelser. Der er tradition for at regne udfaldene indenfor to standardafvigelser for normale, og tilsvarende regne observationerne udenfor tre standardafvigelser for exceptionelle. Her imellem ligger en gråzone, men jo tættere vi kommer på de exceptionelle udfald, jo mere atypiske er observationen selvfølgelig. Da vi lægger 1½ kvartilbredde til kvartilen vil en atypisk observation ifølge Tukeys regel for normalfordelte observationer derfor ligge standardafvigelser fra middelværdien. De er altså ikke helt exceptionelle, men alligevel tilstrækkeligt tæt på til at retfærdiggøre reglen! Hvis omvendt observationerne er ligefordelte over intervallet [0; 1], så optræder alle observationerne jo på lige fod, og der bør derfor ikke kunne forekomme atypiske observationer i et sådant datasæt! Men for en sådan ligefordeling er kvartilbredden jo netop ½ og den sidste kvartil er ¾. Vi ser derfor at eventuelle store atypiske udfald skal være større end = dvs. et godt stykke uden for intervallet [0; 1]. Reglens sikrer altså at der ikke forekommer atypiske observationer i ligefordelte observationssæt. 12

13 3) Middelværdien som punktet med det mindste samlede afstandskvadrat. Vi kan give en avanceret karakterisering af middelværdien på den følgende måde: Vi ser på vores datasæt { x1, x2, x3,..., x n } og stiller os det følgende spørgsmål: Hvordan skal vi vælge tallet x, så det samlede afstandskvadrat til observationerne { x1, x2, x3,..., x n }, dvs. summen y = ( x x1) + ( x x2) + ( x x3) ( x x n ) er mindst mulig? Vi kan få en fornemmelse for problemstillingen ved at undersøge den på grafregneren. Her ligger datasættet i listen L 1 og den ovenstående sum af afstandskvadrater defineres derfor på følgende måde: Y 1 =sum((x-l 1 ) 2 ) Men så kan vi jo tegne grafen for summen og derved bestemme dens minimum. Når vi skal indtaste det ovenstående udtryk skal vi huske på, at alle liste-kommandoerne ligger på LIST-menuen: Grafen er tegnet med ZoomFit over et X-interval, som rummer såvel den mindste som den største observation. Den tager lidt tid om at blive tegnet, men det skyldes jo at udregningen af hver eneste Y-værdi er en lidt langsommelig affære, da det jo er en sum af 64 led! Vi kan så bestemme minimumspunktet ved at gå ind på - CALC-menuen: Det kunne jo godt se ud, som om vi har fanget middelværdien = og at den tilhørende sum af afstandskvadrater er givet ved sådan ca De grafiske rutiner i CALC-menuen arbejder jo kun med en endelig præcision. Men kig lige på grafen en gang til: Det kunne godt ligne en parabel! Faktisk er det nemt at checke numerisk, at det ikke bare ligner en parabel: Det er en parabel! Hertil skal vi blot have konstrueret en tabel over de tilhørende Y-værdier: 13

14 Der er altså netop tale om en perfekt parabel, og oven i købet med simple koefficienter, idet a = 64, b = og c = û10. Men så kan vi jo bruge toppunktsformlen til at beregne den præcise værdi af minimumspunktet, idet koefficienterne til andengradspolynomiet jo som sædvanlig findes på -Statistics-menuen: Hvordan kan vi nu forstå dette teoretisk? Jo summen af alle afstandskvadraterne består af en masse led, der hver for sig kan regnes ud til et andengradspolynomium. Men så kan summen jo også udregnes som et andengradspolynomium: y = ( x x ) + ( x x ) + ( x x ) ( x x ) n n n = ( x 2 x x + x ) + ( x 2 x x + x ) + ( x 2 x x + x ) ( x 2 x x + x ) ( x x x... x ) (2x1 x 2x2 x 2 x3 x... 2 xn x) ( x1 x2 x3... xn ) = = n x 2 ( x1 + x2 + x xn ) x + ( x1 + x2 + x x n ) Så det viser netop at summen af afstandskvadraterne er et andengradspolynomium med koefficienterne n n A = n, B = 2 ( x + x + x x ) og C = ( x + x + x x ) Af toppunktsformlen får vi så den følgende værdi for x-koordinaten i minimumspunktet: B 2 ( x1 + x2 + x xn) x1 + x2 + x xn xt = = = = x 2A 2n n Når man skal finde det tal x, der har det mindste samlede afstandskvadrat til et datasæt, skal man altså vælge gennemsnittet af tallene! 14

15 4) Medianen som punktet med den mindste samlede afstand. Vi kan give en tilsvarende avanceret karakterisering af medianen på den følgende måde: Vi ser på vores datasæt { x1, x2, x3,..., x n } og stiller os det følgende spørgsmål: Hvordan skal vi vælge tallet x, så den samlede afstand til observationerne { x, x, x,..., x }, dvs. summen er mindst mulig? n y = x x1 + x x2 + x x x xn Vi kan igen få en fornemmelse for problemstillingen ved at undersøge den på grafregneren. Her ligger datasættet i listen L 1 og den ovenstående sum af afstandene defineres derfor på følgende måde: Y 1 = sum(abs(x-l 1 )) Men så kan vi jo tegne grafen for summen og derved bestemme dens minimum: Grafen er tegnet med ZoomFit over et X-interval, som rummer såvel den mindste som den største observation. Denne gang skulle vi gerne kunne se, at den ikke krummer lige så pænt som en parabel. Faktisk er det en sum af stykvis lineære funktioner, idet grafen for en absolutværdifunktion jo er stykvis lineær. Zoomer vi ind på bunden af grafen med Zbox fremtræder denne stykvis lineære karakter tydeligere (med hældningerne 0, ±1, ±2, ): Denne gang kan vi derfor ikke bruge minimumsrutinen fra -CALC-menuen til at finde minimumspunktet. Til gengæld kan vi trace os frem til bundpunktet, eller som i dette tilfælde, bundstykket, idet grafen munder ud i en vandret linje på det laveste stykke, hvor X-værdien går fra til med en konstant Y-værdi på 250. Men det er jo netop de to midterste observationer, så de løser problemet sammen med alle de mellemliggende værdier. I praksis benytter man derfor af symmetrigrunde deres gennemsnit, dvs. tallet , altså netop medianen af observationssættet! 15

16 Hvordan kan vi nu forstå dette teoretisk? Denne gang er det lidt mere tricket, fordi vi ikke har en færdig formel til at finde toppunkter for stykvis lineære funktioner. I stedet bruger vi bare den generelle strategi, at absolutværdifunktioner har deres minimum i et knækpunkt, hvorfor y-værdien må være minimal i et af knækpunkterne, dvs. én af observationerne. Det gør det nemt at finde minimumsværdien i praksis, da der kun er et endeligt antal punkter vi skal prøve igennem, men vi skulle jo også gerne kunne argumentere teoretisk for løsningen. Det er da praktisk at starte med at se på det simplest mulige datasæt bestående af to forskellige punkter x 1 og x 2 : x 1 x 2 Der er det nu klart, at hvis tallet x ligger indenfor de to punkter x 1 og x 2 er den samlede afstand til de to punkter simpelthen x2 x1, dvs. specielt er den konstant på dette stykke. Hvis der imod tallet x ligger udenfor de to punkter er den samlede afstand summen af afstanden til det nærmeste datapunkt og de to datapunkters indbyrdes afstand, dvs. den er større! Vi ser nu på et vilkårligt datasæt { x1, x2, x3,..., x n }, som vi har stillet op i stigende rækkefølge, dvs.: x1 x2 x3... xn Her kan vi nu parre den første observation x 1 med den sidste x n, den anden observation x 2 med den næstsidste x n 1, osv. Hvis der er et lige antal observationer går parringen op, ellers bliver der den sidste midterste observation tilbage, som vi i givet fald lader danne par med sig selv. Bredden af disse par kaldes d 1, d 2, d 3,, dvs. d1 = x1 xn osv. Den samlede bredde af alle parrene kaldes D, dvs. D = d 1 + d Så længe vi befinder os udenfor et par kan vi nu gøre den samlede afstand mindre ved at rykke tallet x indenfor parret. Den mindste samlede afstand fås derfor indenfor det inderste par! Hvis der er et lige antal observationer er det altså mellem de to midterste observationer. Hvis der er et ulige antal observationer lander vi derimod præcis i den midterste observation. I begge tilfælde kan vi derfor bruge medianen som det tal x, der har den samlede mindste samlede afstand til datasættet, og den samlede afstand er netop summen af bredderne, dvs. tallet D. Når man skal finde det tal x, der har den mindste samlede afstand til et datasæt, skal man altså vælge medianen af tallene! Bemærkning: Men læg mærke til, at vi altid kan løse problemet ved at vælge tallet x som en central observation. Med et ulige antal observationer er løsningen entydig. Men ved et lige antal observationer er der to centrale observationer, der begge kan bruges til at løse problemet. Den mindste samlede afstand antages altså som tidligere bemærket i et eller flere observationspunkter! 16

Deskriptiv statistik ud fra berømte måleserier

Deskriptiv statistik ud fra berømte måleserier Deskriptiv statistik ud fra berømte måleserier Newcombes måling af lysets hastighed 1 Newcombe arbejdede sammen med Michelson i slutningen af forrige århundrede og indførte nye teknikker til målingen af

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Statistik med Boxplot

Statistik med Boxplot 11 Statistik med Boxplot Til dette afsnit skal du benytte Stats-List Editoren (SL-editoren). Har du ikke denne applikation installeret, så hent den på TI's hjemmeside. Nøgletal Boxplot bygger på en undersøgelse

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer. Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Deskriptiv statistik (grupperede observationer)

Deskriptiv statistik (grupperede observationer) Deskriptiv statistik (grupperede observationer) Tallene er hentet fra Arbejdsbog B1 (2.udg.) eller Arbejdsbog B2, øvelse 408: Der åbnes et Lister og Regneark værksted og observationerne indtastes og navngives:

Læs mere

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Statistik Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Derved får man et samlet overblik over talmaterialet, og man kan konkludere

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Til Gribskovløbet 006 gennemførte 118 kvinder 1,4 km distancen. Fordelingen af kvindernes løbstider

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Brug af TI-83. Løsning af uligheder: Andre ikke simple uligheder løses ved følgende metode - skitseret ved et eksempel : Løs uligheden

Brug af TI-83. Løsning af uligheder: Andre ikke simple uligheder løses ved følgende metode - skitseret ved et eksempel : Løs uligheden Brug af TI-83 Løsning af andengradsligninger med TI-83 Indtast formlerne for d, og rødderne og gem dem i formellagrene u,v eller w. Gem værdierne for a, b og c i lagrene A, B og C Nedenstående display

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot Grupperede datasæt: Middelværdi, intervalfrekvens og kumuleret frekvens. Bilbestandens alder i 2005 fremgår af følgende tabel. Alder i år ]0;4] ]4;8] ]8;12] ]12;16] ]16;20] ]20;24] Antal i tusinde 401

Læs mere

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Hvis man fx samler de karakterer, der er givet til en eksamen i én stor bunke (se herunder), kan det være svært

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet.

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet. Kapitel 2 Øvelse 2.2 Cirklen er inddelt i 12 sektorer, én for hver måned. Antallet af dødsfald vokser kraftigt i juli og august og er højt flere måneder, men stiger yderligere hen over vintermånederne.

Læs mere

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul Deskriptiv statistik for C-niveau i hf 75 50 25 2015 Karsten Juul DESKRIPTIV STATISTIK 1.1 Hvad er deskriptiv statistik?...1 1.2 Hvad er grupperede og ugrupperede data?...1 1.21 Eksempel pä ugrupperede

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Analyse af måledata II

Analyse af måledata II Analyse af måledata II Usikkerhedsberegning og grafisk repræsentation af måleusikkerhed Af Michael Brix Pedersen, Birkerød Gymnasium Forfatteren gennemgår grundlæggende begreber om måleusikkerhed på fysiske

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

brikkerne til regning & matematik statistik preben bernitt

brikkerne til regning & matematik statistik preben bernitt brikkerne til regning & matematik statistik 2+ preben bernitt brikkerne til regning & matematik statistik 2+ 1. udgave som E-bog ISBN: 978-87-92488-33-6 2009 by bernitt-matematik.dk Kopiering af denne

Læs mere

Der er facit på side 7 i dokumentet. Til opgaver mærket med # er der vink eller kommentarer på side 6.

Der er facit på side 7 i dokumentet. Til opgaver mærket med # er der vink eller kommentarer på side 6. Der er facit på side 7 i dokumentet. Til opgaver mærket med # er der vink eller kommentarer på side 6. 1. Figuren viser grafen for en funktion f. Aflæs definitionsmængde og værdimængde for f. # Aflæs f

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Funktioner. 3. del Karsten Juul

Funktioner. 3. del Karsten Juul Funktioner 3. del 019 Karsten Juul Funktioner 3. del, 019 Karsten Juul 1/9-019 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm. Hæftet må benyttes i undervisningen hvis læreren

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

Projektopgave Observationer af stjerneskælv

Projektopgave Observationer af stjerneskælv Projektopgave Observationer af stjerneskælv Af: Mathias Brønd Christensen (20073504), Kristian Jerslev (20072494), Kristian Mads Egeris Nielsen (20072868) Indhold Formål...3 Teori...3 Hvorfor opstår der

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 22 Generalisering fra stikprøve til population Idé: Opstil en model for populationen

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra Nspire: Vi har et datasæt. Der er overordnet to metoder til at tegne sumkurver i programmet, og vi beskriver

Læs mere

Modellering af elektroniske komponenter

Modellering af elektroniske komponenter Modellering af elektroniske komponenter Formålet er at give studerende indblik i hvordan matematik som fag kan bruges i forbindelse med at modellere fysiske fænomener. Herunder anvendelse af Grafregner(TI-89)

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Stastistik og Databehandling på en TI-83

Stastistik og Databehandling på en TI-83 Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen (jonas@imf.au.dk). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at

Læs mere

Bedste rette linje ved mindste kvadraters metode

Bedste rette linje ved mindste kvadraters metode 1/9 Bedste rette linje ved mindste kvadraters metode - fra www.borgeleo.dk Figur 1: Tre datapunkter og den bedste rette linje bestemt af A, B og C Målepunkter og bedste rette linje I ovenstående koordinatsystem

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Vejledning til GYM17 Copyright Adept Nordic 2013

Vejledning til GYM17 Copyright Adept Nordic 2013 Vejledning til GYM17 Copyright Adept Nordic 2013 Vejledning i brug af Gym17-pakken... iv 1 Deskriptiv statistik... 1 1.1 Ikke-grupperede observationssæt... 1 1.2 Grupperede observationssæt... 4 2 Regressioner...

Læs mere

2 Erik Vestergaard www.matematikfysik.dk

2 Erik Vestergaard www.matematikfysik.dk Erik Vestergaard www.matematikfysik.dk Erik Vestergaard www.matematikfysik.dk 3 Lineære funktioner En vigtig type funktioner at studere er de såkaldte lineære funktioner. Vi skal udlede en række egenskaber

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17 Dig og din puls Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004 Dig og din puls Side 1 af 17

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Andengradsligninger. Frank Nasser. 11. juli 2011

Andengradsligninger. Frank Nasser. 11. juli 2011 Andengradsligninger Frank Nasser 11. juli 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Andengradsligninger. Frank Nasser. 12. april 2011

Andengradsligninger. Frank Nasser. 12. april 2011 Andengradsligninger Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse. Opdateret 28. maj 2014. MD Ofte brugte kommandoer i Geogebra. Generelle Punktet navngives A Geogebra navngiver punktet Funktionen navngives f Funktionen navngives af Geogebra Punktet på grafen for f med

Læs mere

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel: Normal fordeling Tæthedsfunktion for normalfordeling med middelværdi µ og varians σ 2 : Program (8.15-10): f() = 1 µ)2 ep( ( 2πσ 2 2σ 2 ) E µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4 1. vigtige sandsynlighedsfordelinger:

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2015 Institution Campus vejle Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik B (Valghold) PEJE

Læs mere

Vejledning til Gym18-pakken

Vejledning til Gym18-pakken Vejledning til Gym18-pakken Copyright Maplesoft 2014 Vejledning til Gym18-pakken Contents 1 Vejledning i brug af Gym18-pakken... 1 1.1 Installation... 1 2 Deskriptiv statistik... 2 2.1 Ikke-grupperede

Læs mere

Resonans 'modes' på en streng

Resonans 'modes' på en streng Resonans 'modes' på en streng Indhold Elektrodynamik Lab 2 Rapport Fysik 6, EL Bo Frederiksen (bo@fys.ku.dk) Stanislav V. Landa (stas@fys.ku.dk) John Niclasen (niclasen@fys.ku.dk) 1. Formål 2. Teori 3.

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Lineære sammenhænge. Udgave 2. 2009 Karsten Juul

Lineære sammenhænge. Udgave 2. 2009 Karsten Juul Lineære sammenhænge Udgave 2 y = 0,5x 2,5 2009 Karsten Juul Dette hæfte er en fortsættelse af hæftet "Variabelsammenhænge, 2. udgave 2009". Indhold 1. Lineære sammenhænge, ligning og graf... 1 2. Lineær

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Graph brugermanual til matematik C

Graph brugermanual til matematik C Graph brugermanual til matematik C Forord Efterfølgende er en guide til programmet GRAPH. Programmet kan downloades gratis fra nettet og gemmes på computeren/et usb-stik. Det betyder, det også kan anvendes

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2016 Institution Campus vejle Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik B (Valghold) SIPE

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Kapitel 3 Lineære sammenhænge

Kapitel 3 Lineære sammenhænge Matematik C (må anvendes på Ørestad Gymnasium) Lineære sammenhænge Det sker tit, at man har flere variable, der beskriver en situation, og at der en sammenhæng mellem de variable. Enhver formel er faktisk

Læs mere

D = 0. Hvis rører parablen x- aksen i et enkelt punkt, dvs. den tilhørende andengradsligning

D = 0. Hvis rører parablen x- aksen i et enkelt punkt, dvs. den tilhørende andengradsligning Projekt 55 Andengradspolynomier af to variable Kvadratiske funktioner i to variable - de tre typer paraboloider f() = A + B + C, hvor A 0 Et andengradspolynomium i en variabel har en forskrift på formen

Læs mere

Nogle emner fra. Deskriptiv Statistik. 2011 Karsten Juul

Nogle emner fra. Deskriptiv Statistik. 2011 Karsten Juul Nogle emner fra Deskriptiv Statistik 75 50 25 2011 Karsten Juul Indhold Hvad er deskriptiv statistik?... 1 UGRUPPEREDE OBSERVATIONER Hyppigheder... 1 Det samlede antal observationer... 1 Middeltallet...

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Juni, 12/13 Institution Grenaa Handelsskole Uddannelse Fag og niveau Lærer(e) Hold hhx Matematik C Ann Risvang

Læs mere