Statistik i basketball



Relaterede dokumenter
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Susanne Ditlevsen Institut for Matematiske Fag susanne

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår Dagens program

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Personlig stemmeafgivning

Maple 11 - Chi-i-anden test

Note til styrkefunktionen

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Fig. 1 Billede af de 60 terninger på mit skrivebord

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

Kønsproportion og familiemønstre.

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Allan C. Malmberg. Terningkast

02402 Løsning til testquiz02402f (Test VI)

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Om at udregne enkeltstående hexadecimaler i tallet pi

Modul 5: Test for én stikprøve

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

for matematik pä B-niveau i hf

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Effekter af studiejob, udveksling og projektorienterede forløb

Kvantitative Metoder 1 - Efterår Dagens program

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Optimale konstruktioner - når naturen former. Opgaver. Opgaver og links, der knytter sig til artiklen om topologioptimering

Konfidensinterval for µ (σ kendt)

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistiske modeller

c) For, er, hvorefter. Forklar.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Kapitel 7 Forskelle mellem centraltendenser

Statistik II 4. Lektion. Logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

SANDSYNLIGHED FACIT SIDE

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Rygtespredning: Et logistisk eksperiment

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

J E T T E V E S T E R G A A R D

for gymnasiet og hf 2016 Karsten Juul

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Kapitel 4 Sandsynlighed og statistiske modeller

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Konfidensintervaller og Hypotesetest

En intro til radiologisk statistik

LEKTION 22 FARVEBEHANDLING

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Forældretilfredshed 2015

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Undervisningsbeskrivelse

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

Statistik II 1. Lektion. Analyse af kontingenstabeller

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

BILAG 3: DETALJERET REDEGØ- RELSE FOR REGISTER- ANALYSER

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

METODESAMLING TIL ELEVER

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Løsning eksamen d. 15. december 2008

Tjek. lønnen. Et værktøj til at undersøge lokal løndannelse og ligeløn på offentlige arbejdspladser udgave Varenr. 7520

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

En Maple time med efterfølgende elevgruppe diskussion og refleksionssamtale med lærer.

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Samtaleteknik. At spørge sig frem

Skriftlig eksamen Science statistik- ST501

Undervisningsbeskrivelse

Transkript:

En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større opgave. Er man interesseret i matematik, og ønsker man at kombinere det med ens interesse for basketball, er en opgave om anvendelser af statistik i basketball en spændende mulighed. Der findes mange udmærkede bøger om statistik på alle niveauer, men der er mig bekendt ingen litteratur på dansk, der behandler konkrete anvendelser på scoringsprocenter i basketball. Dette tomrum forsøger denne lille note at udfylde. Den er altså rettet mod gymnasieelever, og bør ses som et supplement til de gymnasiale lærebøger. Sportsinteresserede i almindelighed med en interesse for statistik vil dog givetvis også kunne have glæde af noten. Et matematisk niveau svarende til gymnasiet samt lysten til at lære stoffet er eneste forudsætning. Binomialfordelingen En spillers scoringsprocent kan angives som et tal p [0, ]. Antager vi at scoringsforsøgenes udfald ikke påvirker hinanden (at de er uafhængige kan vi opfatte dette som at et forsøg på at score vil lykkes med sandsynlighed p. Man kan så spørge om, hvad sandsynligheden er for at en spiller med scoringsprocent p scorer på netop x ud af n skud eller formuleret matematisk: Hvis X er en stokastisk variabel, der angiver antallet af scoringer ud af n forsøg, hvad er da P (X x. Binomialfordelingen giver svaret n P (X x p x ( p n x, ( x hvor ( n x kaldes binomialkoefficienten n over x og er givet ved n n! x x!(n x!, hvor k! 2 (k k. Eksempel Med en scoringsprocent er 50 % er sandsynligheden for at score på 3 ud af 5 skud 5 /6. Tak til Morten Hornbech for mange kommentarer samt hjælp til at gøre formuleringerne mere klare.

Statistisk model En statistisk model består af en mængde af mulige observationer (udfaldsrummet og en mængde af mulige fordelinger for disse observationer. En fordeling tildeler hver observation en sandsynlig således at summen bliver. Ser vi på situationen fra før er mængden af mulige observationer givet ved E {0,,..., n}, altså de mulige antal gange man kan scorer på n skud. Mængden af mulige fordelinger er givet ved binomialfordelingerne for alle p [0, ], da vi forestiller os at vi ikke på forhånd kender spillerens scoringsprocent. Den korte notation for modellen er (E, (P p p [0,], (2 I denne model kan man udfra relevant skudstatistik undersøge om en given spiller eller et givent hold kan antages at have scoringssandsynlighed p. Eksempel Simon har skudt 25 straffekast og scoret på 7 (vores observation. Er det rimeligt at antage at Simons scoringssandsynlighed er 0,75? Man kunne også være interesseret i at sammenligne to spillere/hold. I dette tilfælde bliver den statistiske model (E, (P (p,p 2 (p,p 2 [0,] 2, (3 med E {0,..., n } {0,..., n 2 }, hvor n og n 2 er antallet af scoringsforsøg for den ene henholdsvis den anden spiller/hold, og n P (p,p 2 (X x, X 2 x 2 p x ( p n x n2 p x 2 2 ( p 2 n 2 x 2 x 2 r ( nr xr x 2 p xr r ( p r nr xr. Det forudsættes her at alle observationerne er uafhængige. Eksempel Falcons damehold har i første halvdel af sæsonen skudt 39 3 ere og ramt på 57, mens de i anden halvdel af sæsonen har skudt 09 3 ere og ramt på 56. Er Falcon blevet bedre til at skyde i løbet af sæsonen? Estimation Ofte er man interesseret i at estimere dvs. gætte en given størrelse fx et holds skudprocent så godt som muligt. Det bedste gæt (det mest sandsynlige valg betegnes maksimaliseringsestimatoren, som betegnes med ˆp. I binomialmodellen er ˆp x n, hvilket intuitivt ikke overrasker (hvorfor ikke? Kan du bevise det matematisk?. Test og hypoteser Signifikansniveau Man vælger på forhånd ens signifikansniveau ofte betegnet α. Man vælger stort set altid α 0.05, uden at nogen ville påstå, at det er bedre end så meget andet. Man kan tænke på signifikansniveau som følger: Man forestiller sig, at man kan gentage eksperimentet et utal af gange. Hvis den situation vi ser i vores data 2

forekommer mindre end 5 % af gangene vil vi sige, at det er for ekstremt til at være i overensstemmelse med vores model (under hypotesen og vi forkaster den. Eksempel En straffekastskytte skyder 0 skud og rammer på skud. Vi vil undersøge hypotesen om, at hendes scoringsprocent er 70 %. Hypotesen ender med at blive forkastet af følgende grund: Forestiller vi os, at hun ville have en scoringsprocent på 70 % og vi 00 gange satte hende til at skyde 0 straffekast ville det under 5 % af gangene ske, at hun kun ville ramme et skud. Derfor tror vi ikke på, at hendes scoringsprocent er 70 % og hypotesen forkastes. Hypoteser Typisk vil en hypotese være der er forskel på hold A og hold B s scoringsprocenter. I statistik undersøger man dog altid hypoteser på formen der er ingen forskel på hold A og hold B s scoringsprocenter, og ser så om man kan forkaste denne hypotese. Her gælder det om at holde tungen lige i munden: Man viser altså ikke, at der er forskel, men afviser i stedet på et givet signifikansniveau, at der ingen forskel er. Læs lige det igen! En hypotese i modellen givet ved (2 kaldes en simpel hypotese og skrives som: H 0 : p p. (4 Derimod kaldes en hypotese i modellen givet ved (3 for en sammensat hypotese: H : p p 2 p. (5 Teststørrelse Der findes et utal af teststørrelser man kan bruge, hvor en ofte brugt er kvotientteststørrelsen, Q(x. For en simpel hypotese har vi (4 Q(x ˆp x p ˆp n x p x/n x p x/n n x, p mens den for sammenligning af to grupper, dvs. sammensat hypotese (5, er Q(x 2 x n xr r (n x n nr xr r, (6 r x r n (n r x r n hvor n n + n 2 og x x + x 2. En teststørrelse er en hjælpestørrelse, der skal hjælpe os med at sige noget om, hvor godt en observation passer med vores hypotese. Testsandsynligheden Kaldes også for p-værdien for et test, og betegnes med ɛ(x for en given observation x. Følgende er sprogligt kludret så læs det langsomt! Testsandsynligheden udtrykker sandsynligheden for at få en observation, der passer dårligere eller lige så dårligt, som det vi har observeret under antagelsen om, at hypotesen H er opfyldt. Lad os sige, at ɛ(x 0.5. Det betyder altså, at hvis vi udfører eksperimentet et stort antal gange vil vi i gennemsnit 50 % af gangene få en observation, der passer dårligere. Således må vores konkrete observation x altså passe ganske godt. Jo større testsandsynligheden er jo mere rigtig er ens hypotese. Når man på forhånd har fastlagt et signifikansniveau α, forkaster man hypotesen H på niveau α, hvis ɛ(x α. 3

Approksimation af testsandsynlighed Man kan ofte godt finde testsandsynligheden eksakt, men det er utrolig besværligt. Heldigvis gælder følgende tilnærmelse/approksimation der meget hurtigt bliver ret god for store n og n 2 (i praksis bare større end 5-stykker: ɛ(x F χ 2 ( 2 log Q(x. Her er F χ 2 fordelingsfunktionen for χ 2 -fordelingen med frihedsgrad, mens log betegner den naturlige logaritme (ofte ln i gymnasiet. Man får selvfølgelig et tal ud af 2 log Q(x, der i øvrigt skal være positivt (ellers har man tastet/regnet forkert!. Dette sættes så ind i en (computer tabel for χ 2 -fordelingen, som man fx kan finde på http://www.medcalc.be/manual/ chi-square-table.php. Pas på! Tabellen angiver F χ 2 (y, altså testsandsynligheden, og i øvrigt står DF for frihedsgrader (degrees of freedom. Vi er på jagt efter det y hvor F χ 2 (y 0.05. Er nemlig y større må vi forkaste vores hypotese. Ifølge tabellen er grænsen y 3.84 for én frihedsgrad. Det vil sige, at hvis 2 log Q(x > 3.84 må vi forkaste hypotesen. Gennemregnet eksempel Hold A har skudt 738 og ramt 342. Hold B har skudt 584 og ramt 238. Den statistiske model bliver (E, (P (p,p 2 (p,p 2 [0,] 2 med E {0,..., 738} {0,..., 342}. Udfaldsrummet er altså alle tænkelige kombinationer af talpar, hvor. koordinaten ligger mellem 0 og 738, mens 2. koordinaten ligger mellem 0 og 584: fx (32, 34, men ikke (342, 603. Videre er P (p,p 2 (X 342, X 2 238 ( 738 342 hvor p [0, ] og p 2 [0, ]. Vores hypotese er: ( 584 p 342 ( p 738 342 238 H 0 : Der er ingen forskel på hold A og hold B skudprocent. p 238 2 ( p 2 584 238, Vi finder kvotientteststørrelsen ved at sætte ind i (6, og får Q(x 0.269. Dermed bliver 2 log Q(x 4.3. Dette er klart større end 3.83, så hypotesen forkastes med et brag. Der er altså forskel! Vores bedste estimat for scoringsprocenterne for hold A er ˆp 342 738 46%, mens vi for hold B finder ˆp 2 238 584 40%. At vi finder, at der er en forskel er betryggende, da der er 6 procentpoints forskel, og begge hold har skudt et stort antal skud. Hvad mangler? Det er selvfølgelig ikke muligt på så lidt plads at behandle alt; så hvad mangler? Der mangler motivationen for, hvorfor vi gør som vi gør. Det kan virke oplagt og Udtales ki-i-anden. Hvis man sammenligner k grupper skal man bruge χ 2 -fordelingen med k frihedsgrader. 4

rigtigt, men der er også andre måder at gøre det på. Når man så har fastlagt sig på principperne skal man bevise, at det rent faktisk ender med at blive de formler vi har brugt. Hvis man har lyst til at fylde mere matematisk indhold i sin opgave er dette en mulig vej at gå. Ønsker man derimod at diskutere baggrunden for statistik, er der også masser at hente. Spørgsmål som hvilket signifikansniveau skal man bruge?, hvorfor overhovedet vælge signifikansniveau? Kan man ikke bare finde ens testsandsynlighed og så se om man er tilfreds?, hvad betyder det, at man forkaster en hypotese?, hvad er type I og type II fejl? og mange flere danner et godt grundlag for en omfattende diskussion af statistik. Et andet populært tema er de såkaldte player efficiency ratings, der i mange ligaer bruges til at vurdere, hvor produktive/effektive en spiller er. Dette emne er uddybende behandlet i Matheletics af Wayne Winston. Spørgsmål, rettelser og kommentarer modtages meget gerne via mail på jerome@falconbasket.dk. 5