Howell, D. C. (2011): Fundamental Statistics for the Behavorial Sciences. (pp. 1-246) Pre-PressPMG : Wadsworth.



Relaterede dokumenter
Basic statistics for experimental medical researchers

Statistik for MPH: 7

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Vina Nguyen HSSP July 13, 2008

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Ikke-parametriske tests

Skriftlig Eksamen Kombinatorik, Sandsynlighed og Randomiserede Algoritmer (DM528)

Linear Programming ١ C H A P T E R 2

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Besvarelse af vitcap -opgaven

KA 4.2 Kvantitative Forskningsmetoder Forår 2010

Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov.

Løsning eksamen d. 15. december 2008

Skriftlig Eksamen Diskret matematik med anvendelser (DM72)

Reexam questions in Statistics and Evidence-based medicine, august sem. Medis/Medicin, Modul 2.4.

X M Y. What is mediation? Mediation analysis an introduction. Definition

Project Step 7. Behavioral modeling of a dual ported register set. 1/8/ L11 Project Step 5 Copyright Joanne DeGroat, ECE, OSU 1

Financial Literacy among 5-7 years old children

Brug sømbrættet til at lave sjove figurer. Lav fx: Få de andre til at gætte, hvad du har lavet. Use the nail board to make funny shapes.

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Generelle lineære modeller

Black Jack --- Review. Spring 2012

Logistisk Regression - fortsat

The X Factor. Målgruppe. Læringsmål. Introduktion til læreren klasse & ungdomsuddannelser Engelskundervisningen

Besvarelser til Lineær Algebra Reeksamen Februar 2017

How Long Is an Hour? Family Note HOME LINK 8 2

Løsning til eksaminen d. 14. december 2009

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

CS 4390/5387 SOFTWARE V&V LECTURE 5 BLACK-BOX TESTING - 2

Richter 2013 Presentation Mentor: Professor Evans Philosophy Department Taylor Henderson May 31, 2013

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Measuring the Impact of Bicycle Marketing Messages. Thomas Krag Mobility Advice Trafikdage i Aalborg,

On the complexity of drawing trees nicely: corrigendum

Help / Hjælp

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Normalfordelingen og Stikprøvefordelinger

Løsning til eksaminen d. 29. maj 2009

Engelsk. Niveau D. De Merkantile Erhvervsuddannelser September Casebaseret eksamen. og

Multipel Lineær Regression

DoodleBUGS (Hands-on)

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Privat-, statslig- eller regional institution m.v. Andet Added Bekaempelsesudfoerende: string No Label: Bekæmpelsesudførende

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

GUIDE TIL BREVSKRIVNING

The complete construction for copying a segment, AB, is shown above. Describe each stage of the process.

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Angle Ini/al side Terminal side Vertex Standard posi/on Posi/ve angles Nega/ve angles. Quadrantal angle

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Trolling Master Bornholm 2014?

Reeksamen i Statistik for Biokemikere 6. april 2009

Konfidensintervaller og Hypotesetest

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Boligsøgning / Search for accommodation!

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Det er muligt at chekce følgende opg. i CodeJudge: og

A multimodel data assimilation framework for hydrology

En Introduktion til SAS. Kapitel 5.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Aktivering af Survey funktionalitet

Trolling Master Bornholm 2012

Exam questions in Statistics and evidence-based medicine, spring sem. Medis/Medicin, Modul 2.4.

Multivariate Extremes and Dependence in Elliptical Distributions

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Portal Registration. Check Junk Mail for activation . 1 Click the hyperlink to take you back to the portal to confirm your registration

Titel: Barry s Bespoke Bakery

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Sign variation, the Grassmannian, and total positivity

Department of Public Health. Case-control design. Katrine Strandberg-Larsen Department of Public Health, Section of Social Medicine

DK - Quick Text Translation. HEYYER Net Promoter System Magento extension

Measuring Evolution of Populations

Sport for the elderly

Trolling Master Bornholm 2015

Wander TDEV Measurements for Inexpensive Oscillator

Remember the Ship, Additional Work

LUL s Flower Power Vest dansk version

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Unitel EDI MT940 June Based on: SWIFT Standards - Category 9 MT940 Customer Statement Message (January 2004)

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Feedback Informed Treatment

Forelæsning 11: Kapitel 11: Regressionsanalyse

To the reader: Information regarding this document

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statistik for MPH: november Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

how to save excel as pdf

Special VFR. - ved flyvning til mindre flyveplads uden tårnkontrol som ligger indenfor en kontrolzone

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Transkript:

Howell, D. C. (2011): Fundamental Statistics for the Behavorial Sciences. (pp. 1-246) Pre-PressPMG : Wadsworth. Kap 1, s. 1-14: INTRODUCTION - Statistik referere til et sæt procedurer og regler, som anvendes til at reducere store mængder data til håndterbare proportioner, som vi derefter kan drage konklusioner fra. - S. 4: FORSØG med mus og intolerence over for morfin. (ifm. stofmisbrug) - 6: skeln ml. inferential og deskriptiv statistik Deskriptiv = formålet er at beskrive et datasæt, vi beskriver, hvad data kan sige om et fænomen. Inferential = man tager en sample fra en population, da vi ikke kan undersøge alle mus, piger osv. vi skal indsamle tilstrækkelig mængde data til det giver mening at konkludere noget. (bemærk forsk. på at tælle hvor mange ben køer har, og det antal liter mælk hver ko producerer skal vi bruge en eller mange for at drage en konklusion omkring det, vi vil undersøge) Population = den samlede mængde af events/ting/pers., vi vil undersøge. Populationens str. kan veksle ml at være lille for én grp og uendelig for en anden (fx hvis vi vil undersøge mus) Sample/stikprøve = foretages, da vi sjældent kan undersøge HELE den interessante population - Når vi laver et sample, antager vi, at det er et truly random sample = alle delelementer i populationen har lige stor sandsynlighed for at blive udvalgt. Forskelle og forhold, s. 11 = En forsker finder det måske spændende at undersøge, om der er forskel på, hvordan rygere og ikke-rygere klarer at løse en opgave (forskel), mens en anden forsker kan være interesseret i at undersøge, om rygerne klarer opgaven dårligere, jo flere cigaretter, de ryger i løbet af en dag. (forhold) ESSENTIELT AT SE PÅ DATATYPE, FORSKEL OG FORHOLD SAMT ANTAN GRP EL. VARIABLER VED ENHVER STAT.UNDERSØGELSE. (s. 11) -- Kap 2, s. 17-30: BASIC CONCEPTS Variabler = det, vi måler på ^^Skeln ml afhængig ( ) og uafhængig (det, vi manipulerer) - Eks: vi kunne opdele en grp msk efter deres køn (uafh. variabel) for derefter at måle, hvor gode sms-evner, de har (afh. variabel) - Omhandler de 4 måleskalaer; norminal, ordinal, interval og ratio Random sample = helt tilfældige msk fra populationen indgår (modsat selected sample)

Random assign = pers. er tilfældigt udvalgt til grp, det modsatte = vi tager hvad vi kan få. SKALAER: Norminal til at klassificere folk, fx skelner vi ml to køn, el. de numre, fodboldspillere har. Ordinal ordner folk, objekter eller events på en kontinuum-skala (man kan være mere el. mindre det, der måles ) OBS! No information is given about the differences between points on the scale. Interval en forholdsskala, fx Fahrenheit, der er lige langt ml 10F og 20F, som der er ml. 80F og 90F. Ratio også forholdsskala, har et sandt nulpunkt, fx længde, massefylde, vægt. SE VIGTIGE RULES OF SUMMATION PÅ S. 30. -- Kap 3, s. 35-55: DISPLAYING DATA - Data kan være positively skewed i et histogram (ved at være højest i højre side, se s. 39) Frequency distribution = A plot showing the values of the dependent variable on the X axis and their frequency on the Y axis. s. 134 Real lower/upper limit = s. 38 ^^ enhver værdi, der falder inden for de to limits, klassificeres som værende i intervallet. Midpoint = the centre of the interval. s. 38-39 er guld værd ifm. at lære noget om positively skewness. - Stem and leaf displays the leading digits form the stem (vertical axis) and the leaves form the horizontal axis of our display. Back to back: se s. 49. En nem måde at sammenligne mænd og kvinder mht. fx forventet levetid. Bar graphs and line graphs! Distributionsbeskrivelser: s. 51 Symmetric = har samme form på begge sider af midten. Bimodal = en distribution med to peaks. Unimodel = en distribution, som kun har ét stort peak/spids. Positively skewed = fader ud til højre = ned af bakke

Negatively skewed = har en hale mod venstre = op ad bakke -- Kap 4, s. 63-76: MEASURES OF CENTRAL TENDENCY - ^^ refers to measures that relate to the center of a distribution of scores. - Vigtige ord: mean, median, mode. Mode (Mo) = den mest hyppige score, den score, som det største antal subjekter giver Median (Mdn) = den midterste score i en række af numerisk opstillede tal. (the 50th percentile) ved et lige antal observationer, lægges de to midterste tal sammen, divideres med 2 og voila. Formel for the median location of a set of N scores = (N + 1)/2 se s. 95 for uddybning Mean ( ) = gennemsnittet af det samlede antal observationer. X bar eller Y bar vil altid referere til gennemsnittet af den variabel, bogstavet står for. how variable the the maean would be over repeated samples. (100) fordi man ikke kan tage gennemsnittet af én observation. Trimmed mean = man tager en eller flere af de laveste og største værdier fra datasættet og tager bagefter gennemsnittet af de data, der er tilbage. -- Kap 5, s. 80-107: MEASURES OF VARIABILITY N 1 = When we want to average quantities to obtain our measure we don t just divide by the number of quantities, but we divide by one less than the number of quantities. (s. 81) Range (s. 83) = spændevidden fra den laveste til den højeste score. (Fx 4.02 1.20 = 2.82 enheder) ^^ the range er altså antal enheder. Range afhænger af to værdier, og hvis der er nogle ekstremer (som kaldes outliers), vil disse få en stor betydning for range. - Bemærk også lille note om outliers ifm. boxplot på s. 96 ifm. boxplots er outliers alle værdier, der er mere ekstreme end the whiskers. - Outliers kan enten være ekstreme ærlige værdier el. de kan repræsentere errors. - One technique for dealing with outliers is to trim the sample. (98) Interquartile range = forsøger at overkomme det problem, der opstår, hvis der er ekstreme outliers i et datasæt. Dette gøres ved at barbere 25 % af i hver ende af datasættet de 25 % højeste og 25 % laveste. (Dette kaldes også trimming) As such, it is the range of the middle 50 % of the observations, or the diference between the 75 th percentile and the 25 th percentile. (s. 85)

^^ interqurtile range (= H-spread ifl. Tukey) spiller en stor rolle ifm. dannelsen af boxplot. 96 ^^ prob med interquartile range det giver os et godt estimat for gennemsnittet, men det er normalt ikke et særlig godt estimat for overall variability. Trimmed samples = har fået skåret 10 % af i hver ende. Trimmed statistics = statistikker, der beregnes på baggrund af trimmed samples. The average deviation (afvigelse) s. 86 = Hvis man udregner afvigelserne fra gennemsnittet (mean), vil nogle scores være over og have en positiv afvigelse, mens andre vil være under og dermed have negative afvigelser. dette vil medføre, at + og går ud med hinanden og skaber en afvigelse på 0. ^^ Derfor har vi brug for begrebet varians til at eliminere problemet med udligningen. Sample variance/varians (s 2 ) = Population variance (sigma/σ 2 ) = s. 86: We use (N 1) as a divisor for the sample variance. (s 2 ) -ll- Populationsvariansen udregnes ved at dividere summen af alle værdier i populationen med N I stedet for (N 1). Udregnes nærmest aldrig, de estimeres sommetider på baggrund af sample variance. = formlen for varians ( ) s. 87. Xbar (mean/gennemsnit) = se s. 87. - Vigtigt om varians the variance is base don squared deviations, the result is in terms of squared units. Solution; take the square root of the variance. Standard deviation (standardafvigelse; enten s el. σ) = den positive kvadratrod af variansen. S. 88 the standard deviation refers to the variability of the individual observations. (100) Formlen for standardafvigelser (SD); = ^^ a measure of the average of the deviations of each score from the mean. (s. 89) - Man kan bruge standardafvigelsen som et mål for, hvor mange standardafvigelser over el. under gennemsnittet, var bestemte scores. (89) Kan man sige:

- approximately two-thirds of the observatrions lie within one standard deviation of the mean. For a normal distribution/normalfordeling it is almost exactly two-thirds. (89) Se s. 90 + 91 for de korrekte formler for hhv. sample variance og sample standard deviation. Vigtigt om statistics og parameters: Characteristiscs of samples are called statistics and are designated by Roman letters. Characteristics of populations are called parameters and are designated by Greek letters. (s. 91-92) Fx anvendes σ (sigma) og μ (my) til at sige noget om hhv. population mean og population standard deviation. DERFOR: We use statistics as estimates of parameters. (s. 92) The mean/gennemsnit er et estimate for μ. Bias = A biased sample statistic is one whose long-range average is not equal to the population parameter it is supposed to estimate. (s. 92) Degrees of freedom (df) = The quantity (N 1) is referred to as the degrees of freedom and represents an adjustment to the sample size to account for the fact that we are working with sample values. (s. 92) ^^ vi siger (N 1) i stedet for bare N, fordi der alene er tale om et estimat for hele populationen i form af en sample, som ikke nødvendigvis kan medtage alle forhold. ^^ When we use (N 1) as the divisor instead of N, our result is an unbiased estimate of σ 2. (93) ^^ Degrees of freedom (df) come into play whenever we use sample statistics to estimate population parameters. (93) ^^ an adjustment that we will apply to the sample size/some other value. (93) Boxplot (J. Tukey) s. 95 = Først findes the median location, som kommer til at bestemme, hvor den midterste streg i boxplottet skal være, se fig. 5.2 s. 95. Herefter findes the locations of the first and third quartiles (the 25 th og 75 th percentiles) som vil udgøre rammerne /(hinges) på boxplottet. - For at kunne udregne kvartilerne (25 th og 75 th ) er det nødvendigt at finde the quartile location. Quartile location defineres = s. 96 ^^ The quartile location is to a quartile what the median location is to the median. It tells us where, in an ordered series, the quartile values are to be found. (96)

Next step i dannelsen af boxplot tegn en linje (whisker) fra top og bund. Denne upper og lower whisker må ikke være mere end 1.5 gange højere oppe end den interquartile range fra boxens top og bund. Ex: hvis den interquartile range er 2 for vores data, vil the whisker ikke komme højere op end 2 x 1.5 = 3 units fra boxen. Derfor er 3 units below the box 2 3 = 1. Atlså tegnes en streg ned til -1, medmindre den mindste værdi i vores data er højere end -1 her er den 1 så skal vi blot tegne en streg dertil. Se beskrivelse s. 96 og billede s. 98. s. 99: The Winsorized variance!!!!!!!! Man fjerner fx 20% højeste og laveste værdier og derefter sætter man det laveste/højeste tal, man fjernede, ind på pladserne for alle de tal, der blev elimineret ved trimningen. Se godt eks. s. 99. s. 100: The moon illusion eksempel s. 103: En god, trinvis guide til, hvordan man laver et boxplot. -- Kap 6, s. 111-130: THE NORMAL DISTRIBUTION - An important use of the normal distribution is to test hypothesis, either about individual observations or about sample statistics such as the mean. s. 169. - Normalfordelingen kan fx bruges i forsøget på at forudsige events. - ^^ der er en vigtig sammenhæng ml. normalfordelingen og forudsigelser: If we know something about the distribution of events (or of sample statistics), we know something about the probability that one of those events (or statistics) is likely to occur. (s. 112) Hvorfor er normalfordelingen så vigtig? (s. 114) 1. Mange af de afhængige variabler, vi arbejder med, forventes almindeligvis at være normalfordelt i populationen. Dvs., at hvis vi skulle indsamle tilfældigt data fra hele populationen, ville dette - tilnærmelsesvist - være normalfordelt. 2. hvis vi kan forvente, at en variabel er i hvert fald nogenlunde normalfordelt, så kan vi vha. de diskuterede metoder fra kap. 6, lave en række beskrivelser enten eksakte el. nogenlunde omkring værdierne af disse variable. 3. den teoretiske fordeling af hypotetiske sæt med sample-gennemsnit hentet fra et uendeligt antal samples fra en specificeret population, kan siges at være nogenlunde normalfordelt under en lang række forhold. Sådan én fordeling kaldes en sampling distribution of the mean. 4. De fleste statistiske procedurer fra Howells bog antager, at en variabel er normalfordelt. The Achenbach Youth Self-report introduceres fra s. 115. (Ifm. adfærdsproblemer)

- Normalfordelingen har en klokkeform, dvs. at den er højest på midten og flader derfra mere eller mindre symmetrisk ud på begge sider. - ^^ den er en symmetrisk, unimodal fordeling, som har grænser: ±. (117) - Den største forskel på en line graph/linjegraf og en smoothed curve/blød kurve er, at den sidste er en stylet version, der udelader bump og kløfter. (Se fig. 6.4 ift. fig. 6.5) X-aksen er den vandrette akse, som repræsenterer de mulige værdier af X, kaldes os the abscissa. Y-aksen er den lodrette akse, som også kaldes the ordinate. Density = height of the curve for a given value of X; closely related to the probability of an observation falling in an interval around X. (s. 117) Hvor høj er klokkeformen? Den matematiske definition på en normalfordeling: f(x) = (e) (jf. s. 118) ^^ Hvor π og e er konstanter (π = 3.1416 og e = 2.7183), mens μ og σ hhv. er gennemsnittet og standardafvigelsen fra den givne fordeling. ^^ se s. 118 for en god metode til, hvordan man løser ovenstående ligning. VED EN NORMALFORDELING ANTAGER VI ALTID, AT POPULATIONEN HAR ET GENNEMSNIT (μ) PÅ 0 OG EN STANDARDAFVIGELSE (σ) PÅ 1!!!!!!!!!!!!!!!!!!!!!!!!!!! Ovenstående fordeling med μ = 0 samt σ og varians = 1 kaldes en standard normal distribution, som betegnes N(0,1), N = den er normal, 0 fordi μ = 0 og 1, da σ 2 = 1. (s. 120) kig her!!! Trick: If we divide all values of a variable by a constant (e.g. 10), we divide the standard deviation by that constant. (s. 121) Lineær transformation = Man omskriver data vha. nye enheder, men værdimæssigt forbliver de det samme. Fx 12 mm = 1.2 cm eller 3 kr. = 300 ører. (Se eks. s. 122) ^^ OBS! The shape of the distribution is unaffected by the transformation. Z score = represents the number of standard deviations that X i is above or below the mean a positive z score being above the mean and a negative z score being below the mean. (s. 122) A z score represents the number of standard deviations an object is above or below the mean (123) ^^ values along the standard normal distribution. If we convert each variable separately to a standard score (called a z score) we will have standardized data with a mean of 0 and a standard deviation of 1. Except for the change in mean and standard deviation, the data will be unaffected. s. 240.

- We know that the normal distribution is symmetric, then the area below z = - 1 will be the same as the area below z = + 1. (s. 124) Formlen for z = ^^ vigtigt eks på, hvordan den bruges på s. 169-173!!!!!!!!!!!!!!!!! Læs det igen og igen.. Hvad bruger man normalfordelingen + z score til? s. 123-124: Suppose we want to know how much of the area under the curve is above one standard deviation from the mean in the total area under the curve is taken to be 1.00. (We care about areas, because they translate directly to probabilities.) s. 124-25: en trinvis guide til anvendelse af z score + udregning af sandsynligheder. Vigtigt! We want to find those scores that are 1.96 standard deviations above or below the mean of the population. (s. 127) ^^ Hertil benyttes formlerne: (s. 127). z = ± (plus/minus) 1.96 = X μ = ± 1.96σ X = μ ± 1.96σ Where the values of X corresponding to (μ + 1.96σ) and (μ - 1.96σ) represent the limits we seek. Konfidensintervaller: With probable limits, we know the mean and standard deviation of a population and want to make an intelligent guess where individual observations would fall. (127) -- Kap. 7, s. 135-152: BASIC CONCEPTS OF PROBABILITY - Probabilities range between.00 and 1.00. if some event has a probability of 1.00, then it MUST occur. s. 139 - Det er et vigtigt, at vores individer fra populationen udvælges uafhængigt, når vi skallave en sample. (Vigtig karakteristika ved vores variable.) - De er en vigtig forskel ml. sandsynlighed for discrete variables og continuous variables, 135 - Probability = analytic view, an analysis of possible outcomes.

- Fra s. 136: M&M s eksempel! - Eks med sandsynlighed: Man har 100 M&Ms i en pose, og jeg ved, at 24 % af dem er blå. Hvad er sandsynligheden for at trække en blå M&M? Den er 0.24/.24, da tallet efter nul viser til sandsynligheden i %. Havde der været 100 blå M&Ms, var sandsynligheden 1.00. - ^^ Because there are 24 ways of drawing a bue M&M (one for each blue M&M s in a bag of 100 M&M s) and 76 ways of drawing a different color, A = 24, B = 76 and p(a) = 24/(24+76) =.24. s. 137 - Der er to udfald inden for sandsynlighed: forekomst (A) eller ikke-forekomst (B) - ^^ en def. heraf kunne være: If an event can occur in A ways and can fail to occur in B ways, and if all possible ways are equally likely, then the probability of its occurence is A/(A+B), and the probability of its failing to occur is B/(B+A). s. 136 Sample with replacement = each M&M is replaced before the next one is drawn. s. 137 Frequentistic view of probability = se vigtig info s. 137. Subjective probability = s. 137. Event = whenever you speak of the probability of something, the something is called an event. s. 138. Independent events = when the occurrence or nonoccurrence of one has no effect on the occurrence or nonoccurrence of the other. S. 138. Mutually exclusive = if the occurrence of one event precludes the occurrence of the other. s 139. Important probability concepts på s. 139 i boks!!! Additive laws of probability: given a set of mutually exclusive events, the probability of the occurrence of one event or another is equal to the sum of their separate probabilities. s. 140 ^^eks; jeg ved, at der I posen med 100 M&Ms er en sandsynlighed for at trække en blå M&M på.24 og sandsynligheden for at trække en grøn er.16. Hvad er sandsynligheden for at jeg trækker enten en blå eller en grøn M&M? ^^ udregning: p(blue or green) = p(blue) + p(green) = 0.24 + 0.16 = 0.40. The multiplicative rule of probability: the probability of the joint occurrence of two or more independent events is the product of their individual probabilities. s. 140. ^^ vi har 100 M&Ms, p(blue) =.24, p(green) =.16 og p(other) =.60. først trækker jeg en M&M, bagefter ligger jeg den tilbage for at trække en ny M&M. Hvad er sandsynligheden for at trække en blå M&M ved første forsøg og så en blå igen ved det andet? Takket være the multiplicative rule får jeg: p(blue, blue) = p(blue) x p(blue) =.24 x.24 = 0.0576.

Sandsynligheden for først at trække en blå M&M og derefter en grøn skål udtrukkes ved same formel, men med 0.16 i stedet, da dette er den grønne M&Ms probability of occurrence: P(blue, green) = p(blue) x p(green) =.24 x.16 = 0.0384. ^^ det er lige meget, om der står.24 x.16 eller omvendt, resultatet er det samme!!!!!!!!!!!!!!! s. 142: For single outcomes we add probabilities; for multiple independent outcomes we multiply them. Joint probability = the probability of the co-occurrence of two or more events. Given two events, their joint probability is denoted as p(a,b). If those two events are independent, then the probability of their joint occurrence can be found be using the multiplicative law s. 142 ^^ eks fra s. 141: sandsynligheden for at en flier både vil indeholde et budskab om at man skal svine mindre og at den bliver fundet i en skraldespand/en flier ikke indeholder et budskab om skrald og derfor bliver fundet på gulvet i et supermarked. Conditional probability = the probability that one event will occur, given that some other event has occurred. s. 142 + s. 162: the probability of something happening if something else is true. Eks: hvad er sandsynligheden for at få AIDS, hvis du er stofmisbruger? 143: with two events, A and B, the conditional probability of A, given B, is denoted by use of a vertical bar, as in p(a B), for example p(aids drug user). ^^ nulhypotesen er et andet eks på conditinal probability. Se bunden af s. 142. Unconditional probability = the probability of one event ignoring the occurrence or nonoccurrence of some other event. s. 144 ------- Risk = the number of occurrences on one event divided by the total number of occurrences of events a probability. s. 146 ^^ speaks directly to the probability that a person will fall in one category or another. s. 146 Risk ratio = the ratio of two risks. (Hvor mange gange store er risikoen for at være sort og blive dømt til dødsstraf ift. at være hvid og få samme dom? Se s. 146) Odds = the number of occurrences of an event divided by the number of nonoccurrences. s. 146 Ligner altså risk ret meget med den undtagelse, at man her dividerer antallet af døde I flyulykken med det antal, som ikke døde, i stedet for at dividere antal døde med alle der var ombord på flyet. Eks med sorte og dødsstraf: man tager antallet af de sorte, der blev dømt og dividerer med den resterende del af gruppen, som ikke blev dømt.

Odds ratio = the ratio of two odds. s. 147: første writing up the results!!!!!!!!!! god hjælp. Discrete variable = en variabel, der kan være et tælleligt/betsemt antal numre eller værdier. s. 148 Continuous variable = en variabel, der kan være uendeligt mange potentielle værdier. s. 148 et eks på s. 231 er stress, der er et kontinuum, og man kan gradbøje, om der er mere el. mindre stress. Hvad bruges hhv. discrete og continuous variables til i sandsynlighedsregning? With discrete variables we can speak of the probability of a specific outcome. With continuous variables we need to speak of the probability of obtaining a value that falls within a specific interval. s. 148 151: god metode til udregning af sandsynlighed på baggrund af kurve: læg et gennemsigtigt papir med firkanter over kurven, se hvor mange firkanter, der er under kurven i alt og tæl, hvor mange firkanter det farvede areal udgør. -- Kap. 8, s. 156-185: SAMPLING DISTRIBUTIONS AND HYPOTHESIS TESTING Standard error = The standard deviation of the distribution of sample statistics (known as the standard error of the distribution) reflects the variability that we would expect to find in the values of the statistic over repeated trials. s. 162 SE (standard error) = ^^ s = standardafvigelsen og N = populationsstr. (påvirker, hvor sikre, vi kan være på resultatet) Variability due to chance, s. 158 = varians pga. tilfældigehder. Fx kan én grp børn have en gennemsnits-iq på 80.3, mens en anden grp har 79.8, selvom vi ville forvente, at begge grp fx havde 80 i gennemsnit. Sampling error = bruges som et synonym til variability due to order + sampling error represents differences between one sample statistic another s. 158. Random variability among samples. ^^ in statistics error simply means random variability. sunk-cost-fallacy = a decision-making bias that reflects the tendency to invest more future resources in a situation in which a prior investment has been made, as compared with a similar situation in which a prior investment has not been made. s. 159-60. Fejlagtig antagelse. Hypotesetesting = opstil en hypotese og test den, fx: er ældre mennesker mere tilbøjelige end unge til at fortsætte med at se en købefilm i tv, selvom de synes den er dårlig? (eks s. 160)

Sampling distribution = tells us specifically what degree of sample-to-sample variability we can expect by chance as a function of sampling error. s. 161. Sampling distribution of the mean (se s. 162 + 165) ^^på baggrund af fx 5000 undersøgelser opstiller man en overordnet distribution over deres means. Man laver en fordeling, der kan vise hvordan de 5000 undersøgelsers gennemsnit er fordelt. ^^ The SDOTM has a smaller standard error with increased sample size. s. 195.. s. 165: 6 trin i hypotesetestning: 1. Vi ønsker at teste den hypotese, som kaldes research hypothesis, eller H 1 om, at børn under skilsmisse vil i højere grad end andre børn udvikle adfærdsvanskeligheder. NB! Om research hypothesis. Normalt vil vi hellere lave en research hypothesis, der siger, at skilsmissebørns adfærdsproblemer adskiller sig fra andre børns i stedet for at sige, at de har større problemer. (We would generally prefer to test the research hypothesis that children under stress are different from rather than just higher than other children) 2. For at undersøge H 1, opstiller vi H 0 (nulhypotesen), som indeholder den modsatte hypotese af det, vi vil undersøge. Derfor siger H 0, at børn under skilsmisse udvikler lige så mange adfærdsvanskeligheder som almindelige børn. 3. Vi indsamler et random sample fra børn under stress. 4. Vi indsamler the sampling distribution of the mean under den forventning, at H 0 er sand. (hvilket gør det lettere for at verificere/afvise H 0 end det er at bevise H 1.) 5. på baggrund af the sampling distribution vil vi udregne sandsynligheden for, at et gennemsnit (μ) er mindst lige så højt som vores faktiske sample mean. 6. på baggrund af den sandsynlighed, tager vi en beslutning: enten at afvise eller nægte at afvise H 0. Ovenstående er basisprincipperne i hypotesetestning! Ovenstående eks kan generelt udformes til: s. 166. VIGTIG VIGTIG VIGTIG VIGTIG VIGITG 1. Specify a research hypothesis (H 1 ) 2. Set up the null hypothesis (H 0 ) 3. Collect some data 4. Construct or at least imagine the sampling distribution of the particular statistic on the assumption that H 0 is true 5. Compare the sample statistic to that distribution, and find the probability of exceeding the observed statistic s value

6. Reject or retain H 0, depending on the probability under H 0, of a sample statistic as extreme as the one we have obtained. Nulhypotese (H 0 ) = Vi opstiller en hypotese, som siger det stik modsatte af det, vi håber på at kunne vise. Vi kan aldrig bevise, at noget er sandt, men vi kan bevise, at noget er forkert. Sample statistics = beskriver samples (deskriptiv statistik) Test statistics (fx t, F, X 2 ) = are associated with specific statistical procedures, and have their own sampling distributions just as the sample statistics. (inferential statistik) s. 168 ^^ The sampling distributions for test statistics are obtained and used in essentially the same way as the sampling distribution of the mean. s. 168 Rejection levels/ significance levels/ signifikansniveau = p 0.05, andre gange p 0.01. ^^ Whenever the probability obtained under H 0 is less than or equal to our predominant significance level, we will reject H 0. s. 171. ^^ Any outcome whose probability under H 0 is less than or equal to the significance level, falls into the rejection region. s. 171 + Any observation falling into that area (fra grænsen og ud til siden) would lead to rejection of the null hypothesis. s. 175 ^^ The rejection region represents those outcomes that are so unlikely under the null hypothesis that we are lead to reject the null hypothesis based on the reasoning that we would not reasonably expect such results if the null hypothesis were true. s. 172. VIGTIGT. Critical value/ kritiske værdi = the actual score that cuts off the lowest 5 %. Those values of X (the variable), or a test statistic, that describe the boundary or boundaries of the rejection region(s). s. 173 ^^ se eks på, hvordan den kritiske værdi findes nederst s. 173-174. Type 1 error = rejecting H 0 when, in fact, it is true. Its conditional probability is designated as α (alpha), the size of the rejection region. 174 (The probability of a type 1 error a probability by α?) ^^ The probability of rejecting H 0, given that it is true. s. 174 Type 2 error = failing to reject H 0 when it is actually false and H 1 is true. Its probability is symbolized by β (beta) (Denne fejl kan især forekomme ved et signifikansniveau på 0.01 se hvorfor på s. 175.) Se evt. NB! S. 175 for lidt vigtigt om type 1 error og 5%...

^^ If we were to reduce the level of α (the probability of a type 1 error) from.05 to.01 by moving the rejection region to the left, it would reduce the probability of type 1 errors but would increase the probability of type 2 errors. s. 176. POSSIBLE OUTCOMES OF THE DECISION-MAKING PROCESS: s. 177 Decision: True state of the world: True state of the world: Reject H 0 Type 1 error p = α Correct decision p = 1 β = power (kap 15) Fail to reject H 0 Correct decision p = 1 α Type 2 error p = β One-tailed test / directional test = we reject H 0 for only the lowest or highest 5 %. s. 178. Vi skærer altså 5 % af resultaterne fra i den ene ende af datasættet, og ser dermed bort fra den ene endes resultater. Two-tailed test / nondirectional test = When we reject extremes in both tails, we have what is called a two-tailed test. s. 178 (Man skærer altså 2,5 % af i hver ende for stadig at få en samlet procentdel på 5.) ^^ fordel ved two-tailed test = vi får muligheden for at afvise nulhypotesen for ekstreme scores i begge ender. ^^ ulempe ved two-tailed test = A score that would fall into the 5 % rejection region of a onetailed test may not fall into the rejection region of the corresponding two-tailed test, because now we reject only 2.5 % in each tail. s. 178. Two-tailed tests benyttes oftere end one-tailed, fordi. s. 178-79: - Vi kan ikke være sikre på, hvilken ende af distributionen der er vigtig (eller om de begge er) og derfor tages der forbehold med en two-tailed - Selv hvis forskerne er ret sikre på, hvilken ende, der er vigtig at skære af, bruger de twotailed tests til at beskytte dem selv mod et tilfælde, hvor de måske tager fejl. - Beslutningen om one-/two-tailed tests skal tages før data indsmales. Kap. 9: s. 188-226: CORRELATION det dårligste kapitel Correlation coefficient /korrelationskoefficient = repræsenterer graden af forhold ml. to grp/variabler. Dens værdi ligger ml 1 og 1. If the points fell exactly on the line, the correlation would be +1.00) Mest alm = Pearson s r: r =

^^ The correlation coefficient can be importantly affected by characteristics of the sample. s. 203 ^^..it also suffers from sampling error. s. 211. Husk note med det gule nederst s. 188!!! Udviklingen af en test, som - We are asking if one variable (Y) is related to another variable (X). When we are dealing with the relationship between two variables, we are concerned with correlation, and our measure of the degree or strength of this relationship is represented by a correlation coefficient. s. 189. ^^ The correlation coefficient is simply a point on the scale between -1.00 and +1.00, and the closer it is to either of its limits, the stronger is the relationship between the two variables. s. 200. Scatterplot/scatter diagram/scattergram = bruges, når vi måler forholdet ml. to variabler: In a scatterplot every experimental subject or unit or observation in the study is represented by a point in two-dimensional space. The coordinates of this point (X1,Y1) are the individual s (or object s) scores on variables X and Y, respectively. s. 190. Predictor variable = the independent variable, traditionally represented on the X axis. Criterion variable = the dependent variable, traditionally represented on the Y axis. (Y) ^^ The criterion variable is the one to be predicted, whereas the predictor variable is the one from which the prediction is made. s. 191. Regression line = the line that best fit the data. (for udregning af denne se kap. 10) The regression lines of Y predicted on X (abbreviated Y on X ), and they represent our best prediction of Yi for a given value of X i, where i represent the i th value of X or Y. Given any specified value of X, the corresponding height of the regression line represents our best prediction of Y (designated Ŷ and read Y hat ) s. 192 ^^Korrelationskoefficienten fortæller, hvordan data fordeler sig omkring regressionslinjen. Dens værdi spænder fra +1.00 til -1.00. Ved en værdi på +1.00, ligger alle punkterne for data lige på linjen. Negative relationship = s. 194 Linear relationship = the best fitting line is straight. (the best or nearly best fit to the data comes from a straight line.) s. 198 Curvilinear relationship = if the best fitting line is not straight, we will refer to this. s. 198. The covariance = basically a number that reflects the degree to which two variables vary together. If, fx, high scores on one variable tend to be paired with high scores on the other, the covariance will be large and positive. s. 198

^^ The covariance as a measure of the degree of relationship between two variables. s. 199. Den matematiske def. af kovariansen: cov XY = Ybar/Xbar = means, s. 198. Pearson product-monent correlation coefficient (r): r = ^^ Divide the covariance by the standard deviation (of X and Y) and make the result our estimate of correlation. s. 199 ^^ The maximum value of COV XY turns to be ± S X S Y s. 199. Fortolkning af r = a measure of the degree to which the covariance approaches its maximum. s. 199 s. 199 bund: formlen for udregning af covariance i hånden, sker dog yderst sjældent!!!! Pearson product-moment correlation coefficient (r) = mest alm. korrelationskoefficient. ^^ The degree to which the points cluster around the regression line ir related to the correlation (r) between X and Y. s. 192. Spearman s correlation coefficient for ranked data (r s ) s. 201. Monotonic relationship = one that is continuously rising or continuously falling. s. 203 Range restrictions = s. 203. Heterogeneous subsamples = s. 205 s. 208: Correlation and causation: om korrelationer og årsager. ^^ Correlation does not imply causation. Just because two variables are correlated doesn t mean that one caused the other. s. 208. S. 209: vigtig liste over mulige grunde til signifikante korrelationsgrunde!!!!!!!!!! 1. The relationship actually could be causal. 2. We may have the relationship bachward, and the response variable (den afh.) could actually cause the explanatory variable. 3. The relationship may be only partially causal: only if other conditions are present 4. There may be a third, confounding, variable present. 5. Both variables may be related to a third, causal, variable 6. Variables may be changing over time. (fx skilsmisse: det er ikke mærkeligt, at din risiko for at være skilt er større som 50-årig end som 20-årig, fordi mange forhold ikke går i stykker, før der er gået nogle år.. = risikoen stiger med tiden.) 7. The correlation may be due to coincidence: two things just happened to occur at the same time.

^^ we need to rule out other variables. If we can show that A leads to B in both the presence and the absence of other possible causal factors, we have strengthened our argument. s. 210. VIGTIG Population correlation coefficient rho (ρ) = s. 212. When we are predicting one variable from one other variable, the degrees of freedom (df) = N 2, where N is the size of our sample (the number of pairs, not the number of individual data points, which will be 2 times N) s. 213 Opsampling: hvordan anvendes table E.2 s. 592? Se s. 214!!!! 1. Calculate the sample correlation and compute df = N 2, where N is the number of pairs of observations. 2. Look in table E.2 and find the critical value of r. 3. We then reject H 0, whenever the absolute value of r is greater than or equal to the tables critical value. Intercorrelation matrix = a matrix in which each cell contains the correlation, and related information, between the variables on the rows and columns. s. 214. When we have one variable measured on a continuous scale and one variable measured as a dichotomy (that variable has only two levels: right or wrong), then the correlation coefficient that we produce is called the point biserial correlation (r pb ) s. 216. Dichotomous variables = the right scores receive a number and so do the wrong scores. s. 216 ^^en variabel, som kun kan have 2 udfald: ja og nej eller man dog kvinde fx. Se s. 231. Phi (Φ) = a correlation coefficient that arises when both variables are measured as dichotomies. 217 ^^ For example in studying the relationship between gender and religiosity we might correlate gender (coded male = 1, female = 2) with regular church attendance (no = 0, yes = 1) It makes no difference what two values we use to code the dichotomous variables. s. 217. Bemærk vigtigt skema (table 9.4) på s. 217: hvornår anvendes hvilke korrelationskeoff? Når man skal analysere, så husk, hvilke variabler, vi har med at gøre. UDREGN: 1. mean og standard deviation 2. covariance 3. correlation - Kap 10, s. 230-262: REGRESSION Regression line = the line that best fits a scatterplot of the data, s. 230. Ask: hvor godt passer den?

Regression = We want to write an equation that explains how differences in one variable relate to differences in another and that allow us to predict a person s score on one variable from knowledge of that person s score on another variable. s. 231. Linear regression = the best-fitting line is a straight line, s. 231-32. Remember that when we write α = 0.05, two-tailed, we are speaking of a two-tailed significance test that places 5 % of the sampling distribution of r, when the null hypothesis is true, in the rejection region. s. 234. Formlen for en ret linje/straight line: Y = bx + a s. 236 ^^Ofte skrives Ŷ i stedet for Y, hvilket er den forventede værdi af Y. ^^b = the slope of the regression line (the amount of difference in Y associated with a one-unit difference in X)/hældningskoefficient. Often referred to as the rate of changes, s. 238. Think of the slope as how much different you expect Y to be for a one-unit difference in X. s. 238. If the correlation is not significant, then the slope of the regression line will also be nonsignificant. 240. ^^a = intercept (the predicted value of Y when X = 0)/skæringspunkt The intercept will always be 0 for standardized data. s. 242. Errors of prediction = in terms of the (Y - Ŷ) deviation, s. 237. ^^ Errors of prediction and variance have many things in common. s. 237. Residual = error of prediction, s. 237. Formler for a og b: b = a = Yhat bxhat = ^^bemærk, at a-formlen indeholder b s værdi, så det er nødvendigt at finde b først!!!! Regression equation: Y(evt Yhat) = værdien for b + værdien for a, s. 238. Regression coefficients = betegnelsen for a og b. Standardized regression coefficient, β (beta) = The regression coefficient that results from data that have been standardized. s. 240 ^^ With standardized data the slope will be equal to the correlation s. 242. Nonstandardized data (b) = s. 240.

IMPORTANT POINT OMKRING REGRESSION = whether the straight line represents a reasonable fit to the data. s. 243. ØNSKE: at kunne forudsige Y uden at vide noget om X. s. 243 ^^ Ŷ angiver vores best prediction. S. 243. The error associated with your prediction will be the sample standard deviation of Y (s Y ) s. 243 Your prediction is the mean, and s Y deals with deviations around the mean. 243 Formlen for s Y = Og variansen er defineret ved formlen: = s. 244: ^^ The numerator is the sum of squared deviations from Ybar. (the point you would have predicted in this particular example.) 244 The standard error of estimate (S Y Ŷ) defineres ved: S Y Ŷ = s. 244 se også bund s. 244 for residual variance og error variance. S Y Ŷ = S Y Ŷ = se omskrivningen på s. 246 r 2 = the squared correlation coefficient (explains the strength of the relationship we have between two variables. Resultatet af denne er i procent. (r 2 will equal the percentage of the variability in symptoms that stress is able to predict or explain) s. 246