Stvori uzorak od 10.000 ljudi iz populacije sa prosječnim IQ od 100 i standardnom devijacijom 15
IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodovaIQ <- round(IQ) # IQ je cijeli brojprint(head(IQ),7) # Pogledaj podatke
#> [1] 100 96 87 87 132 84
Stvori uzorak od 10.000 ljudi iz populacije sa prosječnim IQ od 100 i standardnom devijacijom 15
IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodovaIQ <- round(IQ) # IQ je cijeli brojprint(head(IQ),7) # Pogledaj podatke
#> [1] 100 96 87 87 132 84
mean(IQ) # Provjeri prosjek
#> [1] 100.0675
sd(IQ) # Provjeri standardnu devijaciju
#> [1] 15.09152
Grafički prikaz populacije
# plot x <- 60:140 y <- dnorm(x,100,15) plot(x, y, lwd=3, type="l", col=ifelse(colour,emphCol,"black"), xlab="IQ Bodovi", ylab="Gustoća vjerojatnosti", frame.plot=FALSE, title = "" )
Grafički prikaz populacije
[*]Grafikon prikazuje distribuciju IQ u populaciji.
Grafički prikaz uzorka
# funkcija za izradu grafikona plotSamples <- function( n ) { IQ <- rnorm(n, 100, 15) hist( IQ, breaks=seq(10,180,5), border="white", col=ifelse(colour,emphColLight,emphGrey), xlab="IQ Bodovi", ylab="Frekvencija", xlim=c(60,140), main="" ) print( paste( "n=",n,"prosjek=",mean(IQ), "sd=",sd(IQ) ) ) # Prikaži deskriptivnu statistiku }
Uzorci različite veličine (N=100)
# prikaži plotSamples(100)
#> [1] "n= 100 prosjek= 99.5589905523533 sd= 13.020429311092"
Uzorci različite veličine (N=10.000)
# prikaži plotSamples(10000)
#> [1] "n= 10000 prosjek= 100.135021994701 sd= 15.0172217274223"
Notacija i značenje
Simbol | Znacenje | Dodatno |
---|---|---|
`ˉX` | Prosjek uzorka | Izračunato na podatcima |
`μ` | Prosjek populacije | Uglavnom nepoznato |
`ˆμ` | Procjena prosjeka populacije | Jednako prosjeku uzorka |
Nepristranost prosjeka
Pristranost standardne devijacije
Kako povećavamo veličinu uzorka, standardna devijacija je sve manja! s2=1NN∑i=1(Xi−ˉX)2
Procjenu standardne devijacije populacije je potrebno korigirati: ˆσ2=1N−1N∑i=1(Xi−ˉX)2
Procijenjena standardna devijacija populacije: ˆσ=√1N−1N∑i=1(Xi−ˉX)2
Pristranost standardne devijacije
Još notacije...
Simbol | Znacenje | Dodatno |
---|---|---|
`s` | Standardna devijacija uzorka | Na osnovi podataka |
`σ` | Standardna devijacija populacije | Uglavnom nepozato |
`ˆσ` | Procjena standardne devijacije populacije | Slično kao standardna devijacija uzorka |
`s2` | Varijanca uzorka | Na osnovi podataka |
`σ2` | Varijanca populacije | Uglavnom nepozato |
`ˆσ2` | Procjena varijance populacije | Slično kao varijanca uzorka |
Primjer: Deset ponavljanja IQ eksperimenta, svaki sa veličinom uzorka (N=5)
.
Ponavljanje | Osoba.1 | Osoba.2 | Osoba.3 | Osoba.4 | Osoba.5 | Prosjek.uzorka |
---|---|---|---|---|---|---|
Ponavljanje 1 | 90 | 82 | 94 | 99 | 110 | 95.0 |
Ponavljanje 2 | 78 | 88 | 111 | 111 | 117 | 101.0 |
Ponavljanje 3 | 111 | 122 | 91 | 98 | 86 | 101.6 |
Ponavljanje 4 | 98 | 96 | 119 | 99 | 107 | 103.8 |
Ponavljanje 5 | 105 | 113 | 103 | 103 | 98 | 104.4 |
Ponavljanje 6 | 81 | 89 | 93 | 85 | 114 | 92.4 |
Ponavljanje 7 | 100 | 93 | 108 | 98 | 133 | 106.4 |
Ponavljanje 8 | 107 | 100 | 105 | 117 | 85 | 102.8 |
Ponavljanje 9 | 86 | 119 | 108 | 73 | 116 | 100.4 |
Ponavljanje 10 | 95 | 126 | 112 | 120 | 76 | 105.8 |
Funkcija za generiranje sampling distribucija
width <- 4.5 height <- 4.5 # definiraj funkciju plotSamples <- function( n, N) { IQ <- rnorm(n, 100,15/sqrt(N)) hist( IQ, breaks=seq(10,180,5), border="white", freq=FALSE, col=ifelse(colour,emphColLight,emphGrey), xlab="IQ Bodovi", ylab="", xlim=c(60,140), main=paste("Veličina uzorka =",N), axes=FALSE, font.main=1, ylim=c(0,.07) ) axis(1) } # distribucija populacije x <- 60:140 y <- dnorm(x,100,15)
# prikaz različitih veličina uzoraka plotSamples(10000,1) lines(x,y,lwd=2,col="black",type="l")
[*]Svaki uzorak se satoji od samo jedne opservacije tako da je prosijek svakog uzorka samo IQ jedne osobe. Zbog toga je sampling distribucija prosjeka jednaka distribuciji IQ bodova.
[*]Kada povećamo uzorak, prosjek svakog uzorka konvergira prosjeku populacije znatno više nego u slučaju samo jedne osobe. Histogram je zbog toga malo uži nego u populaciji.
[*]Kod veličline uzoprka od 10 se može primijetiti da je distribucija prosjeka uzoraka centrirana blizu pravog prosjeka populacije.
SEM=σ√N
Grafički prikaz
.footnote[[*]Grafički prikaz teorema centralne tendencije. Grafikon pokazuje ne-standardnu distribuciju (populacije).
Grafički prikaz
[*]Grafički prikaz teorema centralne tendencije. Grafikoni prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije (prethodni grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.
Grafički prikaz (N=4)
Grafički prikaz (N=8)
Izračunaj 95% standardne distribucije
# percentili (2.5% i 97.5%) standardne distribucijeqnorm( p = c(.025, .975) )
#> [1] -1.959964 1.959964
Interval pouzdanosti za prosjek kada su parametri populacije poznati
μ−(1.96×SEM) ≤ ˉX ≤ μ+(1.96×SEM)
Intervali pouzdanosti za prosjek populacije
ˉX−(1.96×SEM) ≤ μ ≤ ˉX+(1.96×SEM)
Standardni zapis
CI95=ˉX±(1.96×σ√N)
Kada prosjek i stdev nisu poznati, koristi se t distribucija
N <- 10000 # Veličina uzorka 10,000qt( p = .975, df = N-1) # Izračunaj 97.5th percentil t distribucije
#> [1] 1.960201
N <- 10 # Veličina uzorka 10qt( p = .975, df = N-1) # Izračunaj 97.5th percentil t distribucije
#> [1] 2.262157
Izračunaj interval pouzdanosti u R
# ciMean( x = afl$attendance )# 2.5% 97.5% # 31597.32 32593.12
Grafički prikaži intervale pouzdanosti
load( file.path( "../Podatci/afl24.Rdata" )) # Učitaj podatkelibrary( sciplot ) # Paketi za bargraph.CI() i lineplot.CI() funkicjelibrary( lsr ) # ciMean() funkcija
bargraph.CI( x.factor = year, # Grupirajuća varijabla response = attendance, # Ciljana varijabla data = afl, # Podatci ci.fun = ciMean, # Naziv funkcije za izračun CI xlab = "Godina", ylab = "Prosječna posjećenost" )
[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.
Grafički prikaži intervale pouzdanosti
lineplot.CI( x.factor = year, # Grupirajuća varijabla response = attendance, # Ciljana varijabla data = afl, # Podatci ci.fun = ciMean, # Naziv funkcije za izračun CI xlab = "Godina", ylab = "Prosječna posjećenost" )
Grafički prikaži intervale pouzdanosti
[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |