class: center, middle, inverse, title-slide # PRIMJENJENA STATISTIKA ## Predavanje 6: Statistička teorija - uzorak i populacija ### Luka Sikic, PhD ### Fakultet hrvatskih studija |
Github PS
--- class: inverse, middle # PREGLED PREDAVANJA --- layout: true # PREGLED PREDAVANJA --- <br> <br> ## CILJEVI <br> <br> - Uzorak vs. Populacija - Procjena prosjeka i standardne devijacije populacije - Sampling distribucije - Intervali pouzdanosti --- layout:false class: middle, inverse # UZORAK vs POPULACIJA <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Drveće vs šuma!) --- layout:true # UZORAK vs POPULACIJA --- <br> <br> - Jednostavni slučajni uzorak <br> - Jednostavni slučajni uzorak sa *zamjenom* i *bez zamjene* <br> - Da li je naš uzorak uistinu slučajan?! <br> - Koliko je bitno da imamo "slučajni uzorak"? <br> - Želimo naučiti nešto o populaciji no imamo samo uzorak! --- <br> <br> .hi[Stvori uzorak od 10.000 ljudi iz populacije sa prosječnim IQ od 100 i standardnom devijacijom 15] <br> <br> ```r IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodova IQ <- round(IQ) # IQ je cijeli broj print(head(IQ),7) # Pogledaj podatke ``` ``` #> [1] 100 96 87 87 132 84 ``` -- ```r mean(IQ) # Provjeri prosjek ``` ``` #> [1] 100.0675 ``` ```r sd(IQ) # Provjeri standardnu devijaciju ``` ``` #> [1] 15.09152 ``` --- .hi[Grafički prikaz populacije] ```r # plot x <- 60:140 y <- dnorm(x,100,15) plot(x, y, lwd=3, type="l", col=ifelse(colour,emphCol,"black"), xlab="IQ Bodovi", ylab="Gustoća vjerojatnosti", frame.plot=FALSE, title = "" ) ``` --- .hi[Grafički prikaz populacije] <img src="06_UZORAK_POPULACIJA_files/figure-html/IQdistg-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Grafikon prikazuje distribuciju IQ u populaciji.] --- .hi[Grafički prikaz uzorka] ```r # funkcija za izradu grafikona plotSamples <- function( n ) { IQ <- rnorm(n, 100, 15) hist( IQ, breaks=seq(10,180,5), border="white", col=ifelse(colour,emphColLight,emphGrey), xlab="IQ Bodovi", ylab="Frekvencija", xlim=c(60,140), main="" ) print( paste( "n=",n,"prosjek=",mean(IQ), "sd=",sd(IQ) ) ) # Prikaži deskriptivnu statistiku } ``` --- .hi[Uzorci različite veličine (N=100)] ```r # prikaži plotSamples(100) ``` <img src="06_UZORAK_POPULACIJA_files/figure-html/unnamed-chunk-6-1.svg" style="display: block; margin: auto;" /> ``` #> [1] "n= 100 prosjek= 99.5589905523533 sd= 13.020429311092" ``` --- .hi[Uzorci različite veličine (N=10.000)] ```r # prikaži plotSamples(10000) ``` <img src="06_UZORAK_POPULACIJA_files/figure-html/unnamed-chunk-7-1.svg" style="display: block; margin: auto;" /> ``` #> [1] "n= 10000 prosjek= 100.135021994701 sd= 15.0172217274223" ``` --- layout:false class: middle, inverse # PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Zaključivanje o populaciji na osnovi uzorka?) --- layout:true # PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE --- .hi[Notacija i značenje] <br> <br> <table> <thead> <tr> <th style="text-align:left;"> Simbol </th> <th style="text-align:left;"> Znacenje </th> <th style="text-align:left;"> Dodatno </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> `\(\bar{X}\)` </td> <td style="text-align:left;"> Prosjek uzorka </td> <td style="text-align:left;"> Izračunato na podatcima </td> </tr> <tr> <td style="text-align:left;"> `\(\mu\)` </td> <td style="text-align:left;"> Prosjek populacije </td> <td style="text-align:left;"> Uglavnom nepoznato </td> </tr> <tr> <td style="text-align:left;"> `\(\hat{\mu}\)` </td> <td style="text-align:left;"> Procjena prosjeka populacije </td> <td style="text-align:left;"> Jednako prosjeku uzorka </td> </tr> </tbody> </table> --- .hi[**Nepristranost prosjeka**] <img src="biasMean.png" width="50%" height="50%" style="display: block; margin: auto;" /> --- .hi[**Pristranost standardne devijacije**] <br> - Kako povećavamo veličinu uzorka, *standardna devijacija* je sve manja! $$ s^2 = \frac{1}{N} \sum_{i=1}^N (X_i - \bar{X})^2 $$ - Procjenu standardne devijacije populacije je potrebno korigirati: $$ \hat\sigma^2 = \frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2 $$ - Procijenjena standardna devijacija populacije: $$ \hat\sigma = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2} $$ --- .hi[**Pristranost standardne devijacije**] <img src="biasSD.png" width="50%" height="50%" style="display: block; margin: auto;" /> --- .hi[Još notacije...] <table> <thead> <tr> <th style="text-align:left;"> Simbol </th> <th style="text-align:left;"> Znacenje </th> <th style="text-align:left;"> Dodatno </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> `\(s\)` </td> <td style="text-align:left;"> Standardna devijacija uzorka </td> <td style="text-align:left;"> Na osnovi podataka </td> </tr> <tr> <td style="text-align:left;"> `\(\sigma\)` </td> <td style="text-align:left;"> Standardna devijacija populacije </td> <td style="text-align:left;"> Uglavnom nepozato </td> </tr> <tr> <td style="text-align:left;"> `\(\hat{\sigma}\)` </td> <td style="text-align:left;"> Procjena standardne devijacije populacije </td> <td style="text-align:left;"> Slično kao standardna devijacija uzorka </td> </tr> <tr> <td style="text-align:left;"> `\(s^2\)` </td> <td style="text-align:left;"> Varijanca uzorka </td> <td style="text-align:left;"> Na osnovi podataka </td> </tr> <tr> <td style="text-align:left;"> `\(\sigma^2\)` </td> <td style="text-align:left;"> Varijanca populacije </td> <td style="text-align:left;"> Uglavnom nepozato </td> </tr> <tr> <td style="text-align:left;"> `\(\hat{\sigma}^2\)` </td> <td style="text-align:left;"> Procjena varijance populacije </td> <td style="text-align:left;"> Slično kao varijanca uzorka </td> </tr> </tbody> </table> --- layout:false class: middle, inverse # SAMPLING DISTRIBUCIJE <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Svojstva distribucija uzoraka...) --- layout:true # SAMPLING DISTRIBUCIJE --- .hi[Primjer: Deset ponavljanja IQ eksperimenta, svaki sa veličinom uzorka `\(N=5\)`.] <table> <thead> <tr> <th style="text-align:left;"> Ponavljanje </th> <th style="text-align:right;"> Osoba.1 </th> <th style="text-align:right;"> Osoba.2 </th> <th style="text-align:right;"> Osoba.3 </th> <th style="text-align:right;"> Osoba.4 </th> <th style="text-align:right;"> Osoba.5 </th> <th style="text-align:right;"> Prosjek.uzorka </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Ponavljanje 1 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 82 </td> <td style="text-align:right;"> 94 </td> <td style="text-align:right;"> 99 </td> <td style="text-align:right;"> 110 </td> <td style="text-align:right;"> 95.0 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 2 </td> <td style="text-align:right;"> 78 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 111 </td> <td style="text-align:right;"> 111 </td> <td style="text-align:right;"> 117 </td> <td style="text-align:right;"> 101.0 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 3 </td> <td style="text-align:right;"> 111 </td> <td style="text-align:right;"> 122 </td> <td style="text-align:right;"> 91 </td> <td style="text-align:right;"> 98 </td> <td style="text-align:right;"> 86 </td> <td style="text-align:right;"> 101.6 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 4 </td> <td style="text-align:right;"> 98 </td> <td style="text-align:right;"> 96 </td> <td style="text-align:right;"> 119 </td> <td style="text-align:right;"> 99 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 103.8 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 5 </td> <td style="text-align:right;"> 105 </td> <td style="text-align:right;"> 113 </td> <td style="text-align:right;"> 103 </td> <td style="text-align:right;"> 103 </td> <td style="text-align:right;"> 98 </td> <td style="text-align:right;"> 104.4 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 6 </td> <td style="text-align:right;"> 81 </td> <td style="text-align:right;"> 89 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 85 </td> <td style="text-align:right;"> 114 </td> <td style="text-align:right;"> 92.4 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 7 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 98 </td> <td style="text-align:right;"> 133 </td> <td style="text-align:right;"> 106.4 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 8 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 105 </td> <td style="text-align:right;"> 117 </td> <td style="text-align:right;"> 85 </td> <td style="text-align:right;"> 102.8 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 9 </td> <td style="text-align:right;"> 86 </td> <td style="text-align:right;"> 119 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 73 </td> <td style="text-align:right;"> 116 </td> <td style="text-align:right;"> 100.4 </td> </tr> <tr> <td style="text-align:left;"> Ponavljanje 10 </td> <td style="text-align:right;"> 95 </td> <td style="text-align:right;"> 126 </td> <td style="text-align:right;"> 112 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 76 </td> <td style="text-align:right;"> 105.8 </td> </tr> </tbody> </table> --- .hi[Funkcija za generiranje sampling distribucija] ```r width <- 4.5 height <- 4.5 # definiraj funkciju plotSamples <- function( n, N) { IQ <- rnorm(n, 100,15/sqrt(N)) hist( IQ, breaks=seq(10,180,5), border="white", freq=FALSE, col=ifelse(colour,emphColLight,emphGrey), xlab="IQ Bodovi", ylab="", xlim=c(60,140), main=paste("Veličina uzorka =",N), axes=FALSE, font.main=1, ylim=c(0,.07) ) axis(1) } # distribucija populacije x <- 60:140 y <- dnorm(x,100,15) ``` --- ```r # prikaz različitih veličina uzoraka plotSamples(10000,1) lines(x,y,lwd=2,col="black",type="l") ``` <img src="06_UZORAK_POPULACIJA_files/figure-html/unnamed-chunk-10-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Svaki uzorak se satoji od samo jedne opservacije tako da je prosijek svakog uzorka samo IQ jedne osobe. Zbog toga je sampling distribucija prosjeka jednaka distribuciji IQ bodova.] --- <img src="06_UZORAK_POPULACIJA_files/figure-html/IQsampb-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Kada povećamo uzorak, prosjek svakog uzorka konvergira prosjeku populacije znatno više nego u slučaju samo jedne osobe. Histogram je zbog toga malo uži nego u populaciji.] --- <img src="06_UZORAK_POPULACIJA_files/figure-html/IQsampc-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Kod veličline uzoprka od 10 se može primijetiti da je distribucija prosjeka uzoraka centrirana blizu pravog prosjeka populacije.] --- layout:false class: middle, inverse # TEOREM CENTRALNE TENDENCIJE <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Gravitacija!) --- layout:true # TEOREM CENTRALNE TENDENCIJE --- <br> <br> - Zakon velikih brojeva <br> <br> - Standardna devijacija sampling distribucije $$ \mbox{SEM} = \frac{\sigma}{ \sqrt{N} } $$ --- .hi[Grafički prikaz] <img src="06_UZORAK_POPULACIJA_files/figure-html/cltdemo-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Grafički prikaz teorema centralne tendencije. Grafikon pokazuje ne-standardnu distribuciju (populacije). --- .hi[Grafički prikaz] <img src="06_UZORAK_POPULACIJA_files/figure-html/cltdemwo-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Grafički prikaz teorema centralne tendencije. Grafikoni prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije (prethodni grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.] --- .hi[Grafički prikaz (N=4)] <img src="06_UZORAK_POPULACIJA_files/figure-html/cltdemtro12-1.svg" style="display: block; margin: auto;" /> --- .hi[Grafički prikaz (N=8)] <img src="06_UZORAK_POPULACIJA_files/figure-html/cltdemtro21-1.svg" style="display: block; margin: auto;" /> --- layout:false class: middle, inverse # INTERVALI POUZDANOSTI <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Procjena sigurnosti statističkih rezultata!) --- layout:true # INTERVALI POUZDANOSTI --- <br> <br> .hi[Izračunaj 95% standardne distribucije] ```r # percentili (2.5% i 97.5%) standardne distribucije qnorm( p = c(.025, .975) ) ``` ``` #> [1] -1.959964 1.959964 ``` --- <br> <br> .hi[Interval pouzdanosti za prosjek kada su parametri populacije poznati] <br> <br> $$ \mu - \left( 1.96 \times \mbox{SEM} \right) \ \leq \ \bar{X}\ \leq \ \mu + \left( 1.96 \times \mbox{SEM} \right) $$ --- <br> <br> .hi[Intervali pouzdanosti za prosjek populacije] <br> <br> $$ \bar{X} - \left( 1.96 \times \mbox{SEM} \right) \ \leq \ \mu \ \leq \ \bar{X} + \left( 1.96 \times \mbox{SEM}\right) $$ --- .hi[Standardni zapis] $$ \mbox{CI}_{95} = \bar{X} \pm \left( 1.96 \times \frac{\sigma}{\sqrt{N}} \right) $$ --- <br> <br> .hi[Kada prosjek i stdev nisu poznati, koristi se t distribucija] <br> <br> ```r N <- 10000 # Veličina uzorka 10,000 qt( p = .975, df = N-1) # Izračunaj 97.5th percentil t distribucije ``` ``` #> [1] 1.960201 ``` ```r N <- 10 # Veličina uzorka 10 qt( p = .975, df = N-1) # Izračunaj 97.5th percentil t distribucije ``` ``` #> [1] 2.262157 ``` --- .hi[Izračunaj interval pouzdanosti u R] ```r # ciMean( x = afl$attendance ) # 2.5% 97.5% # 31597.32 32593.12 ``` --- .hi[Grafički prikaži intervale pouzdanosti] ```r load( file.path( "../Podatci/afl24.Rdata" )) # Učitaj podatke library( sciplot ) # Paketi za bargraph.CI() i lineplot.CI() funkicje library( lsr ) # ciMean() funkcija ``` ```r bargraph.CI( x.factor = year, # Grupirajuća varijabla response = attendance, # Ciljana varijabla data = afl, # Podatci ci.fun = ciMean, # Naziv funkcije za izračun CI xlab = "Godina", ylab = "Prosječna posjećenost" ) ``` --- <img src="06_UZORAK_POPULACIJA_files/figure-html/bargraphCIgg-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.] --- .hi[Grafički prikaži intervale pouzdanosti] ```r lineplot.CI( x.factor = year, # Grupirajuća varijabla response = attendance, # Ciljana varijabla data = afl, # Podatci ci.fun = ciMean, # Naziv funkcije za izračun CI xlab = "Godina", ylab = "Prosječna posjećenost" ) ``` --- .hi[Grafički prikaži intervale pouzdanosti] <img src="06_UZORAK_POPULACIJA_files/figure-html/lineplotCIgd-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.] --- layout:false class: middle, inverse # HVALA NA PAŽNJI! <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Sljedeće predavanje: Testirnje statističkih hipoteza!)