PRIMJENJENA STATISTIKA

class: center, middle, inverse, title-slide

# PRIMJENJENA STATISTIKA
## Predavanje 6: Statistička teorija - uzorak i populacija
### Luka Sikic, PhD
### Fakultet hrvatskih studija | <a href="https://github.com/BrbanMiro/WebStatistika">Github PS</a>

---

class: inverse, middle
# PREGLED PREDAVANJA

---
layout: true
# PREGLED PREDAVANJA
---
<br>
<br>

## CILJEVI 
<br>
<br>

- Uzorak vs. Populacija
- Procjena prosjeka i standardne devijacije populacije
- Sampling distribucije
- Intervali pouzdanosti

---

layout:false
class: middle, inverse
# UZORAK vs POPULACIJA 
<html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html>
(Drveće vs šuma!)
---

layout:true
# UZORAK vs POPULACIJA

---
<br>
<br>

- Jednostavni slučajni uzorak
<br>
- Jednostavni slučajni uzorak sa *zamjenom* i *bez zamjene*
<br>
- Da li je naš uzorak uistinu slučajan?!
<br>
- Koliko je bitno da imamo "slučajni uzorak"?
<br>
- Želimo naučiti nešto o populaciji no imamo samo uzorak!

---
<br>
<br>

.hi[Stvori uzorak od 10.000 ljudi iz populacije sa prosječnim IQ od 100 i standardnom devijacijom 15]
<br>
<br>

```r
IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodova
IQ <- round(IQ) # IQ je cijeli broj
print(head(IQ),7) # Pogledaj podatke
```

```
#> [1] 100  96  87  87 132  84
```

```r
mean(IQ)        # Provjeri prosjek
```

```
#> [1] 100.0675
```

```r
sd(IQ)          # Provjeri standardnu devijaciju
```

```
#> [1] 15.09152
```

---
.hi[Grafički prikaz populacije]

```r
	# plot
	x <- 60:140
	y <- dnorm(x,100,15)
	plot(x,
	     y,
	     lwd=3,
	     type="l",
	     col=ifelse(colour,emphCol,"black"),
	     xlab="IQ Bodovi",
	     ylab="Gustoća vjerojatnosti",
       frame.plot=FALSE,
	     title = ""
	)
```

---

.hi[Grafički prikaz populacije]

.footnote[[*]Grafikon prikazuje distribuciju IQ u populaciji.]

---

.hi[Grafički prikaz uzorka]

```r
	# funkcija za izradu grafikona
	plotSamples <- function( n ) {
		
		IQ <- rnorm(n, 100, 15)
		hist( IQ,
		      breaks=seq(10,180,5),
		      border="white",
		      col=ifelse(colour,emphColLight,emphGrey),
		    	xlab="IQ Bodovi",
		    	ylab="Frekvencija",
		    	xlim=c(60,140),
		    	main=""
			
		)
		
		print( paste( "n=",n,"prosjek=",mean(IQ), "sd=",sd(IQ) ) ) # Prikaži deskriptivnu statistiku
	}
```

---

.hi[Uzorci različite veličine (N=100)]

```r
# prikaži
	plotSamples(100)
```

```
#> [1] "n= 100 prosjek= 99.5589905523533 sd= 13.020429311092"
```

---

.hi[Uzorci različite veličine (N=10.000)]

```r
# prikaži
	plotSamples(10000)
```

```
#> [1] "n= 10000 prosjek= 100.135021994701 sd= 15.0172217274223"
```

---
layout:false
class: middle, inverse
# PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE 
<html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html>
(Zaključivanje o populaciji na osnovi uzorka?)
---

layout:true
# PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

---

.hi[Notacija i značenje]
<br>
<br>

.hi[**Nepristranost prosjeka**]

---

.hi[**Pristranost standardne devijacije**]
<br>

- Kako povećavamo veličinu uzorka, *standardna devijacija* je sve manja!
$$
s^2 = \frac{1}{N} \sum_{i=1}^N (X_i - \bar{X})^2
$$

- Procjenu standardne devijacije populacije je potrebno korigirati:
$$
\hat\sigma^2 = \frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2 
$$

- Procijenjena standardna devijacija populacije:
$$
\hat\sigma = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2} 
$$

---

.hi[**Pristranost standardne devijacije**]

---

.hi[Još notacije...]

<table>
 <thead>
  <tr>
   <th style="text-align:left;"> Simbol </th>
   <th style="text-align:left;"> Znacenje </th>
   <th style="text-align:left;"> Dodatno </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> `$s$` </td>
   <td style="text-align:left;"> Standardna devijacija uzorka </td>
   <td style="text-align:left;"> Na osnovi podataka </td>
  </tr>
  <tr>
   <td style="text-align:left;"> `$\sigma$` </td>
   <td style="text-align:left;"> Standardna devijacija populacije </td>
   <td style="text-align:left;"> Uglavnom nepozato </td>
  </tr>
  <tr>
   <td style="text-align:left;"> `$\hat{\sigma}$` </td>
   <td style="text-align:left;"> Procjena standardne devijacije populacije </td>
   <td style="text-align:left;"> Slično kao standardna devijacija uzorka </td>
  </tr>
  <tr>
   <td style="text-align:left;"> `$s^2$` </td>
   <td style="text-align:left;"> Varijanca uzorka </td>
   <td style="text-align:left;"> Na osnovi podataka </td>
  </tr>
  <tr>
   <td style="text-align:left;"> `$\sigma^2$` </td>
   <td style="text-align:left;"> Varijanca populacije </td>
   <td style="text-align:left;"> Uglavnom nepozato </td>
  </tr>
  <tr>
   <td style="text-align:left;"> `$\hat{\sigma}^2$` </td>
   <td style="text-align:left;"> Procjena varijance populacije </td>
   <td style="text-align:left;"> Slično kao varijanca uzorka </td>
  </tr>
</tbody>
</table>

---
layout:false
class: middle, inverse
# SAMPLING DISTRIBUCIJE 
<html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html>
(Svojstva distribucija uzoraka...)
---

layout:true
# SAMPLING DISTRIBUCIJE

---

.hi[Primjer: Deset ponavljanja IQ eksperimenta, svaki sa veličinom uzorka `$N=5$`.]

<table>
 <thead>
  <tr>
   <th style="text-align:left;"> Ponavljanje </th>
   <th style="text-align:right;"> Osoba.1 </th>
   <th style="text-align:right;"> Osoba.2 </th>
   <th style="text-align:right;"> Osoba.3 </th>
   <th style="text-align:right;"> Osoba.4 </th>
   <th style="text-align:right;"> Osoba.5 </th>
   <th style="text-align:right;"> Prosjek.uzorka </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> Ponavljanje 1 </td>
   <td style="text-align:right;"> 90 </td>
   <td style="text-align:right;"> 82 </td>
   <td style="text-align:right;"> 94 </td>
   <td style="text-align:right;"> 99 </td>
   <td style="text-align:right;"> 110 </td>
   <td style="text-align:right;"> 95.0 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 2 </td>
   <td style="text-align:right;"> 78 </td>
   <td style="text-align:right;"> 88 </td>
   <td style="text-align:right;"> 111 </td>
   <td style="text-align:right;"> 111 </td>
   <td style="text-align:right;"> 117 </td>
   <td style="text-align:right;"> 101.0 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 3 </td>
   <td style="text-align:right;"> 111 </td>
   <td style="text-align:right;"> 122 </td>
   <td style="text-align:right;"> 91 </td>
   <td style="text-align:right;"> 98 </td>
   <td style="text-align:right;"> 86 </td>
   <td style="text-align:right;"> 101.6 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 4 </td>
   <td style="text-align:right;"> 98 </td>
   <td style="text-align:right;"> 96 </td>
   <td style="text-align:right;"> 119 </td>
   <td style="text-align:right;"> 99 </td>
   <td style="text-align:right;"> 107 </td>
   <td style="text-align:right;"> 103.8 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 5 </td>
   <td style="text-align:right;"> 105 </td>
   <td style="text-align:right;"> 113 </td>
   <td style="text-align:right;"> 103 </td>
   <td style="text-align:right;"> 103 </td>
   <td style="text-align:right;"> 98 </td>
   <td style="text-align:right;"> 104.4 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 6 </td>
   <td style="text-align:right;"> 81 </td>
   <td style="text-align:right;"> 89 </td>
   <td style="text-align:right;"> 93 </td>
   <td style="text-align:right;"> 85 </td>
   <td style="text-align:right;"> 114 </td>
   <td style="text-align:right;"> 92.4 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 7 </td>
   <td style="text-align:right;"> 100 </td>
   <td style="text-align:right;"> 93 </td>
   <td style="text-align:right;"> 108 </td>
   <td style="text-align:right;"> 98 </td>
   <td style="text-align:right;"> 133 </td>
   <td style="text-align:right;"> 106.4 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 8 </td>
   <td style="text-align:right;"> 107 </td>
   <td style="text-align:right;"> 100 </td>
   <td style="text-align:right;"> 105 </td>
   <td style="text-align:right;"> 117 </td>
   <td style="text-align:right;"> 85 </td>
   <td style="text-align:right;"> 102.8 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 9 </td>
   <td style="text-align:right;"> 86 </td>
   <td style="text-align:right;"> 119 </td>
   <td style="text-align:right;"> 108 </td>
   <td style="text-align:right;"> 73 </td>
   <td style="text-align:right;"> 116 </td>
   <td style="text-align:right;"> 100.4 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> Ponavljanje 10 </td>
   <td style="text-align:right;"> 95 </td>
   <td style="text-align:right;"> 126 </td>
   <td style="text-align:right;"> 112 </td>
   <td style="text-align:right;"> 120 </td>
   <td style="text-align:right;"> 76 </td>
   <td style="text-align:right;"> 105.8 </td>
  </tr>
</tbody>
</table>

---

.hi[Funkcija za generiranje sampling distribucija]

```r
  width <- 4.5
	height <- 4.5
	
	# definiraj funkciju
	plotSamples <- function( n, N) {
		
		IQ <- rnorm(n, 100,15/sqrt(N))
		hist( IQ, breaks=seq(10,180,5), border="white", freq=FALSE,
			col=ifelse(colour,emphColLight,emphGrey),
			xlab="IQ Bodovi", ylab="", xlim=c(60,140),
			main=paste("Veličina uzorka =",N), axes=FALSE,
			font.main=1, ylim=c(0,.07)
		)
		axis(1)
	}
	
	# distribucija populacije
	x <- 60:140
	y <- dnorm(x,100,15)
```

---

```r
	# prikaz različitih veličina uzoraka
	plotSamples(10000,1)
	lines(x,y,lwd=2,col="black",type="l")
```

.footnote[[*]Svaki uzorak se satoji od samo jedne opservacije tako da je prosijek svakog uzorka samo IQ jedne osobe. Zbog toga je sampling distribucija prosjeka jednaka distribuciji IQ bodova.]

---

.footnote[[*]Kada povećamo uzorak, prosjek svakog uzorka konvergira prosjeku populacije znatno više nego u slučaju samo jedne osobe. Histogram je zbog toga malo uži nego u populaciji.]

---

.footnote[[*]Kod veličline uzoprka od 10 se može primijetiti da je distribucija prosjeka uzoraka centrirana blizu pravog prosjeka populacije.]

---
layout:false
class: middle, inverse
# TEOREM CENTRALNE TENDENCIJE 
<html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html>
(Gravitacija!)
---

layout:true
# TEOREM CENTRALNE TENDENCIJE

---
<br>
<br>
- Zakon velikih brojeva
<br>
<br>
- Standardna devijacija sampling distribucije

$$
\mbox{SEM} = \frac{\sigma}{ \sqrt{N} }
$$

---

.hi[Grafički prikaz]

.footnote[[*]Grafički prikaz teorema centralne tendencije. Grafikon pokazuje ne-standardnu distribuciju (populacije).
---

.hi[Grafički prikaz]

.footnote[[*]Grafički prikaz teorema centralne tendencije. Grafikoni prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije (prethodni grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.]
---

.hi[Grafički prikaz (N=4)]

---

.hi[Grafički prikaz (N=8)]

---
layout:false
class: middle, inverse
# INTERVALI POUZDANOSTI 
<html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html>
(Procjena sigurnosti statističkih rezultata!)
---

layout:true
# INTERVALI POUZDANOSTI

---
<br>
<br>
.hi[Izračunaj 95% standardne distribucije]

```r
# percentili (2.5% i 97.5%) standardne distribucije
qnorm( p = c(.025, .975) )
```

```
#> [1] -1.959964  1.959964
```

---
<br>
<br>
.hi[Interval pouzdanosti za prosjek kada su parametri populacije poznati] <br>
<br>
$$
\mu - \left( 1.96 \times \mbox{SEM} \right) \ \leq \  \bar{X}\  \leq \  \mu + \left( 1.96 \times \mbox{SEM} \right) 
$$

---
<br>
<br>
.hi[Intervali pouzdanosti za prosjek populacije]
<br>
<br>
$$
\bar{X} -  \left( 1.96 \times \mbox{SEM} \right) \ \leq \ \mu  \ \leq  \ \bar{X} +  \left( 1.96 \times \mbox{SEM}\right)
$$
---

.hi[Standardni zapis]

$$
\mbox{CI}_{95} = \bar{X} \pm \left( 1.96 \times \frac{\sigma}{\sqrt{N}} \right)
$$

---
<br>
<br>
.hi[Kada prosjek i stdev nisu poznati, koristi se t distribucija]
<br>
<br>

```r
N <- 10000   # Veličina uzorka 10,000
qt( p = .975, df = N-1)   # Izračunaj 97.5th percentil t distribucije
```

```
#> [1] 1.960201
```

```r
N <- 10  # Veličina uzorka 10
qt( p = .975, df = N-1)   # Izračunaj 97.5th percentil t distribucije
```

```
#> [1] 2.262157
```

---

.hi[Izračunaj interval pouzdanosti u R]

```r
# ciMean( x = afl$attendance )
#    2.5%    97.5% 
# 31597.32 32593.12 
```

---

.hi[Grafički prikaži intervale pouzdanosti]

```r
load( file.path( "../Podatci/afl24.Rdata" ))  # Učitaj podatke
library( sciplot )     # Paketi za bargraph.CI() i lineplot.CI() funkicje
library( lsr )         # ciMean() funkcija
```

```r
bargraph.CI( x.factor = year,             # Grupirajuća varijabla 
              response = attendance,      # Ciljana varijabla
              data = afl,                 # Podatci
              ci.fun = ciMean,             # Naziv funkcije za izračun CI
              xlab = "Godina",              
              ylab = "Prosječna posjećenost" 
 )
```

---
<img src="06_UZORAK_POPULACIJA_files/figure-html/bargraphCIgg-1.svg" style="display: block; margin: auto;" />

.footnote[[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.]

---

.hi[Grafički prikaži intervale pouzdanosti]

```r
lineplot.CI( x.factor = year,            # Grupirajuća varijabla  
             response = attendance,      # Ciljana varijabla
             data = afl,                 # Podatci
             ci.fun = ciMean,             # Naziv funkcije za izračun CI
             xlab = "Godina",              
             ylab = "Prosječna posjećenost" 
)
```

---

.hi[Grafički prikaži intervale pouzdanosti]

.footnote[[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.]

---

layout:false
class: middle, inverse
# HVALA NA PAŽNJI! 
<html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html>
(Sljedeće predavanje: Testirnje statističkih hipoteza!)