from scipy.stats import multivariate_normal

def gaussian_pdf(X, Y, mean, cov):
    xy = np.stack([X.flatten(), Y.flatten()], axis=-1)
    return multivariate_normal.pdf(
        xy, mean=mean, cov=cov).reshape(X.shape)

def make_surface_plot(X, Y, Z):
    fig = plt.figure()
    ax = fig.add_subplot(111, projection='3d')
    surf = ax.plot_surface(
        X, Y, Z, cmap=plt.cm.viridis, antialiased=False)
    plt.show()

start_point = 5
stop_point = 5
num_samples = 100
points = np.linspace(-start_point, stop_point, num_samples)
X, Y = np.meshgrid(points, points)

mean = np.array([0., 0.])
cov = np.array([[1., 0.], [0., 1.]])
make_surface_plot(X, Y, gaussian_pdf(X, Y, mean, cov))

mean = np.array([0., 0.])
cov = np.array([[1.5 ** 2., -0.75 * 1.5 * 0.5], 
                 [-0.75 * 1.5 * 0.5, 0.5 ** 2.]])
make_surface_plot(X, Y, gaussian_pdf(X, Y, mean, cov))

seed = 535
rng = np.random.default_rng(seed)

p = 0.1
N = 5
print(rng.binomial(1, p, size=N))

[1 0 0 0 0]

p = [0.1, 0.2, 0.7]
n = 100
print(rng.multinomial(n, p, size=N))

[[ 9 12 79]
 [ 5 20 75]
 [13 18 69]
 [ 8 18 74]
 [ 8 24 68]]

mu = np.array([0.1, -0.3])
sig = np.array([[2., 0.],[0., 3.]])
print(rng.multivariate_normal(mu, sig, size=N))

[[-0.7275232   2.66555155]
 [ 0.45641186 -2.65834344]
 [ 1.13188325  0.43920735]
 [ 0.69846716  2.49891659]
 [ 0.91725117  1.89618733]]

def nb_fit_table(N_km, alpha=1., beta=1.):
    
    K, M = N_km.shape
    N_k = np.sum(N_km,axis=-1)
    N = np.sum(N_k)
    pi_k = (N_k+alpha) / (N+K*alpha)
    p_km = (N_km+beta) / (N_k[:,None]+2*beta)

    return pi_k, p_km

def nb_predict(pi_k, p_km, x, label_set):
   
    K = len(pi_k)
    
    score_k = np.zeros(K)
    for k in range(K):
       
        score_k[k] -= np.log(pi_k[k])
        score_k[k] -= np.sum(x * np.log(p_km[k,:]) 
                               + (1 - x)*np.log(1 - p_km[k,:]))

    return label_set[np.argmin(score_k, axis=0)]

N_km = np.array([[400., 350., 450.],
                 [0., 150., 300.],
                 [100., 150., 50.]])

pi_k, p_km = nb_fit_table(N_km)
print(pi_k)

[0.61495136 0.23092678 0.15412186]

print(p_km)

[[0.33361065 0.29201331 0.37520799]
 [0.00221239 0.3340708  0.6659292 ]
 [0.33443709 0.5        0.16887417]]

label_set = ['Banana', 'Orange', 'Other']
x = np.array([1., 1., 1.])
nb_predict(pi_k, p_km, x, label_set)

'Banana'

from scipy.stats import multivariate_normal

def gmm2_pdf(X, Y, mean1, cov1, pi1, mean2, cov2, pi2):
    xy = np.stack([X.flatten(), Y.flatten()], axis=-1)
    Z1 = multivariate_normal.pdf(
        xy, mean=mean1, cov=cov1).reshape(X.shape) 
    Z2 = multivariate_normal.pdf(
        xy, mean=mean2, cov=cov2).reshape(X.shape) 
    return pi1 * Z1 + pi2 * Z2

start_point = 6
stop_point = 6
num_samples = 100
points = np.linspace(-start_point, stop_point, num_samples)
X, Y = np.meshgrid(points, points)

mean1 = np.array([-2., -2.])
cov1 = np.array([[1., 0.], [0., 1.]])
pi1 = 0.5
mean2 = np.array([2., 2.])
cov2 = np.array([[1.5 ** 2., -0.75 * 1.5 * 0.5], 
                 [-0.75 * 1.5 * 0.5, 0.5 ** 2.]])
pi2 = 0.5
Z = gmm2_pdf(X, Y, mean1, cov1, pi1, mean2, cov2, pi2)
mmids.make_surface_plot(X, Y, Z)

def gmm2(rng, d, n, phi0, phi1, mu0, sigma0, mu1, sigma1):
    
    phi = np.stack((phi0, phi1))
    mu = np.stack((mu0, mu1))
    sigma = np.stack((sigma0,sigma1))
    
    X = np.zeros((n,d))
    component = rng.choice(2, size=n, p=phi)
    for i in range(n):
        X[i,:] = rng.multivariate_normal(
            mu[component[i],:],
            sigma[component[i],:,:])
    
    return X

d = 2
sigma0 = np.outer(np.array([2., 2.]), np.array([2., 2.])) 
sigma0 += np.outer(np.array([-0.5, 0.5]), np.array([-0.5, 0.5]))
sigma1 = 2 * np.identity(d)
sigma = np.stack((sigma0,sigma1))
print(sigma[0,:,:])

[[4.25 3.75]
 [3.75 4.25]]

print(sigma[1,:,:])

[[2. 0.]
 [0. 2.]]

seed = 535
rng = np.random.default_rng(seed) 

n, w = 200, 5.
phi0 = 0.8
phi1 = 0.2
mu0 = np.concatenate(([w], np.zeros(d-1)))
mu1 = np.concatenate(([-w], np.zeros(d-1)))
X = gmm2(rng, d, n, phi0, phi1, mu0, sigma0, mu1, sigma1)

plt.scatter(X[:,0], X[:,1], s=5, marker='o', c='k')
plt.axis('equal')
plt.show()

def responsibility(pi_k, p_km, x):
   
    K = len(pi_k)
    score_k = np.zeros(K)
    for k in range(K):
       
        score_k[k] -= np.log(pi_k[k])
        score_k[k] -= np.sum(x * np.log(p_km[k,:]) 
                             + (1 - x) * np.log(1 - p_km[k,:]))
    r_k = np.exp(-score_k)/(np.sum(np.exp(-score_k)))
        
    return r_k

def update_parameters(eta_km, eta_k, eta, alpha, beta):

    K = len(eta_k)
    pi_k = (eta_k+alpha) / (eta+K*alpha)
    p_km = (eta_km+beta) / (eta_k[:,None]+2*beta)

    return pi_k, p_km

def em_bern(X, K, pi_0, p_0, maxiters = 10, alpha=0., beta=0.):
    
    n, M = X.shape
    pi_k = pi_0
    p_km = p_0
        
    for _ in range(maxiters):
    
        # E Step
        r_ki = np.zeros((K,n))
        for i in range(n):
            r_ki[:,i] = responsibility(pi_k, p_km, X[i,:])
        
        # M Step     
        eta_km = np.zeros((K,M))
        eta_k = np.sum(r_ki, axis=-1)
        eta = np.sum(eta_k)
        for k in range(K):
            for m in range(M):
                eta_km[k,m] = np.sum(X[:,m] * r_ki[k,:]) 
        pi_k, p_km = update_parameters(
            eta_km, eta_k, eta, alpha, beta)
        
    return pi_k, p_km

X = np.array([[1., 1., 1.],[1., 1., 1.],[1., 1., 1.],[1., 0., 1.],
              [0., 1., 1.],[0., 0., 0.],[0., 0., 0.],[0., 0., 1.]])
n, M = X.shape
K = 2
pi_0 = np.ones(K)/K
p_0 = rng.random((K,M))

pi_k, p_km = em_bern(
    X, K, pi_0, p_0, maxiters=100, alpha=0.01, beta=0.01)

print(pi_k)

[0.66500949 0.33499051]

print(p_km)

[[0.74982646 0.74982646 0.99800266]
 [0.00496739 0.00496739 0.25487292]]

x_test = np.array([0., 0., 1.])
print(responsibility(pi_k, p_km, x_test))

[0.32947702 0.67052298]

from torchvision import datasets, transforms
from torch.utils.data import DataLoader

mnist = datasets.MNIST(root='./data', train=True, 
                       download=True, transform=transforms.ToTensor())
train_loader = DataLoader(mnist, batch_size=len(mnist), shuffle=False)

imgs, labels = next(iter(train_loader))
imgs = imgs.squeeze().numpy()
labels = labels.numpy()

imgs = np.round(imgs)

mask = labels == 2
imgs2 = imgs[mask]
labels2 = labels[mask]

plt.imshow(imgs2[0], cmap='gray_r')
plt.show()

X = imgs2.reshape(len(imgs2), -1)

n, M = X.shape
K = 2
pi_0 = np.ones(K)/K
p_0 = rng.random((K,M))

pi_k, p_km = em_bern(
    X, K, pi_0, p_0, maxiters=10, alpha=1., beta=1.)

print(pi_k)

[nan nan]

warnings.resetwarnings()
old_settings = np.seterr(all='warn')

pi_k, p_km = em_bern(
    X, K, pi_0, p_0, maxiters=10, alpha=1., beta=1.)

/var/folders/k0/7k0fxl7j54q4k8dyqnrc6sz00000gr/T/ipykernel_87966/2844323350.py:10: RuntimeWarning: underflow encountered in exp
  r_k = np.exp(-score_k)/(np.sum(np.exp(-score_k)))
/var/folders/k0/7k0fxl7j54q4k8dyqnrc6sz00000gr/T/ipykernel_87966/2844323350.py:10: RuntimeWarning: invalid value encountered in divide
  r_k = np.exp(-score_k)/(np.sum(np.exp(-score_k)))

def log_sum_exp_trick(a):
    min_val = np.min(a)
    return - min_val + np.log(np.sum(np.exp(- a + min_val)))

a = np.array([1000, 1001, 1002])

np.log(np.sum(np.exp(-a)))

/var/folders/k0/7k0fxl7j54q4k8dyqnrc6sz00000gr/T/ipykernel_87966/214275762.py:1: RuntimeWarning: underflow encountered in exp
  np.log(np.sum(np.exp(-a)))
/var/folders/k0/7k0fxl7j54q4k8dyqnrc6sz00000gr/T/ipykernel_87966/214275762.py:1: RuntimeWarning: divide by zero encountered in log
  np.log(np.sum(np.exp(-a)))

-inf

log_sum_exp_trick(a)

-999.5923940355556

def responsibility(pi_k, p_km, x):
   
    K = len(pi_k)
    score_k = np.zeros(K)
    for k in range(K):
       
        score_k[k] -= np.log(pi_k[k])
        score_k[k] -= np.sum(x * np.log(p_km[k,:]) 
                             + (1 - x) * np.log(1 - p_km[k,:]))
    r_k = np.exp(-score_k - log_sum_exp_trick(score_k))
            
    return r_k

pi_k, p_km = em_bern(X, K, pi_0, p_0, maxiters=10, alpha=1., beta=1.)

plt.figure()
plt.imshow(p_km[0,:].reshape((28,28)))
plt.show()

plt.figure()
plt.imshow(p_km[1,:].reshape((28,28)))
plt.show()

responsibility(pi_k, p_km, X[0,:])

array([1.00000000e+00, 5.09357087e-17])

def lgSamplePath(rng, ss, os, F, H, Q, R, init_mu, init_Sig, T):
    x = np.zeros((ss,T)) 
    y = np.zeros((os,T))

    x[:,0] = rng.multivariate_normal(init_mu, init_Sig)
    for t in range(1,T):
        x[:,t] = rng.multivariate_normal(F @ x[:,t-1],Q)
        y[:,t] = rng.multivariate_normal(H @ x[:,t],R)
    
    return x, y

seed = 535
rng = np.random.default_rng(seed)
ss = 4 # state size
os = 2 # observation size
F = np.array([[1., 0., 1., 0.],
              [0., 1., 0., 1.],
              [0., 0., 1., 0.],
              [0., 0., 0., 1.]]) 
H = np.array([[1., 0., 0., 0.],
              [0., 1, 0., 0.]])
Q = 0.1 * np.diag(np.ones(ss))
R = 10 * np.diag(np.ones(os))
init_mu = np.array([0., 0., 1., 1.])
init_Sig = 1 * np.diag(np.ones(ss))
T = 50
x, y = lgSamplePath(rng, ss, os, F, H, Q, R, init_mu, init_Sig, T)

plt.scatter(y[0,:], y[1,:], s=5, c='r', alpha=0.5)
plt.plot(x[0,:], x[1,:], c='g', linestyle='dotted')
plt.xlim((np.min(y[0,:])-5, np.max(y[0,:])+5)) 
plt.ylim((np.min(y[1,:])-5, np.max(y[1,:])+5))
plt.show()

def kalmanUpdate(ss, F, H, Q, R, y_t, mu_prev, Sig_prev):
    
    mu_pred = F @ mu_prev
    Sig_pred = F @ Sig_prev @ F.T + Q
    
    e_t = y_t - H @ mu_pred
    S = H @ Sig_pred @ H.T + R
    Sinv = LA.inv(S)
    K = Sig_pred @ H.T @ Sinv
    
    mu_new = mu_pred + K @ e_t
    Sig_new = (np.diag(np.ones(ss)) - K @ H) @ Sig_pred
    
    return mu_new, Sig_new

def kalmanFilter(ss, os, y, F, H, Q, R, init_mu, init_Sig, T):
    
    mu = np.zeros((ss, T))
    Sig = np.zeros((ss, ss, T))
    mu[:,0] = init_mu
    Sig[:,:,0] = init_Sig
    for t in range(1,T):
        mu[:,t], Sig[:,:,t] = kalmanUpdate(ss, F, H, Q, R, y[:,t], mu[:,t-1], Sig[:,:,t-1])

    return mu, Sig

init_mu = np.array([0., 0., 1., 1.])
init_Sig = 1 * np.diag(np.ones(ss))
mu, Sig = kalmanFilter(ss, os, y, F, H, Q, R, init_mu, init_Sig, T)
plt.plot(mu[0,:], mu[1,:], c='b', marker='s', markersize=2, linewidth=1)
plt.scatter(y[0,:], y[1,:], s=5, c='r', alpha=0.5)
plt.plot(x[0,:], x[1,:], c='g', linestyle='dotted', alpha=0.5)
plt.xlim((np.min(y[0,:])-5, np.max(y[0,:])+5)) 
plt.ylim((np.min(y[1,:])-5, np.max(y[1,:])+5))
plt.show()

dobs = x[0:1,:] - y[0:1,:]
mse_obs = np.sqrt(np.sum(dobs**2))
print(mse_obs)

22.891982252201856

dfilt = x[0:1,:] - mu[0:1,:]
mse_filt = np.sqrt(np.sum(dfilt**2))
print(mse_filt)

9.778610100463018

Motivating example: tracking location¶

Background: introduction to parametric families and maximum likelihood estimation¶

Modeling more complex dependencies 1: using conditional independence¶

Modeling more complex dependencies 2: marginalizing out an unobserved variable¶

Example: Mixtures of multivariate Bernoullis and the EM algorithm¶

Application: linear-Gaussian models and Kalman filtering¶

Fruit	Long	Sweet	Yellow	Total
Banana	400	350	450	500
Orange	0	150	300	300
Other	100	150	50	200
Total	500	650	800	1000