import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader, TensorDataset

fashion_mnist = datasets.FashionMNIST(root='./data', train=True, 
                                      download=True, transform=transforms.ToTensor())

img, label = fashion_mnist[0]
plt.figure()
plt.imshow(img.squeeze(), cmap='gray')
plt.show()

label

9

def FashionMNIST_get_class_name(label):

    class_names = ["T-shirt/top", "Trouser", "Pullover", "Dress", 
    "Coat", "Sandal", "Shirt", "Sneaker", "Bag", "Ankle boot"]

    return class_names[label]

print(f"{label}: '{FashionMNIST_get_class_name(label)}'")

9: 'Ankle boot'

x1 = torch.tensor(1.0, requires_grad=True)
x2 = torch.tensor(2.0, requires_grad=True)

f = 3 * (x1 ** 2) + x2 + torch.exp(x1 * x2)

f.backward()

print(x1.grad)  # df/dx
print(x2.grad)  # df/dy

tensor(20.7781)
tensor(8.3891)

z = torch.tensor([1., 2., 3.], requires_grad=True)

g = torch.sum(z ** 2)
g.backward()

print(z.grad)  # gradient is (2 z_1, 2 z_2, 2 z_3)

tensor([2., 4., 6.])

X = torch.randn(3, 2)  # Random dataset (features)
y = torch.tensor([[1., 0., 1.]])  # Dataset (labels)
theta = torch.ones(2, 1, requires_grad=True)  # Parameter assignment

predict = X @ theta  # Classifier with parameter vector theta
loss = torch.sum((predict - y)**2)  # Loss function
loss.backward()  # Compute gradients

print(theta.grad)  # gradient of loss

tensor([[11.9778],
        [89.0301]])

def gd_with_ad(f, x0, alpha=1e-3, niters=int(1e6)):
    xk = torch.tensor(x0, requires_grad=True, dtype=torch.float)
    
    for _ in range(niters):
        value = f(xk)
        value.backward()

        with torch.no_grad():  
            xk -= alpha * xk.grad

        xk.grad.zero_()

    return xk.numpy(force=True), f(xk).item()

def f(x):
    return x**3

print(gd_with_ad(f, 2, niters=int(1e4)))

(array(0.03277362, dtype=float32), 3.5202472645323724e-05)

print(gd_with_ad(f, -2, niters=100))

(array(-4.9335055, dtype=float32), -120.07894897460938)

x = torch.tensor([1.,0.,-1.], requires_grad=True)
y = torch.tensor([0.,1.])
W0 = torch.tensor([[0.,1.,-1.],[2.,0.,1.]])
W1 = torch.tensor([[-1.,0.],[2.,-1.]])

z0 = x
z1 = W0 @ z0
z2 = W1 @ z1
f = 0.5 * (torch.linalg.vector_norm(y-z2) ** 2)

print(z0)

tensor([ 1.,  0., -1.], requires_grad=True)

print(z1)

tensor([1., 1.], grad_fn=<MvBackward0>)

print(z2)

tensor([-1.,  1.], grad_fn=<MvBackward0>)

print(f)

tensor(0.5000, grad_fn=<MulBackward0>)

with torch.no_grad():
    F0 = W0
    F1 = W1 @ F0
    grad_f = ((z2 - y).unsqueeze(0)) @ F1
    
print(F0)

tensor([[ 0.,  1., -1.],
        [ 2.,  0.,  1.]])

print(F1)

tensor([[ 0., -1.,  1.],
        [-2.,  2., -3.]])

print(grad_f)

tensor([[ 0.,  1., -1.]])

f.backward()
print(x.grad)

tensor([ 0.,  1., -1.])

with torch.no_grad():
    G2 = ((z2 - y).unsqueeze(0))
    G1 = G2 @ W1
    grad_f = G1 @ W0
    
print(G2)

tensor([[-1.,  0.]])

print(G1)

tensor([[1., 0.]])

print(grad_f)

tensor([[ 0.,  1., -1.]])

x = torch.tensor([1.,0.,-1.])
y = torch.tensor([0.,1.])
W0 = torch.tensor([[0.,1.,-1.],[2.,0.,1.]], requires_grad=True)
W1 = torch.tensor([[-1.,0.],[2.,-1.]], requires_grad=True)

z0 = x
z1 = W0 @ z0
z2 = W1 @ z1
f = 0.5 * (torch.linalg.vector_norm(y-z2) ** 2)

print(z0)

tensor([ 1.,  0., -1.])

print(z1)

tensor([1., 1.], grad_fn=<MvBackward0>)

print(z2)

tensor([-1.,  1.], grad_fn=<MvBackward0>)

print(f)

tensor(0.5000, grad_fn=<MulBackward0>)

f.backward()

print(W0.grad)

tensor([[ 1.,  0., -1.],
        [ 0.,  0., -0.]])

print(W1.grad)

tensor([[-1., -1.],
        [-0., -0.]])

with torch.no_grad():
    grad_W0 = torch.kron(((z2 - y).unsqueeze(0)) @ W1, (z0.unsqueeze(0)))
    grad_W1 = torch.kron(((z2 - y).unsqueeze(0)), (z1.unsqueeze(0)))

print(grad_W0)

tensor([[ 1.,  0., -1.,  0.,  0., -0.]])

print(grad_W1)

tensor([[-1., -1.,  0.,  0.]])

def sigmoid(z): 
    return 1/(1+np.exp(-z))

def pred_fn(x, A): 
    return sigmoid(A @ x)

def loss_fn(x, A, b): 
    return np.mean(-b*np.log(pred_fn(x, A)) - (1 - b)*np.log(1 - pred_fn(x, A)))

def grad_fn(x, A, b):
    return -A.T @ (b - pred_fn(x, A))/len(b)

def desc_update_for_logreg(grad_fn, A, b, curr_x, beta):
    gradient = grad_fn(curr_x, A, b)
    return curr_x - beta*gradient

def sgd_for_logreg(rng, loss_fn, grad_fn, A, b, 
                   init_x, beta=1e-3, niters=int(1e5), batch=40):
    
    curr_x = init_x
    nsamples = len(b)
    for _ in range(niters):
        I = rng.integers(nsamples, size=batch)
        curr_x = desc_update_for_logreg(
            grad_fn, A[I,:], b[I], curr_x, beta)
    
    return curr_x

data = pd.read_csv('SAHeart.csv')
data.head()

feature = data[['tobacco', 'ldl', 'age']].to_numpy()
print(feature)

[[1.200e+01 5.730e+00 5.200e+01]
 [1.000e-02 4.410e+00 6.300e+01]
 [8.000e-02 3.480e+00 4.600e+01]
 ...
 [3.000e+00 1.590e+00 5.500e+01]
 [5.400e+00 1.161e+01 4.000e+01]
 [0.000e+00 4.820e+00 4.600e+01]]

label = data['chd'].to_numpy()
A = np.concatenate((np.ones((len(label),1)),feature),axis=1)
b = label

seed = 535
rng = np.random.default_rng(seed)
init_x = np.zeros(A.shape[1])
best_x = sgd_for_logreg(rng, loss_fn, grad_fn, A, b, init_x, beta=1e-3, niters=int(1e6))
print(best_x)

[-4.06558071  0.07990955  0.18813635  0.04693118]

def logis_acc(x, A, b):
    return np.sum((pred_fn(x, A) > 0.5) == b)/len(b)

logis_acc(best_x, A, b)

0.7207792207792207

device = torch.device("cuda" if torch.cuda.is_available() 
                      else ("mps" if torch.backends.mps.is_available() 
                            else "cpu"))
print("Using device:", device)

Using device: mps

from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torch.nn as nn
import torch.optim as optim

seed = 42
torch.manual_seed(seed)

if device.type == 'cuda': # device-specific seeding and settings
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # for multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
elif device.type == 'mps':
    torch.mps.manual_seed(seed)  # MPS-specific seeding

g = torch.Generator()
g.manual_seed(seed)

train_dataset = datasets.FashionMNIST(root='./data', train=True, 
                               download=True, transform=transforms.ToTensor())
test_dataset = datasets.FashionMNIST(root='./data', train=False, 
                              download=True, transform=transforms.ToTensor())

BATCH_SIZE = 32
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, generator=g)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

model = nn.Sequential(
    nn.Flatten(),
    nn.Linear(28 * 28, 10)
).to(device)

loss_fn = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=1e-3)

def train(dataloader, model, loss_fn, optimizer, device):
    size = len(dataloader.dataset)
    model.train()
    for batch, (X, y) in enumerate(dataloader):
        X, y = X.to(device), y.to(device)    
        pred = model(X)
        loss = loss_fn(pred, y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

def training_loop(train_loader, model, loss_fn, optimizer, device, epochs=3):
    for epoch in range(epochs):
        train(train_loader, model, loss_fn, optimizer, device)
        print(f"Epoch {epoch+1}/{epochs}")

training_loop(train_loader, model, loss_fn, optimizer, device, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10

def test(dataloader, model, loss_fn, device):
    size = len(dataloader.dataset)
    correct = 0    
    model.eval()
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = model(X)
            correct += (pred.argmax(dim=1) == y).type(torch.float).sum().item()

    print(f"Test error: {(100*(correct / size)):>0.1f}% accuracy")

test(test_loader, model, loss_fn, device)

Test error: 78.7% accuracy

import torch.nn.functional as F

def predict_softmax(dataloader, model, device):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()
    predictions = []
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = model(X)
            probabilities = F.softmax(pred, dim=1)
            predictions.append(probabilities.cpu())
            
    return torch.cat(predictions, dim=0)

predictions = predict_softmax(test_loader, model, device).numpy()

print(predictions[0])

[4.4307165e-04 3.8354204e-04 2.0886613e-03 8.8066678e-04 3.6079765e-03
 1.7791630e-01 1.4651606e-03 2.2466542e-01 4.8245404e-02 5.4030383e-01]

predictions[0].argmax(0)

9

images, labels = next(iter(test_loader))
images = images.squeeze().numpy()
labels = labels.numpy()

print(f"{labels[0]}: '{mmids.FashionMNIST_get_class_name(labels[0])}'")

9: 'Ankle boot'

import torch.nn.functional as F

x = torch.tensor([1.,0.,-1.])
y = torch.tensor([0.,1.])
W0 = torch.tensor([[0.,1.,-1.],[2.,0.,1.]], requires_grad=True)
W1 = torch.tensor([[-1.,0.],[2.,-1.]], requires_grad=True)

z0 = x
z1 = F.sigmoid(W0 @ z0)
z2 = F.softmax(W1 @ z1, dim=0)
f = -torch.dot(torch.log(z2), y)

print(z0)

tensor([ 1.,  0., -1.])

print(z1)

tensor([0.7311, 0.7311], grad_fn=<SigmoidBackward0>)

print(z2)

tensor([0.1881, 0.8119], grad_fn=<SoftmaxBackward0>)

print(f)

tensor(0.2084, grad_fn=<NegBackward0>)

f.backward()
print(W0.grad)

tensor([[-0.1110, -0.0000,  0.1110],
        [ 0.0370,  0.0000, -0.0370]])

print(W1.grad)

tensor([[ 0.1375,  0.1375],
        [-0.1375, -0.1375]])

with torch.no_grad():
    grad_W0 = torch.kron(((z2 - y).unsqueeze(0)) @ W1 @ torch.diag(z1 * (1-z1)), (z0.unsqueeze(0)))
    grad_W1 = torch.kron(((z2 - y).unsqueeze(0)), (z1.unsqueeze(0)))

print(grad_W0)

tensor([[-0.1110, -0.0000,  0.1110,  0.0370,  0.0000, -0.0370]])

print(grad_W1)

tensor([[ 0.1375,  0.1375, -0.1375, -0.1375]])

device = torch.device('cuda' if torch.cuda.is_available() 
                      else ('mps' if torch.backends.mps.is_available() 
                            else 'cpu'))
print('Using device:', device)

Using device: mps

from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torch.nn as nn
import torch.optim as optim

seed = 42
torch.manual_seed(seed)

if device.type == 'cuda': # device-specific seeding and settings
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # for multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
elif device.type == 'mps':
    torch.mps.manual_seed(seed)  # MPS-specific seeding

g = torch.Generator()
g.manual_seed(seed)

train_dataset = datasets.FashionMNIST(root='./data', train=True, 
                               download=True, transform=transforms.ToTensor())
test_dataset = datasets.FashionMNIST(root='./data', train=False, 
                              download=True, transform=transforms.ToTensor())

BATCH_SIZE = 32
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, generator=g)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

model = nn.Sequential(
    nn.Flatten(),                      # Flatten the input
    nn.Linear(28 * 28, 32),            # First Linear layer with 32 nodes
    nn.Sigmoid(),                      # Sigmoid activation function
    nn.Linear(32, 10)                  # Second Linear layer with 10 nodes (output layer)
).to(device)

loss_fn = nn.CrossEntropyLoss()  
optimizer = optim.SGD(model.parameters(), lr=1e-3)

mmids.training_loop(train_loader, model, loss_fn, optimizer, device, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10

mmids.test(test_loader, model, loss_fn, device)

Test error: 64.0% accuracy

loss_fn = nn.CrossEntropyLoss()  
optimizer = optim.Adam(model.parameters())
mmids.training_loop(train_loader, model, loss_fn, optimizer, device)

Epoch 1/3
Epoch 2/3
Epoch 3/3

mmids.test(test_loader, model, loss_fn, device)

Test error: 85.0% accuracy

	sbp	tobacco	ldl	adiposity	typea	obesity	alcohol	age	chd
0	160.0	12.00	5.73	23.11	49.0	25.30	97.20	52.0	1.0
1	144.0	0.01	4.41	28.61	55.0	28.87	2.06	63.0	1.0
2	118.0	0.08	3.48	32.28	52.0	29.14	3.81	46.0	0.0
3	170.0	7.50	6.41	38.03	51.0	31.99	24.26	58.0	1.0
4	134.0	13.60	3.50	27.78	60.0	25.99	57.34	49.0	1.0

Motivating example: classifying natural images¶

Background: Jacobian, chain rule, and a brief introduction to automatic differentiation¶

Building blocks of AI 1: backpropagation¶

Building blocks of AI 2: stochastic gradient descent¶

Building blocks of AI 3: neural networks¶