3.7 softmax回归的简洁实现
我们仍然使用Fashion-MNIST数据集和上一节中设置的批量大小。
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
3.7.2 定义和初始化模型
在3.4节(softmax回归)中提到,softmax回归的输出层是一个全连接层,所以我们用一个线性模块就可以了。因为前面我们数据返回的每个batch样本x
的形状为(batch_size, 1, 28, 28), 所以我们要先用view()
将x
的形状转换成(batch_size, 784)才送入全连接层。
num_inputs = 784
num_outputs = 10
def __init__(self, num_inputs, num_outputs):
super(LinearNet, self).__init__()
def forward(self, x): # x shape: (batch, 1, 28, 28)
y = self.linear(x.view(x.shape[0], -1))
return y
net = LinearNet(num_inputs, num_outputs)
这样我们就可以更方便地定义我们的模型:
from collections import OrderedDict
# nn.Linear(num_inputs, num_outputs)
OrderedDict([
('flatten', FlattenLayer()),
('linear', nn.Linear(num_inputs, num_outputs))
])
)
然后,我们使用均值为0、标准差为0.01的正态分布随机初始化模型的权重参数。
init.normal_(net.linear.weight, mean=0, std=0.01)
init.constant_(net.linear.bias, val=0)
3.7.4 定义优化算法
我们使用学习率为0.1的小批量随机梯度下降作为优化算法。
optimizer = torch.optim.SGD(net.parameters(), lr=0.1)
接下来,我们使用上一节中定义的训练函数来训练模型。
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)
小结
- 可以使用PyTorch更简洁地实现softmax回归。