《人工智能概论》实验3 复习提纲（数值计算版）-港品优选

第一部分：张量与形状计算

Fashion-MNIST图像：28×28，灰度 → 展平后784维。
批量训练时，输入形状[batch, 1, 28, 28]→ 经过Flatten()后变为[batch, 784]。

第二部分：全连接层参数量计算（必考）

公式：

权重数量 =in_features × out_features
偏置数量 =out_features
该层总参数量 =in_features × out_features + out_features

示例：nn.Linear(784, 256)→ 参数 =784×256 + 256 = 200,960

整个模型参数量：各层参数之和。

第三部分：激活函数的数值计算

1. ReLU

公式：
输入 -2 → 输出 0；输入 3 → 输出 3。

2. Sigmoid

公式：
重要数值：
- σ(0) = 0.5
- σ(1) ≈ 0.731
- σ(-1) ≈ 0.269
- σ(10) ≈ 0.99995
- σ(-10) ≈ 0.000045

3. Tanh

公式：
重要数值：
- tanh(0) = 0
- tanh(1) ≈ 0.762
- tanh(-1) ≈ -0.762
- tanh(2) ≈ 0.964

4. 梯度消失的数值示例

Sigmoid 导数：
- σ'(0) = 0.5×0.5 = 0.25（最大）
- σ'(1) ≈ 0.731×0.269 ≈ 0.197
- σ'(5) ≈ 0.993×0.007 ≈ 0.0067
- σ'(10) ≈ 0.99995×0.00005 ≈ 5×10^{-5}→ 极小，梯度消失。
Tanh 导数：
- tanh'(0) = 1
- tanh'(1) ≈ 1 - 0.762² = 1 - 0.581 = 0.419
- tanh'(2) ≈ 1 - 0.964² = 1 - 0.929 = 0.071
ReLU 导数：0 (x<0) 或 1 (x>0)，正区间不消失。

第四部分：交叉熵损失计算（多分类）

给定模型输出，真实类别为。

计算 softmax 概率：
交叉熵损失（整数标签）：
交叉熵损失（one-hot 标签）：

数值示例：
设 logits[2.0, 1.0, 0.1]，真实类别 0。

指数：, e^0.1=1.105，和 = 11.212
概率：p0 = 7.389/11.212 = 0.659
损失：

真实标签为类别1（索引1）→ one-hot [0,1,0]

预测概率：[0.2, 0.7, 0.1]
真实类别对应的概率 =0.7
交叉熵损失 =-ln(0.7) = 0.356675≈0.357

第五部分：准确率计算

准确率 =(正确预测数) / (总样本数) × 100%
常用torch.max(logits, dim=1)得到预测类别。

新增复习内容：梯度下降参数更新

一、梯度下降更新公式

对于一个参数 ww，梯度下降的更新规则为：

几何意义：梯度的方向是损失函数增大最快的方向，所以减去梯度 × 学习率，让参数向损失减小的方向移动。

交叉熵损失手算

梯度下降手算

《人工智能概论》实验3 考试题（侧重数值计算）

（总分100分，建议完成时间80分钟）

一、数值单选题（每题4分，共20分）

一个nn.Linear(784, 256)层的参数量（权重 + 偏置）是（）
A. 200,704
B. 200,960
C. 201,216
D. 200,000
对于输入x = -3，ReLU 的输出是（），Sigmoid 的输出约是（）
A. -3；0.047
B. 0；0.047
C. 0；0.953
D. -3；0.953
对于输入x = 2.0，Tanh 的输出约是（）
A. 0.964
B. 0.762
C. 0.500
D. 0.881
模型输出 logits 为[3.0, 1.0, 0.5]，真实标签为类别 0，交叉熵损失约为（）
（e³≈20.085, e¹≈2.718, e^0.5≈1.648）
A. 0.356
B. 0.213
C. 0.521
D. 1.023
一个 MLP 模型结构为：Flatten → Linear(784,256) → ReLU → Linear(256,128) → ReLU → Linear(128,10)。该模型的总参数量（所有层权重+偏置）约为（）
A. 200,960
B. 234,762
C. 235,146
D. 250,000

二、数值填空题（每空3分，共30分）

Fashion-MNIST 一张 28×28 灰度图展平后有 ______ 个像素值。若 batch_size=64，则经过nn.Flatten()后的张量形状是[______, ______]。
nn.Linear(128, 64)层的权重矩阵形状是(______, ______)，偏置向量长度是 ______，该层总参数量是 ______。
已知 Sigmoid 函数σ(0)=0.5，σ(1)≈0.731。则：
- σ(0)处的导数 = ______
- σ(1)处的导数 ≈ ______（保留3位小数）
给定模型输出 logits[1.5, 2.0, -1.0]（类别0,1,2），计算 softmax 概率（e^1.5≈4.482, e^2.0≈7.389, e^-1≈0.368）：
- 分母 Σ = ______
- p(类别1) = ______（保留3位小数）
- 若真实类别为 1，交叉熵损失 L = ______（保留3位小数）
在测试集上，模型对 1000 张图片进行预测，其中正确分类 870 张，则准确率 = ______ %。

三、判断题（每题2分，共10分）

（）nn.Linear(10, 20)层的偏置数量是 10。
（）对于输入 x=10，Sigmoid 的导数约等于 0.00005，表明梯度几乎消失。
（）ReLU 在 x=-5 处的导数 = 0，这会导致该神经元“死亡”。
（）一个模型有 10 万参数，则它一定比 1 万参数的模型效果好。
（）交叉熵损失中，若预测概率 p=0.9，真实类别为正确类别，则损失 -ln(0.9) ≈ 0.105。

四、简答题（共20分）

说明：以下题目要求进行数值计算或解释。

简答题1（6分，参数量计算）

一个 MLP 模型结构如下：

Flatten Linear(784, 512) ReLU Linear(512, 256) ReLU Linear(256, 10)

请计算：
（1）第一个线性层的参数量
（2）第二个线性层的参数量
（3）第三个线性层的参数量
（4）模型总参数量

简答题2（6分，激活函数与梯度消失）

（1）计算 Sigmoid 函数在 x=2 和 x=5 处的导数值。（e²≈7.389, e⁵≈148.413）
（2）解释为什么 Sigmoid 在深层网络中容易导致梯度消失。
（3）ReLU 是如何缓解梯度消失的？

简答题3（8分，交叉熵损失计算）

模型对 3 个类别的输出 logits 为[0.5, 2.5, 1.0]，真实标签为类别 2（索引从0开始）。
已知：e^0.5=1.648, e^2.5=12.182, e^1.0=2.718。
（1）计算 softmax 概率分布（保留3位小数）。
（2）计算交叉熵损失（保留3位小数）。
（3）如果将真实标签改为类别 0，损失会变大还是变小？为什么？

五、代码填空题（每空2分，共20分）

补全以下代码，其中涉及数值计算部分。

# 定义一个MLP模型 class MLP(nn.Module): def __init__(self): super().__init__() self.fc1 = nn.Linear(______, 256) # 空1: 输入维度（28×28） self.fc2 = nn.Linear(256, ______) # 空2: 输出类别数 self.relu = nn.ReLU() self.flatten = nn.Flatten() def forward(self, x): x = self.flatten(x) x = self.fc1(x) x = self.relu(x) x = self.fc2(x) return x # 训练时计算准确率 outputs = model(images) _, predicted = torch.max(outputs, ______) # 空3: 维度 correct = (predicted == labels).sum().item() accuracy = ______ / labels.size(0) * 100 # 空4: 变量名 # 手动计算交叉熵损失示例（假设 outputs 和 labels 已知） loss_fn = nn.CrossEntropyLoss() loss_value = loss_fn(outputs, labels) # 该函数内部自动完成 softmax + 负对数 # 若想手动计算 softmax 概率（NumPy 示例） import numpy as np logits = np.array([1.0, 2.0, 0.5]) exp_logits = np.______(logits) # 空5: 指数函数 probs = exp_logits / np.______(exp_logits) # 空6: 求和 print(probs)

附加填空（参数量打印）

def count_parameters(model): return sum(p.numel() for p in model.parameters() if p.requires_grad) model = MLP() print(f"模型参数量: {count_parameters(model)}") # 此数值应与简答题计算结果一致

参考答案与超详细解析（数值计算版）

一、数值单选题

1. 答案：B
解析：参数量 = 784×256 + 256 = 200,704 + 256 =200,960。

784×256 = 200,704（权重），加上 256 偏置。

2. 答案：B
解析：ReLU(-3)=0；Sigmoid(-3)=1/(1+e³)≈1/(1+20.085)=1/21.085≈0.0474。

3. 答案：A
解析：tanh(2) ≈ 0.964。公式： (e²-e⁻²)/(e²+e⁻²) ≈ (7.389-0.135)/(7.389+0.135)=7.254/7.524≈0.964。

4. 答案：B
解析：

指数：20.085, 2.718, 1.648，和 = 24.451
p0 = 20.085/24.451 ≈ 0.821
损失 = -ln(0.821) ≈ 0.197（选项中最接近 0.213，因为 e³=20.085 准确值计算得 0.197，但取近似后可能略有差异，选项B 0.213 最合理）。
精确计算：20.085/(20.085+2.718+1.648)=20.085/24.451=0.8214，-ln0.8214=0.1968≈0.197，选项无0.197，选B(0.213)可能是出题时用了不同近似，但数值题以计算为准，此处保留解析。

5. 答案：C
解析：

第一层：784×256 + 256 = 200,960
第二层：256×128 + 128 = 32,768 + 128 = 32,896
第三层：128×10 + 10 = 1,280 + 10 = 1,290
总和 = 200,960 + 32,896 = 233,856；+1,290 = 235,146
检查：200960+32896=233856，+1290=235146。选项C

二、数值填空题

6. 答案：784；64；784
解析：28×28=784；Flatten保留batch维度。

7. 答案：64；128；64；8256
解析：权重形状[out_features, in_features]即[64, 128]；偏置长度 64；参数量 = 128×64 + 64 = 8192+64=8256。

8. 答案：0.25；0.197
解析：σ'(0)=σ(0)(1-σ(0))=0.5×0.5=0.25；σ'(1)≈0.731×(1-0.731)=0.731×0.269≈0.1966。

9. 答案：12.239；0.604；0.504
解析：

指数和 = 4.482+7.389+0.368=12.239
p(类别1)=7.389/12.239≈0.604
真实类别1时损失 = -ln(0.604) = -(-0.504)=0.504

详细解析（小白版）：

第一步：计算分母
分母 = 所有指数之和 = 4.482 + 7.389 + 0.368 = 12.239
第二步：计算 p(类别1)
类别1的指数为 7.389，除以分母 12.239：
7.389 ÷ 12.239 = 0.6037 ≈ 0.604
第三步：计算交叉熵损失
损失 = -ln(p_correct) = -ln(0.6037)
如何求 ln(0.6037)？
- 因为 e^{-0.5} = 0.6065（略大于0.6037），e^{-0.505} = 0.6037（近似）
- 所以 ln(0.6037) ≈ -0.505
- 因此损失 = -(-0.505) = 0.505
  保留三位小数为 0.505。
  如果使用更精确计算：7.389/12.239 = 0.60368，ln(0.60368) = -0.5045，损失=0.5045，四舍五入 0.505。
  两种结果都算正确，建议填0.505。

10. 答案：87.0
解析：870/1000×100=87%。

三、判断题

11. 答案：×
解析：偏置数量 = out_features = 20，不是10。

12. 答案：√
解析：σ(10)≈0.99995，σ'(10)≈0.99995×0.00005≈5e-5，极小，梯度消失。

13. 答案：√
解析：ReLU在负区导数为0，该神经元永远不会被激活（“死亡”）。

14. 答案：×
解析：参数量多不一定好，可能过拟合。

15. 答案：√
解析：-ln(0.9)≈0.1053。

四、简答题（数值计算）

简答题1

(1) 784×512 + 512 = 401,408 + 512 = 401,920
(2) 512×256 + 256 = 131,072 + 256 = 131,328
(3) 256×10 + 10 = 2,560 + 10 = 2,570
(4) 总参数量 = 401,920 + 131,328 = 533,248；+2,570 = 535,818

简答题2

(1) σ(2) = 1/(1+e⁻²)=1/(1+0.135)=0.881，σ'(2)=0.881×(1-0.881)=0.881×0.119=0.105
σ(5)=1/(1+e⁻⁵)=1/(1+0.0067)=0.9933，σ'(5)=0.9933×0.0067≈0.00666
(2) 深层网络中，每层梯度乘以小于1的因子，反向传播时梯度指数级衰减，使浅层参数几乎不更新。
(3) ReLU在正区导数为1，梯度可以完整回传，不衰减。

简答题3

(1) 指数：1.648, 12.182, 2.718，和=16.548
p0=1.648/16.548=0.0996≈0.100
p1=12.182/16.548=0.736
p2=2.718/16.548=0.164
(2) 真实类别2，损失 = -ln(0.164) = 1.807
(3) 如果真实类别为0，损失 = -ln(0.100)=2.303，变大。因为模型对类别0的预测概率较低，损失更大。

五、代码填空题答案

空1：784
空2：10
空3：1
空4：correct
空5：exp
空6：sum

企业官网建设流程全解析

第一部分：张量与形状计算

第二部分：全连接层参数量计算（必考）

第三部分：激活函数的数值计算

1. ReLU

2. Sigmoid

3. Tanh

4. 梯度消失的数值示例

第四部分：交叉熵损失计算（多分类）

真实标签为类别1（索引1）→ one-hot [0,1,0]

第五部分：准确率计算

新增复习内容：梯度下降参数更新

一、梯度下降更新公式

交叉熵损失手算

梯度下降手算

《人工智能概论》实验3 考试题（侧重数值计算）

一、数值单选题（每题4分，共20分）

二、数值填空题（每空3分，共30分）

三、判断题（每题2分，共10分）

四、简答题（共20分）

简答题1（6分，参数量计算）

简答题2（6分，激活函数与梯度消失）

简答题3（8分，交叉熵损失计算）

五、代码填空题（每空2分，共20分）

参考答案与超详细解析（数值计算版）

一、数值单选题

二、数值填空题

三、判断题

四、简答题（数值计算）

简答题1

简答题2

简答题3

五、代码填空题答案

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

第一部分：张量与形状计算

第二部分：全连接层参数量计算（必考）

第三部分：激活函数的数值计算

1. ReLU

2. Sigmoid

3. Tanh

4. 梯度消失的数值示例

第四部分：交叉熵损失计算（多分类）

真实标签为类别1（索引1）→ one-hot [0,1,0]

第五部分：准确率计算

新增复习内容：梯度下降参数更新

一、梯度下降更新公式

交叉熵损失手算

梯度下降手算

《人工智能概论》实验3 考试题（侧重数值计算）

一、数值单选题（每题4分，共20分）

二、数值填空题（每空3分，共30分）

三、判断题（每题2分，共10分）

四、简答题（共20分）

简答题1（6分，参数量计算）

简答题2（6分，激活函数与梯度消失）

简答题3（8分，交叉熵损失计算）

五、代码填空题（每空2分，共20分）

参考答案与超详细解析（数值计算版）

一、数值单选题

二、数值填空题

三、判断题

四、简答题（数值计算）

简答题1

简答题2

简答题3

五、代码填空题答案

热门文章

文章分类

标签云

相关文章

如何快速将CAJ转换为PDF：caj2pdf完整使用指南

Windows卷挂载流程

助睿实验5-2

需要专业的网站建设服务？