幻言笔记

4.5 读取和存储

发表于 2025-02-17 更新于 2025-04-16 分类于深度学习，笔记

读写`Tensor`

可以直接使用save函数和load函数分别存储和读取Tensor。save使用Python的pickle实用程序将对象进行序列化，然后将序列化的对象保存到disk，使用save可以保存各种对象,包括模型、张量和字典等。而load使用pickle unpickle工具将pickle的对象文件反序列化为内存。

下面的例子创建了Tensor变量x，并将其存在文件名同为x.pt的文件里。

阅读全文 »

4.4 自定义层

发表于 2025-02-17 更新于 2025-04-16 分类于深度学习，笔记

不含模型参数的自定义层

先介绍如何定义一个不含模型参数的自定义层。事实上，这和4.1节（模型构造）中介绍的使用Module类构造模型类似。下面的CenteredLayer类通过继承Module类自定义了一个将输入减掉均值后输出的层，并将层的计算定义在了forward函数里。这个层里不含模型参数。

阅读全文 »

安装

从这里下载RDPWrap https://github.com/stascorp/rdpwrap/releases/的zip包

解压后，运行install.bat。

随后打开https://github.com/sebaxakerhtc/rdpwrap.ini/blob/master/rdpwrap.ini，复制文本内容，替换到C:\Program Files\RDP Wrapper\rdpwrap.ini里，然后重启服务。

阅读全文 »

4.1 模型构造

发表于 2025-02-16 更新于 2025-04-16 分类于深度学习，笔记

继承`Module`类来构造模型

Module类是nn模块里提供的一个模型构造类，是所有神经网络模块的基类，可以继承它来定义想要的模型。下面继承Module类构造一个多层感知机。这里定义的MLP类重载了Module类的__init__函数和forward函数。它们分别用于创建模型参数和定义前向计算。

阅读全文 »

3.16 实战Kaggle比赛：房价预测

发表于 2025-02-14 更新于 2025-04-16 分类于深度学习，笔记

获取和读取数据集

比赛数据分为训练数据集和测试数据集。两个数据集的特征值有连续的数字、离散的标签甚至是缺失值“na”。只有训练数据集包括了每栋房子的价格，也就是标签。

通过pandas库读入并处理数据。

阅读全文 »

3.15 数值稳定性和模型初始化

发表于 2025-02-14 更新于 2025-04-16 分类于深度学习，笔记

衰减和爆炸

当神经网络的层数较多时，模型的数值稳定性容易变差。不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping）$\phi(x) = x$。给定输入$\boldsymbol{X}$，多层感知机的第$l$层的输出$\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}$。此时，如果层数$l$较大，$\boldsymbol{H}^{(l)}$的计算可能会出现衰减或爆炸。假设输入和所有层的权重参数都是标量，如权重参数为0.2和5，多层感知机的第30层输出为输入$\boldsymbol{X}$分别与$0.2^{30} \approx 1 \times 10^{-21}$（衰减）和$5^{30} \approx 9 \times 10^{20}$（爆炸）的乘积。类似地，当层数较多时，梯度的计算也更容易出现衰减或爆炸。

阅读全文 »

3.14 正向传播、反向传播和计算图

发表于 2025-02-11 更新于 2025-04-16 分类于深度学习，笔记

正向传播

正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。为简单起见，假设输入是一个特征为$\boldsymbol{x} \in \mathbb{R}^d$的样本，且不考虑偏差项，那么中间变量

\[ \boldsymbol{z} = \boldsymbol{W}^{(1)} \boldsymbol{x}, \]

阅读全文 »

3.13 丢弃法

发表于 2025-02-10 更新于 2025-04-16 分类于深度学习，笔记

方法

除了权重衰减以外，深度学习模型常常使用丢弃法（dropout）来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特指倒置丢弃法（inverted dropout）。

一个单隐藏层的多层感知机，其中输入个数为4，隐藏单元个数为5，且隐藏单元$h_i$（$i=1, \ldots, 5$）的计算表达式为

\[ h_i = \phi\left(x_1 w_{1i} + x_2 w_{2i} + x_3 w_{3i} + x_4 w_{4i} + b_i\right) \]

阅读全文 »

3.12 权重衰减

发表于 2025-02-06 更新于 2025-04-16 分类于深度学习，笔记

范数

L1范数

L1范数是向量中所有元素绝对值的和。对于一个向量 $ w = [w_1, w_2, …, w_n] $，其L1范数定义为：

\[ \|w\|_1 = |w_1| + |w_2| + ... + |w_n| \]

L1范数常用于稀疏性约束，因为它会促使某些权重变为零，从而实现特征选择。

阅读全文 »

幻言笔记

4.5 读取和存储

读写`Tensor`

4.4 自定义层

不含模型参数的自定义层

4.2 模型参数的访问、初始化和共享

Windows配置RDP

安装

4.1 模型构造

继承`Module`类来构造模型

3.16 实战Kaggle比赛：房价预测

获取和读取数据集

3.15 数值稳定性和模型初始化

衰减和爆炸

3.14 正向传播、反向传播和计算图

正向传播

3.13 丢弃法

方法

3.12 权重衰减

范数

L1范数

读写Tensor

不含模型参数的自定义层

安装

继承Module类来构造模型

获取和读取数据集

衰减和爆炸

正向传播

方法

范数

L1范数

读写`Tensor`

继承`Module`类来构造模型