幻言笔记

6.6 通过时间反向传播

发表于 2025-03-07 更新于 2025-04-16 分类于深度学习，笔记

定义模型

简单起见，考虑一个无偏差项的循环神经网络，且激活函数为恒等映射（\(\phi(x)=x\)）。设时间步 \(t\) 的输入为单样本 \(\boldsymbol{x}_t \in \mathbb{R}^d\)，标签为 \(y_t\)，那么隐藏状态 \(\boldsymbol{h}_t \in \mathbb{R}^h\)的计算表达式为

\[ \boldsymbol{h}_t = \boldsymbol{W}_{hx} \boldsymbol{x}_t + \boldsymbol{W}_{hh} \boldsymbol{h}_{t-1}, \]

阅读全文 »

6.5 循环神经网络的简洁实现

发表于 2025-03-07 更新于 2025-04-16 分类于深度学习，笔记

导入库并加载数据集

import time
import math
import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F
import zipfile

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

(corpus_indices, char_to_idx, idx_to_char, vocab_size) = load_data_jay_lyrics()

阅读全文 »

安装Scrutiny并在MCSM中运行

发表于 2025-03-03 更新于 2025-04-16 分类于笔记

项目地址：https://github.com/AnalogJ/scrutiny

安装Scrutiny

先建议两个文件夹，/opt/scrutiny/scrutiny和/opt/scrutiny/influxdb

在MCSM中新建一个Docker实例，在实例配置的“容器化”标签页中填入以下信息：

阅读全文 »

6.4 循环神经网络的从零开始实现

发表于 2025-02-24 更新于 2025-04-16 分类于深度学习，笔记

读取周杰伦专辑歌词数据集：

阅读全文 »

6.3 语言模型数据集

发表于 2025-02-18 更新于 2025-04-16 分类于深度学习，笔记

读取数据集

首先读取这个数据集

import torch
import random
import zipfile

with zipfile.ZipFile('/data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')

阅读全文 »

6.2 循环神经网络

发表于 2025-02-18 更新于 2025-04-16 分类于深度学习，笔记

不含隐藏状态的神经网络

考虑一个含单隐藏层的多层感知机。给定样本数为\(n\)、输入个数（特征数或特征向量维度）为\(d\)的小批量数据样本\(\boldsymbol{X} \in \mathbb{R}^{n \times d}\)。设隐藏层的激活函数为\(\phi\)，那么隐藏层的输出\(\boldsymbol{H} \in \mathbb{R}^{n \times h}\)计算为

阅读全文 »

6.1 语言模型

发表于 2025-02-17 更新于 2025-04-16 分类于深度学习，笔记

把一段自然语言文本看作一段离散的时间序列。假设一段长度为\(T\)的文本中的词依次为\(w_1, w_2, \ldots, w_T\)，那么在离散的时间序列中，\(w_t\)（\(1 \leq t \leq T\)）可看作在时间步（time step）\(t\)的输出或标签。给定一个长度为\(T\)的词的序列\(w_1, w_2, \ldots, w_T\)，语言模型将计算该序列的概率：

\[ P(w_1, w_2, \ldots, w_T). \]

阅读全文 »