Pytorch dataloader加载数据很慢

现象 写了个模型,训练速度很慢,发现大部分时间都花在了加载数据的过程中,训练时间反而不多 主机内存占用(已提交相当于总申请内存,其中包含交换分区的大小,其后面的数字为总可申请大小,其会根据申请情况动态扩容): 解决 num_workers DataLoader中设置参数 num_workers=3 效果: 主机内存占用: 测试过程中貌似有一次内存申请越来越多 …

百度为什么不收录我的网站

我这个站已经建了好几个月了,文章也不少,且都是原创,为什么他就是不收录呢? 注:就在刚刚,我发现他好像有收录,之前一直都没有 收录了,但又没有收录 总之,相比之下,谷歌几乎在我建站没两天后就可以看到我的全部文章了。 而且我还经常给百度提交url,并且创建了百度站长的账号。 我不知道是不是跟我以前屏蔽过一些IP有关。建站初期,有一些IP一天来很多次,频率很高, …

一种加快机器学习收敛速度的想法

机器学习的本质就是希望找到一个能基本拟合样本的函数 而这个函数的评判标准就是其loss要达到最小,那么问题就转换为了求 \( f_{loss}(w, b) \) 函数的最小值 如果数据量小的话,可以使用最小二乘法直接计算出最小值,但对于大样本数据就不是很好用了 传统的做法是使用梯度下降一点一点试,尝试寻找到函数的极值点,但这样很容易陷入局部极小值 我的想法是 …

《梦在竹溪》溯源

偶然间看到“梦在竹溪”这首歌的演唱者 张燕 是安徽省淮南市人,我原来一直以为是我们竹溪某地出来的一个歌手,并且一直以为是一个小歌手。我一度怀疑此张燕非彼张燕,但确实是同一个人。 关于这首歌能在网上找到的信息极少。但基于能找到的信息,我猜测,这首歌应该是2005年,北京太阳圣火广告公司给竹溪县政府做的官方宣传MV背景音乐,mv由战菁一主演,歌曲由云剑负责作词、 …

Pytorch使用tensorboard

基本使用 首先需要安装tensorboard # -U 表示如果存在则升级 pip3 install -U tensorboard 接着就可以直接在代码中使用 from torch.utils.tensorboard import SummaryWriter ... # 默认会在项目路径下创建 runs 文件夹 dashboard = …

QQ音乐修改了我上传的音源

刚听歌单里的歌,听到《可能否》——木小雅 这首歌的时候,前奏感觉没听过。遂看了看歌词,又把进度条向后拉了拉,发现歌还是那个歌,但是不同版本 后面那朵小云代表这是我上传到微云音乐云盘上的歌,于是我又去音乐云盘的界面,找到这首歌,发现确实已经不是我喜欢的那首了。 ps:这是我非常喜欢的一首歌,我经常听,而且听了好几年了,所以不会错怪QQ音乐。 我是QQ音乐年费会 …

nlp学习

本文基于github教程:https://github.com/bentrevett/pytorch-seq2seq 环境搭建 本实验使用的环境为:pytorch=1.8.2 torchtext=0.9.2 Spacy=3.4.0 # 创建conda环境 conda create --name nlp python=3.8 conda activate …

记录pytorch遇到的一些问题

Embedding层的 num_embeddings 设置过小 遇到了两个报错都是这个原因导致的: 报错一: RuntimeError: CUDA error: device-side assert triggered 报错二: RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR …

记一次模型训练时显存溢出的问题

出现的问题 写了一个Seq2Seq的中英翻译模型,使用Encoder-Decoder模式。训练时发现总是训练一段时间后就会报显存溢出的错误,训练终止。 根据报错信息可知,pytorch欲分配12.88G的显存,但我的显存只有4G,显然是不够的 寻找原因 从异常栈来看,报错问题出在我创建一个大小为 len(y) * batch_size * 30000 的 …