正梯度仍然使得policy的probability增大

现象 使用policy gradient算法写了一个小模型,训练过程中发现模型很快会收敛到一个非常糟糕的结果,理论上不应该呀,因为按照policy gradient算法原理来说,对于某个action,如果你给了负的reward,那么模型会减小该action出现的概率,但我的实验表明,模型不仅没减小该action的概率,甚至还会增加它的概率,最终它的概率甚至会 …

Adam优化器

优化器的进化 训练一个policy gradient模型时,发现如果使用SGD,模型练不起来,很容易就出问题,而使用Adam则会好很多,这里回顾一下Adam的原理: 梯度下降法的梯度迭代公式为: $$ θ_t ← θ_{t-1} - μg_t $$其中 \( g_t \) 为t时刻函数对θ的偏导,μ为学习率。 如此一来,在模型训练时就需要指定μ这个超参数,且 …

Policy gradient中为什么必须给概率取log?

注意:这篇文章没有解释原因,只是探索了一个相似方法 一般认为是可以用来简化计算的,log可以将原本的累乘转换为累加,例如 a*b*c 总体加上一个log就可以转换为 loga+logb+logc,当然,能总体加log是因为log保留的原来函数的单调方向,转成加法还有个好处就是一定程度上可以防止梯度消失或爆炸,因为连乘很容易为0或无穷 使用最朴素的policy …

Policy gradient 与 e-greedy

在训练qlearning网络时,通常会设置一定的概率去做一些探索,以求能做出更好的决策。而在Policy gradient中,也是需要探索的,但是它会有一些问题 我写了一个MLP来作为policy,在训练过程中,每次做决策都使用 argmax 来寻找当前模型认为最好的action,模型不会收敛,想想它当然是不会收敛的,因为policy gradient训练模 …

深度强化学习简介

这是一篇深度强化学习视频的笔记 https://www.bilibili.com/video/BV1XP4y1d7Bk 什么是强化学习 强化学习方法分为三类:Policy-based(训练一个actor,例如 policy gradient)、Value-based(训练一个critic,例如 Q-learning)、Actor-Critic 所谓的 …

pytorch中的unfold

torch.nn.functional.unfold 如果将卷积看作 滑动窗口+求和 的话,那么这个方法就是只有 滑动窗口 这一步了。 如图,a.unfold(0, 2, 1),表示在a的第0维以卷积核长度为2步长为1的方式开始取值。a的维度为(5,5),其第0维相当于行,所以图中是竖着取值的,最终得到维度为(4,5,2)的结果,因为a的0维只有5个数,而你 …

为什么贝叶斯公式重要

公式 $$ P(A_i|B) = \frac {P(A_i)*P(B|A_i)}{\sum_j {P(A_j)*P(B|A_j)}} $$举例 贝叶斯公式直观来说就是一个从已知推测未知的过程,这在日常生活中非常常见,例如警察破案就是一种典型的从结果(已知)推原因(未知)的过程。 某地警察发现一人死亡,调查发现此人很有可能死于某种毒品或某种药物,警察需要知道哪 …

记一次模型训练速度优化的过程

优化之前每轮训练大概需要 3'10’’,优化之后大概只需要 35‘’ 优化前 优化后 问题提出 我有一个图像异常检测的模型,训练过程很慢,且在训练过程中GPU的使用率剧烈波动,一会100%一会又降到0。我使用的是GTX3090 24G显卡,在MVTec数据集上训练,该数据集有15个类别,单卡全部训练完大约需要4天。 寻找原因 python或pytorch本身 …

《Learning Statistical Texture for Semantic Segmentation》

- 现存的语义分割模型重在高层抽象语义分析,例如CNNs就能很好完成这一点。但高层抽象语义往往会忽略一些底层的特征,例如边缘信息、纹理信息等 - 本文利用低层特征信息的优点提出了 Texture Learning Network(STLNet)用于语义分割 - 本文设计了一个 Quantization and Counting Operator(QCO)用于 …

IoU 和 mIoU

在语义分割领域常用这两个指标评估模型性能。例如下图中:P(整个黑框)表示 ground-truth 像素区域,Q(整个绿框)表示模型预测的像素区域 IoU全称为:Intersection over Union 交并比(IoU) $$ IoU = \frac {P ∩ Q} {P ∪ Q} $$当 IoU==1 时,表示 P 和 Q 完全重叠,即预测完全正确, …