机器学习 | Fari

正梯度仍然使得policy的probability增大

现象使用policy gradient算法写了一个小模型，训练过程中发现模型很快会收敛到一个非常糟糕的结果，理论上不应该呀，因为按照policy gradient算法原理来说，对于某个action，如果你给了负的reward，那么模型会减小该action出现的概率，但我的实验表明，模型不仅没减小该action的概率，甚至还会增加它的概率，最终它的概率甚至会 …

Adam优化器

优化器的进化训练一个policy gradient模型时，发现如果使用SGD，模型练不起来，很容易就出问题，而使用Adam则会好很多，这里回顾一下Adam的原理：梯度下降法的梯度迭代公式为： $$ θ_t ← θ_{t-1} - μg_t $$其中 $ g_t $ 为t时刻函数对θ的偏导，μ为学习率。如此一来，在模型训练时就需要指定μ这个超参数，且 …

Policy gradient中为什么必须给概率取log？

注意：这篇文章没有解释原因，只是探索了一个相似方法一般认为是可以用来简化计算的，log可以将原本的累乘转换为累加，例如 a*b*c 总体加上一个log就可以转换为 loga+logb+logc，当然，能总体加log是因为log保留的原来函数的单调方向，转成加法还有个好处就是一定程度上可以防止梯度消失或爆炸，因为连乘很容易为0或无穷使用最朴素的policy …

Policy gradient 与 e-greedy

在训练qlearning网络时，通常会设置一定的概率去做一些探索，以求能做出更好的决策。而在Policy gradient中，也是需要探索的，但是它会有一些问题我写了一个MLP来作为policy，在训练过程中，每次做决策都使用 argmax 来寻找当前模型认为最好的action，模型不会收敛，想想它当然是不会收敛的，因为policy gradient训练模 …

深度强化学习简介

这是一篇深度强化学习视频的笔记 https://www.bilibili.com/video/BV1XP4y1d7Bk 什么是强化学习强化学习方法分为三类：Policy-based（训练一个actor，例如 policy gradient）、Value-based（训练一个critic，例如 Q-learning）、Actor-Critic 所谓的 …

pytorch中的unfold

torch.nn.functional.unfold 如果将卷积看作滑动窗口+求和的话，那么这个方法就是只有滑动窗口这一步了。如图，a.unfold(0, 2, 1)，表示在a的第0维以卷积核长度为2步长为1的方式开始取值。a的维度为（5，5），其第0维相当于行，所以图中是竖着取值的，最终得到维度为（4，5，2）的结果，因为a的0维只有5个数，而你 …

为什么贝叶斯公式重要

公式 $$ P(A_i|B) = \frac {P(A_i)*P(B|A_i)}{\sum_j {P(A_j)*P(B|A_j)}} $$举例贝叶斯公式直观来说就是一个从已知推测未知的过程，这在日常生活中非常常见，例如警察破案就是一种典型的从结果（已知）推原因（未知）的过程。某地警察发现一人死亡，调查发现此人很有可能死于某种毒品或某种药物，警察需要知道哪 …

记一次模型训练速度优化的过程

优化之前每轮训练大概需要 3'10’’，优化之后大概只需要 35‘’ 优化前优化后问题提出我有一个图像异常检测的模型，训练过程很慢，且在训练过程中GPU的使用率剧烈波动，一会100%一会又降到0。我使用的是GTX3090 24G显卡，在MVTec数据集上训练，该数据集有15个类别，单卡全部训练完大约需要4天。寻找原因 python或pytorch本身 …

《Learning Statistical Texture for Semantic Segmentation》

- 现存的语义分割模型重在高层抽象语义分析，例如CNNs就能很好完成这一点。但高层抽象语义往往会忽略一些底层的特征，例如边缘信息、纹理信息等 - 本文利用低层特征信息的优点提出了 Texture Learning Network（STLNet）用于语义分割 - 本文设计了一个 Quantization and Counting Operator（QCO）用于 …

IoU 和 mIoU

在语义分割领域常用这两个指标评估模型性能。例如下图中：P（整个黑框）表示 ground-truth 像素区域，Q（整个绿框）表示模型预测的像素区域 IoU全称为：Intersection over Union 交并比（IoU） $$ IoU = \frac {P ∩ Q} {P ∪ Q} $$当 IoU==1 时，表示 P 和 Q 完全重叠，即预测完全正确， …