使用numpy实现梯度计算
pytorch官方示例程序,使用numpy实现梯度计算 https://pytorch.org/tutorials/beginner/pytorch_with_examples.html
Blog
技术、阅读与日常记录。
pytorch官方示例程序,使用numpy实现梯度计算 https://pytorch.org/tutorials/beginner/pytorch_with_examples.html
信息量 用于描述事件包含的信息。一件事发生的概率越小,则其信息量越大。如 事件A:“Hunt当选了国家杰出青年称号” 事件B:“Hunt当选了学生会主席” 两个事件都有可能发生,但他们所蕴含的信息是有差别的,比如,若要发生事件A,则Hunt至少满足四个条件:Hunt年龄小于四十五岁、Hunt具有博士学位、Hunt有较好的科研成果、Hunt曾在高校或科研所工作 …
网站架构 wordpress是一个用于快速搭建博客平台的php软件,运行在apache下 wekan是一个开源看板,类似trello,可用于项目管理和计划安排 搭建步骤 环境准备 1. 安装docker 2. 拉取wordpress、mysql、wekan、mongo的docker镜像 docker pull wordpress docker pull …
现象 勾选 GeoIP收集 和 GeoIP城市 点击保存无效 问题原因 这两个选项需从github上下载ip地址和物理地址映射的数据文件,但国内访问github存在问题 解决方案 直接下载该映射数据文件放到指定目录 具体方法 下载国家和城市与ip的映射数据文件(GeoLite2数据库,下文有介绍) …
这种情况一般是在使用了交叉熵的二分类问题上容易出现,同样的,也可能出现loss收敛到1.0986、1.386等等,其实他们就是log(1/2)、log(1/3)、log(1/4)。。。 问题概述 根本原因:交叉熵 若 q=0.5 对于 01 分布来说,H=log(0.5)=0.69,同理对于 n 分类问题来说,loss 可能会收敛到 log(1/n),这都是 …
一维函数 f(x) 的傅里叶变换: 任何周期函数都可以通过多个正弦波的叠加表示 图像(二维函数)的傅里叶变换有两种理解方式: 任何图像 f(x,y) 也都可以由无数个正弦波平面叠加而成,他们具有不同的 频率、相位、振幅、方向 四个属性 对图像的每一行每一列做一维傅里叶变换 图像的傅里叶图谱: 可以根据傅里叶图谱还原图像 傅里叶图谱只能表示频率、方向、振幅三个 …
关键字 stun协议\P2P\UDP打洞\NAT 常用方法 中继 使用中继服务器连接两台内网设备,受限于中继节点性能。 逆向连接 当客户端A、B之一有公网地址时可以使用该方法。 UDP打洞 最常见的方法 利用锥形NAT(下文将介绍NAT分类)会将 内网ip+端口 绑定一个 外网ip+端口 的特性实现。理论上来说,利用该特性就可以实现任意主机间的通信,但往往 …
防止过拟合 深度学习模型实际上是在拟合一个函数 f(x1, x2, x3…),可以想象,特征x的系数越小,函数整体就越平滑,即模型对特征x越不敏感,这就是防止过拟合的基本原理。 已知损失函数f(x),求在使得w越小的条件下,f(x)的极小值,这就是约束条件下的极值问题,可以使用拉格朗日乘子法。 要使w小,即让其接近0,则可以设g(w)=|w|→0(L1正则) …
一个模型的输入可能很大,每个数都可以看作是一个特征,那么神经网络在训练时怎么知道哪些特征重要哪些不重要呢? 这就好比是我为了考试而复习,我怎么知道哪些知识点重要哪些不重要呢? 事实上也很简单,考试前我确实不知道哪些重要(forward),但考试后我一定是知道的(backward)。第一次考试前我啥都不知道,所以第一次考试时我就记录下考察的知识点,下来就专门针 …
之前一直把容器理解成虚拟机,容器内的用户是独立的,与宿主机无关的,容器内的进程也是完全和宿主机隔离的。今天才知道这基本上是错误的,这是被vmware这类虚拟机形成思维定势了。 使用vmware创建一个虚拟机就好像在现实世界中,使用计算机完全模拟出来一个虚拟世界,这个虚拟世界的环境和真实世界一模一样,只不过它是用计算机模拟的。这个虚拟世界中出现任何问题都不会对 …