交叉熵

信息量 用于描述事件包含的信息。一件事发生的概率越小,则其信息量越大。如 事件A:“Hunt当选了国家杰出青年称号” 事件B:“Hunt当选了学生会主席” 两个事件都有可能发生,但他们所蕴含的信息是有差别的,比如,若要发生事件A,则Hunt至少满足四个条件:Hunt年龄小于四十五岁、Hunt具有博士学位、Hunt有较好的科研成果、Hunt曾在高校或科研所工作 …

loss总是收敛到0.69左右

这种情况一般是在使用了交叉熵的二分类问题上容易出现,同样的,也可能出现loss收敛到1.0986、1.386等等,其实他们就是log(1/2)、log(1/3)、log(1/4)。。。 问题概述 根本原因:交叉熵 若 q=0.5 对于 01 分布来说,H=log(0.5)=0.69,同理对于 n 分类问题来说,loss 可能会收敛到 log(1/n),这都是 …