- sigmoid缺点:1.gradient vanishing 2.not zero-centered(会导致梯度zigzag)3.exp复杂度高
RELU简单效果好激活函数1、激活函数2、RELU的起源 - batch_size:
- 交叉熵(评估label和predicts的差距)、信息量、KL散度(衡量预测的概率分布与真实分布的接近程度)
DKL是KL散度,后半部分是交叉熵(p是真实分布,q是预测分布) - 权重衰减(weight decay):就是在lossfunction J再加个W^2的L2正则项
- 学习率衰减
- 反向传播具体实例,注意前馈网络中,梯度下降是在BP过程中用到、常规的有显式导函数的正向GD与神经网络中隐层的反向GD不一样
- 鞍点
- Batch Norm