为什么不使用softmax损失函数中的均方误差？

导读大家好,今天小六子来为大家解答以下的问题，关于为什么不使用softmax损失函数中的均方误差？这个很多人还不知道，现在让我们一起来看看吧！

大家好,今天小六子来为大家解答以下的问题，关于为什么不使用softmax损失函数中的均方误差？这个很多人还不知道，现在让我们一起来看看吧！

1、先理解max. 对一个三类问题，某样本经过NN处理后，最后一层输出值为[24,3,0.1]的话，那么经过max之后的结果为[1,0,0]。

2、对不？（至于为啥要max，输出结果本来挺奇怪经过max以后就是categorical 的了，那么样本的类标就可以和他的预测值一起合体直观地计算cost function。

3、）我们最需要的其实是max，但是max有个缺点就是不可导，没法用在dp里，于是有人就想出了softmax。

4、思路就是指数级扩大最后一层的输出，每个值都会增大，然而最大的那个值相比其他值扩大的更多，然后归一化一下，考虑一下极限，如果最大值x_1经过指数运算后想对其他值为无穷大，那么exp(x_1)/exp(x_1)+others =1,其他输出值对应的为0。

5、所以softmax模拟了max的行为，同时他还可导。

本文分享完毕，希望对你有所帮助。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：