逻辑回归中为啥要用对数损失而不是平方损失

【逻辑回归中为啥要用对数损失而不是平方损失】 也可以用平方损失,但是会在h(wx)接近0和1的地方梯度很小,不容易学习,你可以试着用平方损失进行梯度下降,就会发现了,tips:会用到dh/dw=h*(1-h)。

■网友
因为对目标假设服从伯努利分布,而不是高斯分布。

■网友
因为逻辑回归模型不是个回归模型

■网友
因为这样会使得cost function是convex的,便于计算
■网友
可以是可以,但是这样如果你随机给定的初始值离最小值远,用平方损失的话,梯度下降的rate就很小,这样更新速度慢;而交叉熵不一样,它在较远处的rate就很大,近处的rate小,更新就快。就相当于从山顶下山,肯定陡的下的快,而你要是平原就慢


    推荐阅读