为啥最大熵模型的极大似然估计中带有指数

最大熵模型中的对数似然函数的解释

■网友
下面阐述不讲究严谨的数学,只关注idea的解释。
首先理解下二分类的逻辑回归的交叉熵似然 或 loss (两者差一个负号), 这里的 为啥最大熵模型的极大似然估计中带有指数
即为 为啥最大熵模型的极大似然估计中带有指数
样本的输出,而 为啥最大熵模型的极大似然估计中带有指数
为模型的输出。为啥最大熵模型的极大似然估计中带有指数

写成多类别的交叉熵即为 为啥最大熵模型的极大似然估计中带有指数

注: 为啥最大熵模型的极大似然估计中带有指数
为one-hot向量,表示类别。交叉熵的本质可以用来度量两个分布的差异性。
最大熵模型的似然是使用了(模型学的)真实分布 为啥最大熵模型的极大似然估计中带有指数
与(来自数据的)经验分布 为啥最大熵模型的极大似然估计中带有指数
的交叉熵来定义。
注:知识迁移,逻辑回归的交叉熵似然---》最大熵模型的交叉熵似然。
---------------------------------------------
对于样本(X,Y),它的似然使用交叉熵定义:
为啥最大熵模型的极大似然估计中带有指数

注:模型使用 为啥最大熵模型的极大似然估计中带有指数
,因此有为啥最大熵模型的极大似然估计中带有指数

----------------------------------------------------------
取log似然有(上面式子再重新推一遍)
为啥最大熵模型的极大似然估计中带有指数

注:凡是带 为啥最大熵模型的极大似然估计中带有指数
都表示已知的,来自数据的。所以,第二项是常量,在对最大似然优化无贡献,直接舍去。
为啥最大熵模型的极大似然估计中带有指数

即为最大熵模型的似然函数。
【为啥最大熵模型的极大似然估计中带有指数】


推荐阅读