为啥最大熵模型的极大似然估计中带有指数
最大熵模型中的对数似然函数的解释
■网友
下面阐述不讲究严谨的数学,只关注idea的解释。
首先理解下二分类的逻辑回归的交叉熵似然 或 loss (两者差一个负号), 这里的
即为
样本的输出,而
为模型的输出。
写成多类别的交叉熵即为
注:
为one-hot向量,表示类别。交叉熵的本质可以用来度量两个分布的差异性。
最大熵模型的似然是使用了(模型学的)真实分布
与(来自数据的)经验分布
的交叉熵来定义。
注:知识迁移,逻辑回归的交叉熵似然---》最大熵模型的交叉熵似然。
---------------------------------------------
对于样本(X,Y),它的似然使用交叉熵定义:
注:模型使用
,因此有
----------------------------------------------------------
取log似然有(上面式子再重新推一遍)
注:凡是带
都表示已知的,来自数据的。所以,第二项是常量,在对最大似然优化无贡献,直接舍去。
即为最大熵模型的似然函数。
【为啥最大熵模型的极大似然估计中带有指数】
推荐阅读
- 西南地区最大再生水厂完成提标改造每日可生产100万吨再生水
- 以“茶”传情湖北省850箱茶叶经中蒙最大陆路口岸出境
- 山东细化残疾人托养国家标准助力残疾人最大化融入社会
- 续航|单次最大续航里程420km ID.3创连续行驶世界纪录
- 为啥看到书柜上的藏书会有心旷神怡的感觉
- 为啥知乎上普便有一种【我在北上广深打工,所以拥有更好的视野】这样的错觉
- 为啥工商银行的用户体验如此之差
- 汽车|看了中消协4S店服务测评调查结果,终于知道法系车为啥卖不好了
- 你为啥从窝窝商城离职?
- 为啥5G和2.4G默认的BSSID是相同的