出场率No.1的逻辑回归算法,是怎样“炼成”的?( 二 )


更进一步,我们将上面的函数转变为求概率,即客户购买理财产品的概率如下:其中, 是随机变量的累积分布函数 ,表示客户购买的比例 。
这个模型在学术上被称作是 probit回归 (虽然是名字中有“回归”两个字,但是实际上解决的还是分类问题) 。
在模型搭建的过程中,我们假设了客户内心博弈的正负效用变量:,因此这类隐藏变量模型(latent variable model);而正负效用变量:被称为隐藏变量(latent variable) 。
由此可见,对于一个分类问题,由于“窗口效用”,我们只能看见客户的购买行为,但是在分类的背后,是隐藏变量之间的博弈,我们通过搭建隐藏变量的模型,来求出客户购买的概率。
2.3 sigmoid函数与逻辑回归在上一节我们得到了probit回归在数学上是比较完美的,但是正态分布的累积分布函数,其表达形式很复杂(复杂到懒得把公式写出来),且没有解析表达式 。因此直接在probit回归上做参数估计是比较困难的 。但是好在我们可以对其做近似,让其在数学上更加简洁 。
此时,神奇的数学家们发现:正态分布在线性变换下保持稳定,而逻辑分布可以很好地近似正态分布 。因此可以使用标准逻辑分布的累积分布函数来替换正态分布的累积分布函数 。标准逻辑分布的概率密度函数为,对应的积累分布函数为:
在学术界被称为sigmoid函数,是在数据科学领域,特别是神经网络和深度学习领域中非常重要的函数! 。其图像如下图所示,呈S状,因此也被称为“S函数” 。当t趋近于正无穷时,趋近于0,则趋近于1;当t趋近于负无穷时,趋近于正无穷,则趋近于0 。因此该函数的值域为(0,1) 。

出场率No.1的逻辑回归算法,是怎样“炼成”的?

文章插图
 
两种不同的效用函数(假定他们都满足线性回归模型的假设)相互竞争时,其中某一方最终胜出的概率分布在数学上可近似为sigmoid函数 。通俗讲:sigmoid函数表述了某一方竞争胜出的概率 。
将效用函数之差(同样是线性回归模型)带入sigmoid函数中,当t>0时,得到的结果是概率值p>0.5;当t<0时,得到的结果是p<0.5 。因此,实际上我们得到是这样的公式:
至此,大名鼎鼎的逻辑回归模型(logit regression)如下,其中表示客户特征,表示模型参数:0xFF 总结在本篇文章中,我们学习了逻辑回归的算法模型 。
首先,逻辑回归是解决分类问题的,本质是求概率再分类 。在分类结果的背后是隐藏变量的博弈,我们认为隐藏变量与特征是线性相关的,因此就可以对隐藏变量之差求概率(得到随机变量的累积分布函数),得到probit回归模型 。为了使数学公式更为简单,使用sigmoid函数去近似,最终得到逻辑回归模型:
根据建模过程,我们已经得到了逻辑回归模型,下一步就是找到损失函数,去尽可能地拟合数据 。
那么对于给定的样本数据集X,y,我们如何找到一组参数,使得用这样的方式,可以最大程度获得样本数据集X对应的分类输出y?




推荐阅读