隐性的反馈在spark MLlib 中怎样处理这种数据的方法
隐式反馈在spark https://spark.apache.org/docs/2.2.0/mllib-collaborative-filtering.html) 中有介绍,主要基于论文Collaborative Filtering for Implicit Feedback Datasets实现,核心思想:
跟显式反馈不同的是,由于没有显式的rating,因此引入preference以及confidence level, preference表示user对item是否感兴趣;confidence level表示preference的置信度(比如user对item的操作时长或者次数越高,user对item感兴趣的可信度就越高,而对于负样本,即user没有对item操作过,不感兴趣的置信度相对较低,因为user没有操作过item的原因很多,不一定是由于user对item不感兴趣,可能是没有看到等);
数学表达:
即preference,
为user对item的操作次数或者时长等;
【隐性的反馈在spark MLlib 中怎样处理这种数据的方法】
为confidence,可以有多种量化方法的选择,这里列出的是论文中使用的一种,
跟
呈正相关;
loss function定义为:
confidence在其中体现为,
越大,该条样本在整体loss function中的影响就越大。
训练数据的格式为:
user_i item_j rij
….
….
具体可以参考官网https://spark.apache.org/docs/2.2.0/mllib-collaborative-filtering.html以及论文Collaborative Filtering for Implicit Feedback Datasets ,里面有更为详细的说明。
推荐阅读
- 互联网怎样解决“家政服务上门速度慢”的问题
- 交换机,路由器经常性的死机咋办
- |很多人用燕麦当早餐,燕麦是热性的还是凉性的?
- 董洁|40岁的董洁到底怎么啦?少女造型被吐槽,女性的温柔感也不见了
- 西安在西咸新区建成后3-5年里IT信息产业会有革命性的突破么
- 汽车观察家|大众最有个性的SUV,T-ROC探歌如何俘获年轻人芳心?
- 青年|实拍任性的电三轮四处闯红灯
- 《黑暗之魂3》捏脸是怎样做到取消各个特征的相关性的
- “理性”是决策和选择中的最优解吗解析非理性的理性集合能否覆盖全部非理性怎样看待AI进化之路
- 汽车配置|颠覆性的全新德系M跑车,碳纤维车顶全系6缸引擎,现在提车要加价