本文共 476 字,大约阅读时间需要 1 分钟。
FM因子分解机和矩阵分解
FM分解机是在线性回归的基础上加上了交叉特征,通过学习交叉特征的权重从而得到每个交叉特征的重要性。这个模型也经常用于点击率预估。
其中,n代表样本的特征数量,x_i是第i个特征的值,w_0,w_i,w_ij是模型参数
训练w_ij需要大量非零的x_i和x_j,而样本稀疏的话很难满足,太稀疏可以引进矩阵分解的技术,这也是为什么叫做分解机的原因
对权重进行分解:
二次项化简后后 :参考
此时_if的训练只需要样本的x_i特征非0即可,适合于稀疏数据。
考虑了稀疏问题,每一维特征都对其他不同类型特征每一种field、学习隐向量
参考:
解决数据稀疏问题,提出FFM,onthot编码同样的field不分开 (男女放在同一列不分成两列)
为了使用FFM方法,所有的特征必须转换成“field_id:feat_id:value”格式,field_id代表特征所属field的编号,feat_id是特征编号,value是特征的值
FM通过合适的推导,训练/预测复杂度是线性的。而FFM的复杂度是二次方的。
转载地址:http://mlhdi.baihongyu.com/