【技术实现步骤摘要】
基于改进Field级特征交互算法的社区应答预测方法
[0001]本专利技术涉及智能推荐算法
,特别涉及预计CTR预测的在线社区潜在用户应答预测方法。
技术介绍
[0002]知识问答社区是人们在网络上寻求问题解答的主要方式之一,用户以在社区中提问和回答问题的方式完成知识交流。相较于基于短文本分析的搜索引擎,在线社区中的问答往往是长文本,其中通常包含了问题背景信息和问题本身等内容,而短文本分析难以捕捉到长文本中的语义信息。在如今的知识问答社区中,随着用户量的不断增长,单位时间内提出新问题的数量也在不断增长。一方面,新问题的潜在应答者需要花费大量的时间和精力来寻找与自己专业知识相关问题。另一方面,新问题的提出者需要花费数个小时甚至几天的时间来等待问题得到其他用户的解答。
[0003]寻找一个行之有效的应答推荐机制是解决这个问题的主要途径。目前的解决方案主要分为三种:第一种是根据社区中的用户建立问答关系有向图,采用基于图排序算法的专家推荐。例如,文章
[0004]《Automatic Keyphrase Extraction via Topic Decomposition》中提出的Topical PageRank(TPR)算法,TPR算法在不同的主体图上进行随机游走,由此获取每个单词的重要性,然后给定问题主题分布,计算每个用户语义单词的排名分数,取排名靠前的用户为预测结果。第二种是利用社区中丰富的文本特征数据,利用主题优化对文本进行语义分析。其中,文章《Ranks of Restaurant Revie
【技术保护点】
【技术特征摘要】
1.基于Field
‑
Aware级特征交互算法的知识社区应答预测方法,其特征在于,包括以下步骤:(1)设置单条数据包含的参数,包括连续的数值型参数和离散的多值型参数;(2)对数值型参数进行处理:如果z>2,是将z转化为log(z),其中,z表示数值型数据,因为数值型数据较大的方差会导致训练神经网络时难以收敛,降低预测准确率;然后利用一个编码器将每个数值型参数编码成固定的维度D;编码器定义为:x'=Encoder(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)原始输入x为一行一列的矩阵,表示为x∈R
1*1
,经过编码器转化为一行D列的矩阵,表示为x'∈R
1*D
,编码器本身也是一个一行D列的矩阵,同样表示为Encoder∈R
1*D
;(3)对离散型参数进行处理:离散型参数的离散空间各不相同,将每个离散空间下的值按照唯一性标记,然后利用不同的编码器将对应离散空间下的数值编码成固定的维度D;其中,编码器定义为:x
′
i
=Encoder
i
(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)原始输入x
i
由独热编码one
‑
hot表示,表示为x
i
∈R
1*m
,m为每个离散型参数的离散空间大小;同样经过编码器转化为一行D列的矩阵,表示为x'
i
∈R
1*D
;区别于步骤(2)中的编码器,不同的离散空间需要采用不同的维度编码器,表示为Encoder
i
∈R
m*D
;(4)将步骤(2)和步骤(3)得到的原始数据Field
‑
aware级的特征表示拼接在一起,公式化为:其中,m表示为每条数据中数值型参数和离散型参数的总数;X1中X表示特征数据,上标1为特征数据的阶数;在CTR预测算法领域,步骤(2)、(3)、(4)承担了编码层Embedding Layer的工作;(5)将步骤(4)中得到的原始特征表示X0进行dense transform,然后与原始特征表示X0做哈达玛积(Hadamard product);原始数据表示为公式(3),转换后的数据表示为公式(4):product);原始数据表示为公式(3),转换后的数据表示为公式(4):步骤(4)中得到的Field
‑
aware级的特征表示中,每个维度被视作彼此独立的,而特征数据经过dense transform后,每个单元都聚合了原始特征表示中的全部单元,且各个单元的权重由dense transform中可训练的权重矩阵控制,表示为:W
dense
=[w1,
…
,w
D
]
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,w
i
∈R
1*D
,1≤i≤D;然后将特征表示X1与公式(4)得到的变换后的结果进行哈达玛积运算,即:(6)、将步骤(4)得到的原始特征表示先进行转置操作,再进行dense transform,然后
与原始特征表示X1做哈达玛积;同样的,原始数据表示为公式(3),转换后的数据表示为公式(8);区别于公式(4),公式(8)中每个单元不包含当前属性的全部单元信息,而是包含所有属性对应单元上的信息,激活函数δ等价于公式(5),dense transform等价于公式(6),然后将公式(8)得到结果与原始特征表示X0进行哈达玛积运算,即:(7)、将步骤(5)和步骤(6)得到结果和拼接起来形成新的2阶特征表示:其中,其中,表示按照最后一维拼接;同样的,在CTR预测算法领域,步骤(5)、(6)、(7)承担了交互层(Interaction ...
【专利技术属性】
技术研发人员:李威,赵加坤,鲁广昊,
申请(专利权)人:陕西谱光微视科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。