基于改进Field级特征交互算法的社区应答预测方法技术

技术编号:37153232 阅读:13 留言:0更新日期:2023-04-06 22:11
基于Field

【技术实现步骤摘要】
基于改进Field级特征交互算法的社区应答预测方法


[0001]本专利技术涉及智能推荐算法
,特别涉及预计CTR预测的在线社区潜在用户应答预测方法。

技术介绍

[0002]知识问答社区是人们在网络上寻求问题解答的主要方式之一,用户以在社区中提问和回答问题的方式完成知识交流。相较于基于短文本分析的搜索引擎,在线社区中的问答往往是长文本,其中通常包含了问题背景信息和问题本身等内容,而短文本分析难以捕捉到长文本中的语义信息。在如今的知识问答社区中,随着用户量的不断增长,单位时间内提出新问题的数量也在不断增长。一方面,新问题的潜在应答者需要花费大量的时间和精力来寻找与自己专业知识相关问题。另一方面,新问题的提出者需要花费数个小时甚至几天的时间来等待问题得到其他用户的解答。
[0003]寻找一个行之有效的应答推荐机制是解决这个问题的主要途径。目前的解决方案主要分为三种:第一种是根据社区中的用户建立问答关系有向图,采用基于图排序算法的专家推荐。例如,文章
[0004]《Automatic Keyphrase Extraction via Topic Decomposition》中提出的Topical PageRank(TPR)算法,TPR算法在不同的主体图上进行随机游走,由此获取每个单词的重要性,然后给定问题主题分布,计算每个用户语义单词的排名分数,取排名靠前的用户为预测结果。第二种是利用社区中丰富的文本特征数据,利用主题优化对文本进行语义分析。其中,文章《Ranks of Restaurant Reviews Based on LDA Model》中提出RanksLDA算法,利用线性判别分析(LDA)对新提出的问题进行主题分析,对用户曾回答过的问题进行主题分析,然后取主题相似度较高的用户作为预测结果。LDA算法将问题整体、问题词语、问题主题形成一个三层贝叶斯网络,采用词袋(bag of words)方法将文本信息转化为数字信息进行建模。第三种是基于图排序算法和基于文本分析算法的联合使用。例如,Topic Sensitive PageRank(TSPR)算法,最终预测结果的排名由问题主题相关性得分+问题质量得分+TSPR得分,TSPR得分由问题主题查询全量数据得到,大大提高返回结果的主题相关性。这些研究已经取得了一定的进展,但仍存在以下问题:1、冷启动问题,新用户难以获取到足够的有向图关联,导致图排序算法对社区新增用户预测不准确。2、基于主题模型的文本分析模型的泛化能力差,难以对社区中新题材的问答给出有效的应答预测。3、文本特征和用户特征并未得到有效的利用,在线社区通常包含大量的分类标签以及用户基本信息,这些信息都可以用来表征文本和用户。但基于图排序算法和文本分析算法并未利用到这些数据。

技术实现思路

[0005]为了克服上述现有方法的不足,本专利技术的目的在于提供基于Field

Aware级特征交互算法的知识社区应答预测算法,将应答预测问题定义为潜在应答用户推荐问题,充分
利用知识社区中的文本特征和用户特征,采用基于特征交互的改进CTR(Click

Through

Rate)算法,实现对新问题的潜在应答用户预测。
[0006]为实现上述目的,本专利技术技术方案是这样实现的:
[0007]基于Field

Aware级特征交互算法的知识社区应答预测方法,包括以下步骤:
[0008](1)设置单条数据包含的参数,包括连续的数值型参数和离散的多值型参数;数值型参数包括用户年龄、日活跃时间(小时)、周活跃时间(天)、月活跃时间(天)、发布问题数量、回答问题数量、回答结果采纳数量、回答结果评论数量、回答结果点赞数量;多值型参数包括用户Id、用户性别、用户所在地区、文章Id、文章标签、文章标题分词、文章内容分词、用户是否关注该标签、用户是否阅读完该问题、用户是否点赞问题、用户是否收藏问题、用户是否浏览问题解答、用户是否点赞问题解答、用户是否解答;
[0009](2)对数值型参数进行处理:如果z>2,是将z转化为log(z),其中,z表示数值型数据,因为数值型数据较大的方差会导致训练神经网络时难以收敛,降低预测准确率;然后利用一个编码器将每个数值型参数编码成固定的维度D;
[0010]编码器定义为:
[0011]x'=Encoder(x)
ꢀꢀꢀ
(1)
[0012]原始输入x为一行一列的矩阵,表示为x∈R
1*1
,经过编码器转化为一行D列的矩阵,表示为x'∈R
1*D
,编码器本身也是一个一行D列的矩阵,同样表示为Encoder∈R
1*D

[0013](3)对离散型参数进行处理:离散型参数的离散空间各不相同,将每个离散空间下的值按照唯一性标记,然后利用不同的编码器将对应离散空间下的数值编码成固定的维度D;
[0014]其中,编码器定义为:
[0015]x'
i
=Encoder
i
(x
i
)
ꢀꢀꢀ
(2)
[0016]原始输入x
i
由独热编码one

hot表示,表示为x
i
∈R
1*m
,m为每个离散型参数的离散空间大小;同样经过编码器转化为一行D列的矩阵,表示为x'
i
∈R
1*D
;区别于步骤(2)中的编码器,不同的离散空间需要采用不同的维度编码器,表示为Encoder
i
∈R
m*D

[0017](4)将步骤(2)和步骤(3)得到的原始数据Field

aware级的特征表示1≤i≤m拼接在一起,公式化为:
[0018][0019]其中,m表示为每条数据中数值型参数和离散型参数的总数;X1中X表示特征数据,上标1为特征数据的阶数;在CTR预测算法领域,步骤(2)、(3)、(4)承担了编码层Embedding Layer的工作;
[0020](5)将步骤(4)中得到的原始特征表示X0进行dense transform,然后与原始特征表示X0做哈达玛积(Hadamard product);原始数据表示为公式(3),转换后的数据表示为公式(4):
[0021][0022][0023]步骤(4)中得到的Field

aware级的特征表示中,每个维度被视作彼此独立的,而特征数据经过dense transform后,每个单元都聚合了原始特征表示中的全部单元,且各个单元的权重由dense transform中可训练的权重矩阵控制,表示为:
[0024]W
dense
=[w1,

,w
D
]T
ꢀꢀꢀ
(6)
[0025]其中,w...

【技术保护点】

【技术特征摘要】
1.基于Field

Aware级特征交互算法的知识社区应答预测方法,其特征在于,包括以下步骤:(1)设置单条数据包含的参数,包括连续的数值型参数和离散的多值型参数;(2)对数值型参数进行处理:如果z>2,是将z转化为log(z),其中,z表示数值型数据,因为数值型数据较大的方差会导致训练神经网络时难以收敛,降低预测准确率;然后利用一个编码器将每个数值型参数编码成固定的维度D;编码器定义为:x'=Encoder(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)原始输入x为一行一列的矩阵,表示为x∈R
1*1
,经过编码器转化为一行D列的矩阵,表示为x'∈R
1*D
,编码器本身也是一个一行D列的矩阵,同样表示为Encoder∈R
1*D
;(3)对离散型参数进行处理:离散型参数的离散空间各不相同,将每个离散空间下的值按照唯一性标记,然后利用不同的编码器将对应离散空间下的数值编码成固定的维度D;其中,编码器定义为:x

i
=Encoder
i
(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)原始输入x
i
由独热编码one

hot表示,表示为x
i
∈R
1*m
,m为每个离散型参数的离散空间大小;同样经过编码器转化为一行D列的矩阵,表示为x'
i
∈R
1*D
;区别于步骤(2)中的编码器,不同的离散空间需要采用不同的维度编码器,表示为Encoder
i
∈R
m*D
;(4)将步骤(2)和步骤(3)得到的原始数据Field

aware级的特征表示拼接在一起,公式化为:其中,m表示为每条数据中数值型参数和离散型参数的总数;X1中X表示特征数据,上标1为特征数据的阶数;在CTR预测算法领域,步骤(2)、(3)、(4)承担了编码层Embedding Layer的工作;(5)将步骤(4)中得到的原始特征表示X0进行dense transform,然后与原始特征表示X0做哈达玛积(Hadamard product);原始数据表示为公式(3),转换后的数据表示为公式(4):product);原始数据表示为公式(3),转换后的数据表示为公式(4):步骤(4)中得到的Field

aware级的特征表示中,每个维度被视作彼此独立的,而特征数据经过dense transform后,每个单元都聚合了原始特征表示中的全部单元,且各个单元的权重由dense transform中可训练的权重矩阵控制,表示为:W
dense
=[w1,

,w
D
]
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,w
i
∈R
1*D
,1≤i≤D;然后将特征表示X1与公式(4)得到的变换后的结果进行哈达玛积运算,即:(6)、将步骤(4)得到的原始特征表示先进行转置操作,再进行dense transform,然后
与原始特征表示X1做哈达玛积;同样的,原始数据表示为公式(3),转换后的数据表示为公式(8);区别于公式(4),公式(8)中每个单元不包含当前属性的全部单元信息,而是包含所有属性对应单元上的信息,激活函数δ等价于公式(5),dense transform等价于公式(6),然后将公式(8)得到结果与原始特征表示X0进行哈达玛积运算,即:(7)、将步骤(5)和步骤(6)得到结果和拼接起来形成新的2阶特征表示:其中,其中,表示按照最后一维拼接;同样的,在CTR预测算法领域,步骤(5)、(6)、(7)承担了交互层(Interaction ...

【专利技术属性】
技术研发人员:李威赵加坤鲁广昊
申请(专利权)人:陕西谱光微视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1