一种基于语义交互和局部激活的企业资讯推荐方法技术

技术编号:35642984 阅读:16 留言:0更新日期:2022-11-19 16:35
一种基于语义交互和局部激活的企业资讯推荐方法,通过SIN企业资讯编码器可以在标题和内容之间进行单词级语义交互,缓解了独立编码标题和内容时的语义偏差,有效增强了企业资讯表示。通过LAU用户编码器更加符合用户的真实的行为习惯,可以分区域处理用户点击历史,以细粒度的方式有效捕获用户的各种潜在兴趣。提出的LAU用户编码器可以利用候选企业资讯激活相关的关键性潜在兴趣,并结合注意力机制使其保留到了最终交互阶段,这有效增强了用户兴趣表示;上述三点的成功使得我们的方法有效提高了企业资讯推荐的准确性。高了企业资讯推荐的准确性。高了企业资讯推荐的准确性。

【技术实现步骤摘要】
一种基于语义交互和局部激活的企业资讯推荐方法


[0001]本专利技术涉及个性化咨询推荐
,具体涉及一种基于语义交互和局部激活的企业资讯推荐方法。

技术介绍

[0002]个性化企业资讯推荐对于帮助用户找到感兴趣的企业资讯和改善阅读体验非常重要。基于深度学习的企业资讯推荐技术解决了传统推荐需要大量特征工程和专家知识的问题,其关键在于两个方面。一方面是为用户学习一个嵌入表示以准确描述用户兴趣,另一方面是为企业资讯学习一个嵌入表示以准确描述资讯语义信息。
[0003]对于企业资讯表示学习,现有工作主要集中在设计一个企业资讯编码器从其标题、内容及类别等信息中提取语义特征。对于用户表示学习,现有的工作主要集中在设计一个用户编码器从其点击的历史资讯中推断用户兴趣。现阶段常用的企业资讯编码器和用户编码器主要面临以下几个问题:
[0004](1)将标题和内容视为两个独立的视图分别进行编码,没有在标题和内容之间进行充分的语义交互,这种方式造成对企业资讯理解不够充分;
[0005](2)通常将用户的点击历史视为一个整体进行表示学习,这无法捕获用户点击历史中细粒度的潜在兴趣;
[0006](3)大都没有考虑候选资讯对用户兴趣表达的影响,这可能导致用户表示学习过程中的重要信息不能“幸存”到最终交互阶段。

技术实现思路

[0007]本专利技术为了克服以上技术的不足,提供了一种在获得良好嵌入表示的基础上有效提高了企业资讯推荐准确性的方法。
[0008]本专利技术克服其技术问题所采用的技术方案是:
[0009]一种基于语义交互和局部激活的企业资讯推荐方法,包括如下步骤:
[0010]a)获取用户按时间降序的历史点击资讯序列数据V=[v1,v2,...,v
i
,...,v
F
]和候选企业资讯其中v
i
为第i个历史点击的资讯,i∈{1,...F},F为历史点击的资讯数量,为第i个候选企业资讯,i∈{1,...O},O为候选企业资讯数量;
[0011]b)将用户的历史点击资讯序列数据V和候选企业资讯V
cd
分别输入到SIN企业咨询编码器中,分别得到历史点击资讯嵌入表示序列R=[r1,r2,...,r
i
,...,r
F
]和候选企业资讯嵌入表示其中r
i
为第i个历史点击资讯嵌入表示,i∈{1,...F},r
icd
为第i个候选企业资讯嵌入表示,i∈{1,...O};
[0012]c)将历史点击资讯嵌入表示序列R和候选企业资讯嵌入表示R
cd
输入到LAU用户编
码器,得到最终的用户嵌入表示u;
[0013]d)通过公式计算得到用户对第i个候选企业资讯的点击概率得分选取概率最大的5个候选快讯推荐给用户。
[0014]优选的,步骤a)中F取值为50。
[0015]进一步的,步骤b)包括如下步骤:
[0016]b

1)使用Snownlp分词工具将每一条历史点击资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的历史点击资讯的标题分词序列[x
t,1
,x
t,2
,...,x
t,i
,...,x
t,N
]和截取最大长度为M的历史点击资讯的内容分词序列[x
c,1
,x
c,2
,...,x
c,i
,...,x
c,M
],其中x
t,i
为第i个历史点击资讯的标题分词,i∈{1,...N},x
c,i
为第i个历史点击资讯的内容分词,i∈{1,...M},使用预训练的300维Glove中文词将历史点击资讯的标题分词序列[x
t,1
,x
t,2
,...,x
t,i
,...,x
t,N
]映射为历史点击资讯的标题分词向量序列[e
t,1
,e
t,2
,

,e
t,i
,

,e
t,N
],将历史点击资讯的内容分词序列[x
c,1
,x
c,2
,

,x
c,i
,

,x
c,M
]映射为历史点击资讯的内容分词向量序列[e
c,1
,e
c,2
,...,e
c,i
,...,e
c,M
];
[0017]b

2)使用Snownlp分词工具将每一条候选企业资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的候选企业资讯的标题分词序列和截取最大长度为M的候选企业资讯的内容分词序列其中为第i个候选企业资讯的标题分词,i∈{1,

N},为第i个候选企业资讯的内容分词,i∈{1,

M},使用预训练的300维Glove中文词将候选企业资讯的标题分词序列映射为候选企业资讯的标题分词向量序列将候选企业资讯的内容分词序列映射为候选企业资讯的内容分词向量序列
[0018]b

3)将历史点击资讯的标题分词向量序列[e
t,1
,e
t,2
,...,e
t,i
,...,e
t,N
]和历史点击资讯的内容分词向量序列[e
c,1
,e
c,2
,...,e
c,i
,...,e
c,M
]分别输入到SE

NET模型中,得到历史点击资讯的缩放后标题词序列[e

t,1
,e

t,2
,...,e

t,i
,...,e

t,N
]和历史点击资讯的缩放后内容词序列[e

c,1
,e

c,2
,...,e

c,i
,...,e

c,M
],将候选企业资讯的标题分词向量序列和候选企业资讯的内容分词向量序列分别输入到SE

NET模型中,得到候选企业资讯的缩放后标题词序列和候选企业资讯的缩放后内容词序列
[0019]b

4)将历史点击资讯的缩放后标题词序列[e

t,1
,e

t,2
,...,e

t,i
,...,e

t,N
]与历史点击资讯的缩放后内容词序列[e

c,1
,e...

【技术保护点】

【技术特征摘要】
1.一种基于语义交互和局部激活的企业资讯推荐方法,其特征在于,包括如下步骤:a)获取用户按时间降序的历史点击资讯序列数据V=[v1,v2,...,v
i
,...,v
F
]和候选企业资讯其中v
i
为第i个历史点击的资讯,i∈{1,...F},F为历史点击的资讯数量,为第i个候选企业资讯,i∈{1,...O},O为候选企业资讯数量;b)将用户的历史点击资讯序列数据V和候选企业资讯V
cd
分别输入到SIN企业咨询编码器中,分别得到历史点击资讯嵌入表示序列R=[r1,r2,...,r
i
,...,r
F
]和候选企业资讯嵌入表示其中r
i
为第i个历史点击资讯嵌入表示,i∈{1,...F},r
icd
为第i个候选企业资讯嵌入表示,i∈{1,

O};c)将历史点击资讯嵌入表示序列R和候选企业资讯嵌入表示R
cd
输入到LAU用户编码器,得到最终的用户嵌入表示u;d)通过公式计算得到用户对第i个候选企业资讯的点击概率得分选取概率最大的5个候选快讯推荐给用户。2.根据权利要求1所述的基于语义交互和局部激活的企业资讯推荐方法,其特征在于:步骤a)中F取值为50。3.根据权利要求1所述的基于语义交互和局部激活的企业资讯推荐方法,其特征在于,步骤b)包括如下步骤:b

1)使用Snownlp分词工具将每一条历史点击资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的历史点击资讯的标题分词序列[x
t,1
,x
t,2
,...,x
t,i
,...,x
t,N
]和截取最大长度为M的历史点击资讯的内容分词序列[x
c,1
,x
c,2
,...,x
c,i
,...,x
c,M
],其中x
t,i
为第i个历史点击资讯的标题分词,i∈{1,...N},x
c,i
为第i个历史点击资讯的内容分词,i∈{1,...M},使用预训练的300维Glove中文词将历史点击资讯的标题分词序列[x
t,1
,x
t,2
,...,x
t,i
,...,x
t,N
]映射为历史点击资讯的标题分词向量序列[e
t,1
,e
t,2
,...,e
t,i
,...,e
t,N
],将历史点击资讯的内容分词序列[x
c,1
,x
c,2
,...,x
c,i
,...,x
c,M
]映射为历史点击资讯的内容分词向量序列[e
c,1
,e
c,2
,...,e
c,i
,...,e
c,M
];b

2)使用Snownlp分词工具将每一条候选企业资讯的标题和内容分别转换成分词序列,得到截取最大长度为N的候选企业资讯的标题分词序列和截取最大长度为M的候选企业资讯的内容分词序列其中为第i个候选企业资讯的标题分词,i∈{1,

N},为第i个候选企业资讯的内容分词,i∈{1,

M},使用预训练的300维Glove中文词将候选企业资讯的标题分词序列映射为候选企业资讯的标题分词向量序列将候选企业资讯的内容分词序列映射为候选企业资讯的内容分词向量序列
b

3)将历史点击资讯的标题分词向量序列[e
t,1
,e
t,2
,

,e
t,i
,

,e
t,N
]和历史点击资讯的内容分词向量序列[e
c,1
,e
c,2
,...,e
c,i
,...,e
c,M
]分别输入到SE

NET模型中,得到历史点击资讯的缩放后标题词序列[e

t,1
,e

t,2
,...,e

t,i
,...,e

t,N
]和历史点击资讯的缩放后内容词序列[e

c,1
,e

c,2
,...,e

c,i
,...,e

c,M
],将候选企业资讯的标题分词向量序列和候选企业资讯的内容分词向量序列分别输入到SE

NET模型中,得到候选企业资讯的缩放后标题词序列和候选企业资讯的缩放后内容词序列b

4)将历史点击资讯的缩放后标题词序列[e

t,1
,e

t,2
,...,e

t,i
,...,e

t,N
]与历史点击资讯的缩放后内容词序列[e

c,1
,e

c,2
,...,e

c,i
,...,e

c,M
]拼接后得到历史点击资讯的分词向量序列[e
′1,e
′2,...,e

i
,...,e

N+M
],e

i
为第i个拼接后得到历史点击资讯的分词向量,i∈{1,...,N+M},将候选企业资讯的缩放后标题词序列和候选企业资讯的缩放后内容词序列拼接后得到候选企业资讯的分词向量序列e

icd
为第i个拼接后得到候选企业资讯的分词向量;b

5)通过多头自注意力网络分别建模历史点击资讯的分词向量序列[e
′1,e
′2,...,e

i
,...,e

N+M
]和候选企业资讯的分词向量序列的相互作用关系,得到语义交互增强后的历史点击资讯的分词向量序列及语义交互增强后的候选企业资讯的...

【专利技术属性】
技术研发人员:王英龙张洪彪舒明雷孔祥龙单珂
申请(专利权)人:山东省人工智能研究院齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1