文档推荐方法、装置、设备以及存储介质制造方法及图纸

技术编号:36890999 阅读:34 留言:0更新日期:2023-03-15 21:56
本公开提供了文档推荐方法、装置、设备以及存储介质,人能智能技术领域,尤其涉及自然语言处理、智能搜索、深度学习。具体实现方案为:对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。关文档。关文档。

【技术实现步骤摘要】
文档推荐方法、装置、设备以及存储介质


[0001]本公开涉及人能智能
,尤其涉及自然语言处理、智能搜索、深度学习,可应用于文档推荐等场景,尤其涉及文档推荐方法、装置、设备以及存储介质。

技术介绍

[0002]办公场景下,用户需要定期进行工作总结(例如周报、日报等)。工作总结一般以文本的形式,记录正在开展哪方面的调研,或者工作中遇到了什么问题、困难,这些调研或者问题通常涉及到某个具体的关键词。如果可以根据这些关键词推荐与之相关的文档,可以有效地帮助用户解决工作遇到的实际问题,大大缩短用户的知识获取路径,提高员工的办公效率。

技术实现思路

[0003]本公开提供了一种文档推荐方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种文档推荐方法,包括:
[0005]对客户端发布的目标文档,获取所述目标文档的目标标签;
[0006]在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇;
[0007]从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档;<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档推荐方法,包括:对客户端发布的目标文档,获取所述目标文档的目标标签;在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇;从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档;基于所述第一候选文档,对所述客户端进行文档推荐。2.根据权利要求1所述的方法,其中,所述从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档,包括:从所述目标聚簇中,确定处于所述目标聚簇中心的高频标签,以及未处于所述中心的多个低频标签;根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档。3.根据权利要求2所述的方法,其中,所述根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档,包括:根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,将排序在前n个的低频标签,以及所述高频标签确定待匹配标签,其中,n取值为大于零的整数;基于所述待匹配标签,从所述文档集合中,选取匹配的第一候选文档。4.根据权利要求2所述的方法,其中,所述根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档,包括:从所述文档集合中选取与所述高频标签匹配的文档;根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,将所述多个低频标签顺序与所述文档集合中的文档进行匹配,直至从所述文档集合中选取出的与至少一个低频标签匹配的文档数量符合设定数量,则停止匹配;将与所述高频标签匹配的文档,以及与所述至少一个低频标签匹配的文档,均作为所述第一候选文档。5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:对多个客户端已发送的历史文档集合进行统计,以从所述历史文档集合内的历史文档中提取多个历史标签;根据所述多个历史标签在所述历史文档集合中的出现频次,划分为多个高频标签,以及多个低频标签;其中,任一高频标签的所述出现频次高于任一低频标签的所述出现频次;针对每个所述高频标签分别生成一个聚簇,其中,各所述高频标签为所属聚簇的聚簇中心,各聚簇还包括与所述聚簇中心的高频标签语义相似的低频标签。6.根据权利要求5所述的方法,其中,所述针对每个所述高频标签分别生成一个聚簇,包括:将每个所述高频标签分别作为聚簇中心;针对任一聚簇中心,查询语义相似度大于阈值的低频标签,和/或语义相似程度排序为前若干个的低频标签,以将查询到的低频标签添加到对应的聚簇中。7.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
查询所述目标标签对应的标签释义文本;基于所述目标标签和所述标签释义文本,从所述文档集合中选取语义匹配的第二候选文档;所述基于所述第一候选文档,对所述客户端进行文档推荐,包括:将所述第一候选文档和所述第二候选文档添加到推荐文档集合中,基于所述推荐文档集合对所述客户端进行文档推荐。8.根据权利要求7所述的方法,其中,所述基于所述目标标签和所述标签释义文本,从所述文档集合中选取语义匹配的第二候选文档,包括:针对所述文本集合中任意的一篇文档,将所述文档的标题和文档的摘要组合,以得到文档描述文本;将所述目标标签与所述标签释义文本组合,以得到标签描述文本;将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码;根据所述第一语义编码与所述第二语义编码之间的相似度,确定所述目标标签与所述第一语义编码所对应文档之间的匹配程度;根据所述匹配程度,从所述文档集合中选取所述第二候选文档。9.根据权利要求8所述的方法,其中,所述将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码,包括:将所述文档描述文本和所述标签描述文本分别作为输入文本输入到所述标签-文档双塔语义匹配模型的编码层进行语义编码,以得到所述输入文本中多个字符的语义编码向量;将所述多个字符的语义编码向量输入到所述标签-文档双塔语义匹配模型的池化层,以得到融合语义编码向量,其中,所述融合语义编码向量包含的向量维度与所述语义编码向量包含的向量维度相同,所述融合语义编码向量中的各维度取值是对所述多个字符的语义编码向量在对应向量维度上的取值进行融合得到;将所述融合语义编码向量输入到所述标签-文档双塔语义匹配模型的全连接层以映射得到所述输入文本对应的第一语义编码或所述第二语义编码。10.根据权利要求7所述的方法,其中,所述基于所述推荐文档集合对所述客户端进行文档推荐,包括:根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端。11.根据权利要求10所述的方法,其中,所述根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端,包括:将所述客户端对应的用户特征中的用户兴趣偏好,以及任意的一篇候选推荐文档的所述文档特征中的文档标题和关键词,输入到所述文档重排模型的预训练语言子模型中,得到第三语义编码;对所述用户特征中的属性特征和所述文档特征中的属性特征,输入到所述文档重排模
型的词向量子模型中,以得到字符编码;基于所述第三语义编码与所述字符编码之间的相似度,确定是否选取所述候选推荐文档发送至所述客户端。12.根据权利要求11所述的方法,其中,所述用户特征中的属性特征包括员工职级和入职年限中的至少一个;和/或,所述文档特征中的属性特征包括来源、内容丰富程度、热度、时效...

【专利技术属性】
技术研发人员:万凡骆金昌陈坤斌和为何伯磊
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1