一种文本推荐方法、系统、终端及存储介质技术方案

技术编号:32829991 阅读:12 留言:0更新日期:2022-03-26 20:40
本发明专利技术公开了一种文本推荐方法、系统、终端及存储介质。所述方法包括:对请求文本进行基于专业词汇的分词,并获取分词后的专业词汇的场景类别;利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本,将所述包含有相似词汇的文本作为请求文本的专业词汇候选文本;利用预训练模型计算所述专业词汇候选文本的文本嵌入,并利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本作为文本推荐列表。本申请既有效地排除其他场景类型下的文本干扰,同时又利用了文本语义相似特性,大大提高了不同场景类型下的文本推荐准确度。型下的文本推荐准确度。型下的文本推荐准确度。

【技术实现步骤摘要】
一种文本推荐方法、系统、终端及存储介质


[0001]本专利技术涉及自然语言处理
,特别是涉及一种文本推荐方法、系统、终端及存储介质。

技术介绍

[0002]文本推荐是推荐系统以及自然语言处理的重要领域。文本推荐即在不同的应用场景下根据文本中出现的词语或句子结构判断两份文本是否相似或相关。以新闻推荐场景为例,根据用户当下正在阅读的新闻判断该新闻所处的专业场景,例如娱乐类、科技类等,从而进一步匹配到与该用户兴趣度相似或相关的新闻并推荐给该用户,提高用户的使用体验。
[0003]目前的文本推荐技术通常使用训练好的预训练词向量/语言模型进行相似性文本推荐。然而,由于不同的专业场景有很多各自领域的专业词汇,例如机器学习、深度学习领域下的文本中存在深度学习或Bert等专业词汇,现有的预训练词向量/语言模型无法基于专业领域的信息或专业词汇进行相似性文本匹配,影响文本推荐的准确度。

技术实现思路

[0004]本专利技术提供了一种文本推荐方法、系统、终端及存储介质,旨在解决现有的文本推荐技术无法基于专业领域的信息或专业词汇进行相似性文本匹配,影响文本推荐的准确度的技术问题。
[0005]为解决上述技术问题,本专利技术采用的技术方案为:
[0006]一种文本推荐方法,包括:
[0007]对请求文本进行基于专业词汇的分词,并获取分词后的专业词汇的场景类别;
[0008]利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本,将所述包含有相似词汇的文本作为请求文本的专业词汇候选文本;
[0009]利用预训练模型计算所述专业词汇候选文本的文本嵌入,并利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本,作为所述请求文本的文本推荐列表。
[0010]本专利技术实施例采取的技术方案还包括:所述对请求文本进行基于专业词汇的分词,并获取分词后的专业词汇的场景类别之后还包括:
[0011]对同一场景类别中的专业词汇进行相似性词语组合。
[0012]本专利技术实施例采取的技术方案还包括:所述利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本之前还包括:
[0013]基于语料库构建基于专业词汇的倒排索引;所述基于专业词汇的倒排索引构建方式具体为:
[0014]对所述语料库中的待匹配文本进行基于专业词汇的分词,并对分词后的专业词汇进行场景分类;
[0015]根据所述分类后的专业词汇建立各个场景类别下的基于专业词汇的倒排索引。
[0016]本专利技术实施例采取的技术方案还包括:所述利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本具体为:
[0017]根据构建好的各个场景类别下的相似词汇词表对所述专业词汇进行相似词汇匹配;所述相似词汇词表的构建方式为:
[0018]基于所述语料库,通过人工或/和预训练模型建立各个场景类别下的相似词汇词表。
[0019]本专利技术实施例采取的技术方案还包括:所述利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本之前还包括:
[0020]构建基于文本嵌入的搜索索引;所述基于文本嵌入的搜索索引构建方式为:
[0021]使用预训练模型计算语料库中待匹配文本的文本嵌入,并根据所述待匹配文本的文本嵌入构建基于文本嵌入的搜索索引。
[0022]本专利技术实施例采取的技术方案还包括:所述利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本,作为所述请求文本的文本推荐列表具体为:
[0023]使用余弦相似度计算所述专业词汇候选文本与语料库中待匹配文本的语义相似度,即:
[0024][0025]其中,x
i
表示所述语料库中待匹配文本嵌入的第i个分量,y
i
表示所述专业词汇候选文本嵌入的第i个分量;
[0026]利用topk算法获取与所述专业词汇候选文本语义相似度最高的K个匹配文本;
[0027]根据所述语义相似度高低对K个匹配文本进行降序排序后,生成请求文本的文本推荐列表。
[0028]本专利技术实施例采取的技术方案还包括:所述预训练模型包括TF

IDF模型、静态词向量模型或/和动态词向量模型。
[0029]本专利技术实施例采取的另一技术方案为:一种文本推荐系统,包括:
[0030]文本处理模块:用于对请求文本进行基于专业词汇的分词,并获取分词后的专业词汇的场景类别;
[0031]专业词汇匹配模块:用于利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本,将所述包含有相似词汇的文本作为请求文本的专业词汇候选文本;
[0032]相似文本匹配模块:用于利用预训练模型计算所述专业词汇候选文本的文本嵌入,并利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本,作为所述请求文本的文本推荐列表。
[0033]本专利技术实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
[0034]所述存储器存储有用于实现上述的文本推荐方法的程序指令;
[0035]所述处理器用于执行所述存储器存储的所述程序指令以执行所述文本推荐操作。
[0036]本专利技术实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的文本推荐方法。
[0037]本专利技术的有益效果是:本专利技术实施例的文本推荐方法、系统、终端及存储介质根据请求文本中所包含的专业词汇识别场景类别,在对应的场景类别下,通过基于专业词汇的倒排索引匹配出请求文本的专业词汇候选文本,再针对专业词汇候选文本使用预训练模型进行相似文本匹配,既有效地排除其他场景类型下的文本干扰,同时又利用了预训练模型的语义相似特性,大大提高了不同场景类型下的文本推荐准确度。本申请实施例有效解决了当前的文本推荐方式不能有效识别各种场景类别下的专业词汇的问题,并具有很好的扩展性,可适用于任意场景类型的文本推荐。
附图说明
[0038]图1是本专利技术第一实施例的文本推荐方法的流程示意图;
[0039]图2是本专利技术第二实施例的文本推荐方法的流程示意图;
[0040]图3是本专利技术实施例文本推荐系统的结构示意图;
[0041]图4是本专利技术实施例的终端结构示意图;
[0042]图5是本专利技术实施例的存储介质结构示意图。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本推荐方法,其特征在于,包括:对请求文本进行基于专业词汇的分词,并获取分词后的专业词汇的场景类别;利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本,将所述包含有相似词汇的文本作为请求文本的专业词汇候选文本;利用预训练模型计算所述专业词汇候选文本的文本嵌入,并利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本,作为所述请求文本的文本推荐列表。2.根据权利要求1所述的文本推荐方法,其特征在于,所述对请求文本进行基于专业词汇的分词,并获取分词后的专业词汇的场景类别之后还包括:对同一场景类别中的专业词汇进行相似性词语组合。3.根据权利要求2所述的文本推荐方法,其特征在于,所述利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本之前还包括:基于语料库构建基于专业词汇的倒排索引;所述基于专业词汇的倒排索引构建方式具体为:对所述语料库中的待匹配文本进行基于专业词汇的分词,并对分词后的专业词汇进行场景分类;根据所述分类后的专业词汇建立各个场景类别下的基于专业词汇的倒排索引。4.根据权利要求3所述的文本推荐方法,其特征在于,所述利用所述场景类别下基于专业词汇的倒排索引从语料库待匹配文本中匹配出所述专业词汇的相似词汇以及包含有所述相似词汇的文本具体为:根据构建好的各个场景类别下的相似词汇词表对所述专业词汇进行相似词汇匹配;所述相似词汇词表的构建方式为:基于所述语料库,通过人工或/和预训练模型建立各个场景类别下的相似词汇词表。5.根据权利要求1所述的文本推荐方法,其特征在于,所述利用基于文本嵌入的搜索索引从语料库待匹配文本中匹配出与所述专业词汇候选文本语义相似度最高的K个匹配文本之前还包括:构建基于文本嵌入的搜索索引;所述基于文本嵌入的搜索索引构建方式为:使用预训练模型计算语料库中待匹配文本的文本嵌入,并...

【专利技术属性】
技术研发人员:陈涛
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1