一种文本召回方法、装置、存储介质及设备制造方法及图纸

技术编号:37576388 阅读:23 留言:0更新日期:2023-05-15 07:52
本发明专利技术实施例提供一种文本召回方法、装置、存储介质及设备,涉及文本处理领域,该方法包括:针对待处理文本召回多个第一文本,确定各第一文本对应的标签;将第一分值大于预设第一阈值的第一文本作为保留的第二文本,进行分组形成多个标签组;对每个标签组的第二文本和标签分别进行转化,得到输入值;变分类相关性识别模型对标签组内的第二文本与其标签的相关性进行计算,输出用于表示第二文本与其标签的相关性的第二分值,将第二分值大于预设第二阈值的第二文本作为第三文本;将与待处理文本的标签相同的第三文本作为最终召回的目标文本。采用两次对所召回的文本与标签的相关性进行判断,提高判断准确率和计算效率。提高判断准确率和计算效率。提高判断准确率和计算效率。

【技术实现步骤摘要】
一种文本召回方法、装置、存储介质及设备


[0001]本专利技术涉及文本处理领域,具体涉及一种文本召回方法、装置、计算机可读存储介质及设备。

技术介绍

[0002]现有的微博三级标签召回主要是根据知识库匹配,知识库匹配更多是依赖规则打分,但是针对标签与文本进行打分的得分并不能很好的代表文本与三级标签的相关性,因为需要设置诸多规则策略使得分数能够表示文本与三级标签的相关性。在实现本专利技术过程中,申请人发现现有技术中至少存在如下问题:虽然设置诸多规则策略使得分数能够表示文本与三级标签的相关性,但是如果通过对所召回文本与三级标签进行打分依旧难以表征文本与标签的相关性,相关性表征准确度低。

技术实现思路

[0003]本专利技术实施例提供一种文本召回方法、装置、存储介质及设备,解决了现有技术所存在的文本与标签的相关性表征准确度低的问题。
[0004]为达上述目的,第一方面,本专利技术实施例提供一种文本召回方法,包括:
[0005]针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值;
[0006]将第一分值大于预设第一阈值的第一文本作为保留的第二文本,将所保留的第二文本与其标签进行分组,形成多个标签组;对每个标签组的第二文本和标签分别进行转化,得到变分类相关性识别模型的输入值;
[0007]以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型,对所述标签组内的第二文本与其标签的相关性进行计算,输出用于表示第二文本与其标签的相关性的第二分值,将第二分值大于预设第二阈值的第二文本作为第三文本;
[0008]将与待处理文本的标签相同的第三文本作为最终召回的目标文本。
[0009]第二方面,本专利技术实施例还提供一种文本召回装置,包括:
[0010]标签标记模块,用于针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值;
[0011]预处理模块,用于将第一分值大于预设第一阈值的第一文本作为保留的第二文本,将所保留的第二文本与其标签进行分组,形成多个标签组;对每个标签组的第二文本和标签分别进行转化,得到变分类相关性识别模型的输入值;
[0012]相关性判断模块,用于以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型,对所述标签组内的第二文本与其标签的相关性进行计算,输出用于表示第二文本与其标签的相关性的第二分值,将第二分值大于预设第二阈值的第二文本作为第三文本;
[0013]召回模块,用于将与待处理文本的标签相同的第三文本作为最终召回的目标文
本。
[0014]第三方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被计算机设备执行时,使得所述计算机设备执行所述的文本召回方法。
[0015]第三方面,本专利技术实施例还提供一种计算机设备,包括:
[0016]处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述的文本召回方法。
[0017]上述技术方案具有如下有益效果:当存在待处理文本时,针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值;将第一分值大于预设第一阈值的第一文本作为保留的第二文本,采用较低的第一分值可以保留大量的第一文本。
[0018]以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型,对所述标签组内的第二文本与其标签的相关性进行计算,输出用于表示第二文本与其标签的相关性的第二分值,将第二分值大于预设第二阈值的第二文本作为第三文本;采用变分类相关性识别模型,对大量的第一文本进行相关性计算,能够;变分类相关性识别模型能够同时对一组内多个第二文本及标签进行相关性判断,提高判断准确率,也提高计算效率。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例的一种文本召回方法的流程图;
[0021]图2是本专利技术实施例的一种文本召回装置的结构图;
[0022]图3是本专利技术实施例的一种计算机设备的结构图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]如图1所示,结合本专利技术的实施例,提供一种文本召回方法,包括:
[0025]S101:针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值;
[0026]S102:将第一分值大于预设第一阈值的第一文本作为保留的第二文本,将所保留的第二文本与其标签进行分组,形成多个标签组;对每个标签组的第二文本和标签分别进行转化,得到变分类相关性识别模型的输入值;
[0027]S103:以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型,对所述标签组内的第二文本与其标签的相关性进行计算,输出用于表示第二文本与
其标签的相关性的第二分值,将第二分值大于预设第二阈值的第二文本作为第三文本;
[0028]S104:将与待处理文本的标签相同的第三文本作为最终召回的目标文本,针对所述待处理文本进行相关文本推荐时,将所述目标文本作为待推荐文本进行推荐。
[0029]优选地,S101:所述针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值,包括:
[0030]S1011:针对召回的每个第一文本,将每个第一文本在标签规则库里进行检索,当所述第一文本命中预设的标签规则时,将所命中的标签规则对应的标签设定为所述第一文本的标签,并记录用于表示各第一文本与其标签的相关性的第一分值。
[0031]优选地,所述标签规则通过字符串匹配模板实现;
[0032]所述字符串匹配模板包括:关键词,对应于一种标签的至少一种匹配模式,每种匹配模式包含数量小于数量阈值的关键词;
[0033]S1011:所述将每个第一文本在标签规则库里进行检索,当所述第一文本命中预设的标签规则时,将所命中的标签规则对应的标签设定为所述第一文本的标签,具体包括:
[0034]针对每个第一文本,当所述第一文本命中字符串匹配模板内的任一匹配模式内的所有关键词时,将所述匹配模式对应的标签作为所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本召回方法,其特征在于,包括:针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值;将第一分值大于预设第一阈值的第一文本作为保留的第二文本,将所保留的第二文本与其标签进行分组,形成多个标签组;对每个标签组的第二文本和标签分别进行转化,得到变分类相关性识别模型的输入值;以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型,对所述标签组内的第二文本与其标签的相关性进行计算,输出用于表示第二文本与其标签的相关性的第二分值,将第二分值大于预设第二阈值的第二文本作为第三文本;将与待处理文本的标签相同的第三文本作为最终召回的目标文本。2.根据权利要求1所述的文本召回方法,其特征在于,所述针对待处理文本召回多个第一文本,确定各第一文本对应的标签,并记录用于表示各第一文本与其标签的相关性的第一分值,包括:针对召回的每个第一文本,将每个第一文本在标签规则库里进行检索,当所述第一文本命中预设的标签规则时,将所命中的标签规则对应的标签设定为所述第一文本的标签,并记录用于表示各第一文本与其标签的相关性的第一分值。3.根据权利要求2所述的文本召回方法,其特征在于,所述标签规则通过字符串匹配模板实现;所述字符串匹配模板包括:关键词,对应于一种标签的至少一种匹配模式,每种匹配模式包含数量小于数量阈值的关键词;所述将每个第一文本在标签规则库里进行检索,当所述第一文本命中预设的标签规则时,将所命中的标签规则对应的标签设定为所述第一文本的标签,具体包括:针对每个第一文本,当所述第一文本命中字符串匹配模板内的任一匹配模式内的所有关键词时,将所述匹配模式对应的标签作为所述第一文本的标签,以及确定表示所述第一文本与其标签的相关性的第一分值并记录。4.根据权利要求1所述的文本召回方法,其特征在于,所述将所保留的第二文本与其标签进行分组,形成多个标签组;对每个标签组的第二文本和标签分别进行转化,得到变分类相关性识别模型的输入值,包括:针对第二文本,按照第一分值由高到低排列所述第二文本;并将所有所述第二文本依次形成数量相同的多个标签组;将每个第二文本分别切割成多个字符,形成所述第二本文的特征词序列;针对每个标签组,将相邻所述第二文件的特征词序列采用预设分隔符进行间隔,得到所述标签组的文本特征词序列,将相邻的标签采用预设分隔符进行间隔,得到所述标签组的标签特征词序列;通过所述文本特征词序列和所述标签特征词序列作为标签组对应...

【专利技术属性】
技术研发人员:刘茂辉张瑞强周鑫
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1