一种文本召回方法、装置、存储介质及设备制造方法及图纸

技术编号：37576388 阅读：23 留言：0更新日期：2023-05-15 07:52

本发明专利技术实施例提供一种文本召回方法、装置、存储介质及设备，涉及文本处理领域，该方法包括：针对待处理文本召回多个第一文本，确定各第一文本对应的标签；将第一分值大于预设第一阈值的第一文本作为保留的第二文本，进行分组形成多个标签组；对每个标签组的第二文本和标签分别进行转化，得到输入值；变分类相关性识别模型对标签组内的第二文本与其标签的相关性进行计算，输出用于表示第二文本与其标签的相关性的第二分值，将第二分值大于预设第二阈值的第二文本作为第三文本；将与待处理文本的标签相同的第三文本作为最终召回的目标文本。采用两次对所召回的文本与标签的相关性进行判断，提高判断准确率和计算效率。提高判断准确率和计算效率。提高判断准确率和计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本召回方法、装置、存储介质及设备

[0001]本专利技术涉及文本处理领域，具体涉及一种文本召回方法、装置、计算机可读存储介质及设备。

技术介绍

[0002]现有的微博三级标签召回主要是根据知识库匹配，知识库匹配更多是依赖规则打分，但是针对标签与文本进行打分的得分并不能很好的代表文本与三级标签的相关性，因为需要设置诸多规则策略使得分数能够表示文本与三级标签的相关性。在实现本专利技术过程中，申请人发现现有技术中至少存在如下问题：虽然设置诸多规则策略使得分数能够表示文本与三级标签的相关性，但是如果通过对所召回文本与三级标签进行打分依旧难以表征文本与标签的相关性，相关性表征准确度低。

技术实现思路

[0003]本专利技术实施例提供一种文本召回方法、装置、存储介质及设备，解决了现有技术所存在的文本与标签的相关性表征准确度低的问题。
[0004]为达上述目的，第一方面，本专利技术实施例提供一种文本召回方法，包括：
[0005]针对待处理文本召回多个第一文本，确定各第一文本对应的标签，并记录用于表示各第一文本与其标签的相关性的第一分值；
[0006]将第一分值大于预设第一阈值的第一文本作为保留的第二文本，将所保留的第二文本与其标签进行分组，形成多个标签组；对每个标签组的第二文本和标签分别进行转化，得到变分类相关性识别模型的输入值；
[0007]以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型，对所述标签组内的第二文本与其标签的相关性进行计算，输出用于表示第二...

【技术保护点】

【技术特征摘要】
1.一种文本召回方法，其特征在于，包括：针对待处理文本召回多个第一文本，确定各第一文本对应的标签，并记录用于表示各第一文本与其标签的相关性的第一分值；将第一分值大于预设第一阈值的第一文本作为保留的第二文本，将所保留的第二文本与其标签进行分组，形成多个标签组；对每个标签组的第二文本和标签分别进行转化，得到变分类相关性识别模型的输入值；以标签组为单位依次将各标签组转换得到的输入值输入变分类相关性识别模型，对所述标签组内的第二文本与其标签的相关性进行计算，输出用于表示第二文本与其标签的相关性的第二分值，将第二分值大于预设第二阈值的第二文本作为第三文本；将与待处理文本的标签相同的第三文本作为最终召回的目标文本。2.根据权利要求1所述的文本召回方法，其特征在于，所述针对待处理文本召回多个第一文本，确定各第一文本对应的标签，并记录用于表示各第一文本与其标签的相关性的第一分值，包括：针对召回的每个第一文本，将每个第一文本在标签规则库里进行检索，当所述第一文本命中预设的标签规则时，将所命中的标签规则对应的标签设定为所述第一文本的标签，并记录用于表示各第一文本与其标签的相关性的第一分值。3.根据权利要求2所述的文本召回方法，其特征在于，所述标签规则通过字符串匹配模板实现；所述字符串匹配模板包括：关键词，对应于一种标签的至少一种匹配模式，每种匹配模式包含数量小于数量阈值的关键词；所述将每个第一文本在标签规则库里进行检索，当所述第一文本命中预设的标签规则时，将所命中的标签规则对应的标签设定为所述第一文本的标签，具体包括：针对每个第一文本，当所述第一文本命中字符串匹配模板内的任一匹配模式内的所有关键词时，将所述匹配模式对应的标签作为所述第一文本的标签，以及确定表示所述第一文本与其标签的相关性的第一分值并记录。4.根据权利要求1所述的文本召回方法，其特征在于，所述将所保留的第二文本与其标签进行分组，形成多个标签组；对每个标签组的第二文本和标签分别进行转化，得到变分类相关性识别模型的输入值，包括：针对第二文本，按照第一分值由高到低排列所述第二文本；并将所有所述第二文本依次形成数量相同的多个标签组；将每个第二文本分别切割成多个字符，形成所述第二本文的特征词序列；针对每个标签组，将相邻所述第二文件的特征词序列采用预设分隔符进行间隔，得到所述标签组的文本特征词序列，将相邻的标签采用预设分隔符进行间隔，得到所述标签组的标签特征词序列；通过所述文本特征词序列和所述标签特征词序列作为标签组对应...

【专利技术属性】
技术研发人员：刘茂辉，张瑞强，周鑫，
申请(专利权)人：微梦创科网络科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人