System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本召回的方法、装置、终端设备及介质制造方法及图纸_技高网

一种文本召回的方法、装置、终端设备及介质制造方法及图纸

技术编号:40650932 阅读:5 留言:0更新日期:2024-03-13 21:28
本申请公开了一种文本召回的方法、装置、终端设备及介质,该方法包括:按照预设切分规则将长文本切分为多个短文本,并将待匹配文本与短文本进行语义匹配得到第一匹配结果,若第一匹配结果不为空,将第一匹配结果对应的短文本作为目标召回文本,若为空,则将待匹配文本与长文本进行词匹配得到第二匹配结果以确定目标召回文本。由此,基于预设切分规则可实时调整切分精度,进而提升文本匹配精度。进一步通过语义匹配,实现文本的初步快速定位,若匹配成功,将第一匹配结果所对应的短文本作为目标召回文本,若匹配失败,通过词匹配与长文本进行全文精细匹配,由此,将初步粗略语义匹配和精细匹配相结合,提升文本召回效率和准确性。

【技术实现步骤摘要】

本申请属于数据挖掘,尤其涉及一种文本召回的方法、装置、终端设备及介质


技术介绍

1、在文本召回的应用场景中,需要在一段长文本中找到不同短文本的核心内容,并在长文本中定位和召回对应的关键文本,即,在长文本中召回各短文本的核心内容。

2、目前,文本召回中一种可行的实施方式是关键词匹配法,具体的,根据人工提炼的关键词在长文本中进行检索和定位,从而得到对应的匹配内容。然而,这种方法召回方式较为模糊,只考虑到一些关键词,而某个关键词可能出现在长文本中的多个位置,由此需要人工进一步进行核心内容的识别和定位,进而会导致核心内容无法快速精确定位。此外,人工提炼关键词,导致智能化程度较低,匹配方法单一且低效。

3、另一种可行的实施方式是相似度计算法,具体的,将长文本进行适当切分为多个短文本(即,对长文本进行分句或分段),然后,采用编码算法分别对待匹配的短文本和已切分的短文本进行编码,并计算若干组短文本嵌入的相似度,从而实现定位长文本中的核心内容。

4、这样的方法,虽然避免了关键词匹配的人工成本和模糊召回,但是切分长文本的切分尺度难易把握,进而难易保证不同文本的召回准确度。此外,待匹配的短文本的核心内容点可能不只一个,而不同的核心内容在原长文本中的位置可能比较分散,这会导致单一的相似度计算可能只能召回核心内容点的一部分,进而导致召回准确度低。

5、此外,在实际的文本召回中,长文本可能是一段质量低、上下文流畅度低的文本,以上两种方法均会受到长文本质量的影响,进而导致召回准确率低,并影响召回效率,甚至召回错误或召回失败。

6、由此可见,如何在长文本中对一些短文本进行快速且精确的定位和召回,提升文本召回准确度和智能化程度,降低人工成本,是本领域技术人员亟待解决的问题。


技术实现思路

1、本申请的目的在于提供一种文本召回的方法、装置、终端设备及介质,用于提升文本召回速度、准确度和智能化程度,进而提升用户文本召回体验感。

2、为解决上述技术问题,本申请提供了一种文本召回的方法,包括:

3、按照预设切分规则将长文本切分为多个短文本;

4、将待匹配文本与所述短文本进行语义匹配得到第一匹配结果;

5、确定所述第一匹配结果是否为空;

6、若不为空,则将所述第一匹配结果对应的短文本作为目标召回文本;

7、若为空,则将所述待匹配文本与所述长文本进行词匹配得到第二匹配结果以确定所述目标召回文本。

8、优选地,所述将所述待匹配文本与所述长文本进行词匹配得到第二匹配结果以确定所述目标召回文本包括:

9、对所述待匹配文本和所述长文本进行分词以构建词库;

10、将所述待匹配文本中的待匹配词在所述词库中进行索引得到词索引结果;

11、根据所述词索引结果确定所述目标召回文本。

12、优选地,所述根据所述词索引结果确定所述目标召回文本包括:

13、根据所述词索引结果确定命中文本的数量;其中,所述命中文本为所述长文本中的一部分文本,且所述命中文本中存在至少一个词与所述待匹配词相同;

14、若所述命中文本的数量为一个,则将所述命中文本作为所述目标召回文本;

15、若所述命中文本的数量为多个,则执行以下步骤:

16、将命中词输入计算模型得到各所述命中词的加权得分;其中,所述命中词为所述命中文本中与所述待匹配词相同的词,所述计算模型为通过样本训练得到的加权模型;

17、计算各所述命中文本的加权总分;其中,所述加权总分为命中文本中命中词的加权得分之和;

18、将满足预设条件的加权总分所对应的命中文本作为所述目标召回文本。

19、优选地,所述将待匹配文本与所述短文本进行语义匹配得到第一匹配结果包括:

20、计算所述待匹配文本与所述短文本的语义相似度;

21、将所述语义相似度大于预设值所对应的短文本作为所述第一匹配结果。

22、优选地,所述按照预设切分规则将长文本切分为多个短文本包括:

23、统计各所述待匹配文本的长度值;

24、根据各所述长度值确定切分参数;其中,所述切分参数为各所述长度值的中位数,或各所述长度值的平均值;

25、基于所述切分参数将所述长文本切分为多个所述短文本。

26、优选地,所述计算所述待匹配文本与所述短文本的语义相似度包括:

27、对所述短文本进行语义编码得到向量样本;

28、对所述待匹配文本进行语义编码得到待匹配向量;

29、将所述向量样本和所述待匹配向量输入词向量模型得到所述语义相似度;其中,所述词向量模型是通过样本训练得到的自然语言模型。

30、优选地,所述将满足预设条件的加权总分所对应的命中文本作为所述目标召回文本包括:

31、将所述加权总分由高至低进行排序以对相应的命中文本进行排序;

32、将排序结果中第一位命中文本,以及与所述第一位命中文本的加权总分之差小于阈值的命中文本作为所述目标召回文本。

33、为了解决上述技术问题,本申请还提供了一种文本召回的装置,包括:

34、切分模块,用于按照预设切分规则将长文本切分为多个短文本;

35、语义匹配模块,用于将待匹配文本与所述短文本进行语义匹配得到第一匹配结果;

36、处理模块,用于确定所述第一匹配结果是否为空;若不为空,则将所述第一匹配结果对应的短文本作为目标召回文本;若为空,则将所述待匹配文本与所述长文本进行词匹配得到第二匹配结果以确定所述目标召回文本。

37、为了解决上述技术问题,本申请还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的文本召回的方法。

38、为了解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的文本召回的方法。

39、为了解决上述技术问题,本申请还提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的文本召回的方法。

40、需要说明的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

本文档来自技高网...

【技术保护点】

1.一种文本召回的方法,其特征在于,包括:

2.根据权利要求1所述的文本召回的方法,其特征在于,所述将所述待匹配文本与所述长文本进行词匹配得到第二匹配结果以确定所述目标召回文本包括:

3.根据权利要求2所述的文本召回的方法,其特征在于,所述根据所述词索引结果确定所述目标召回文本包括:

4.根据权利要求1所述的文本召回的方法,其特征在于,所述将待匹配文本与所述短文本进行语义匹配得到第一匹配结果包括:

5.根据权利要求1所述的文本召回的方法,其特征在于,所述按照预设切分规则将长文本切分为多个短文本包括:

6.根据权利要求1、4、5中任意一项所述的文本召回的方法,其特征在于,计算待匹配文本与短文本的语义相似度,包括:

7.根据权利要求3所述的文本召回的方法,其特征在于,所述将满足预设条件的加权总分所对应的命中文本作为所述目标召回文本包括:

8.一种文本召回的装置,其特征在于,包括:

9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本召回的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本召回的方法。

...

【技术特征摘要】

1.一种文本召回的方法,其特征在于,包括:

2.根据权利要求1所述的文本召回的方法,其特征在于,所述将所述待匹配文本与所述长文本进行词匹配得到第二匹配结果以确定所述目标召回文本包括:

3.根据权利要求2所述的文本召回的方法,其特征在于,所述根据所述词索引结果确定所述目标召回文本包括:

4.根据权利要求1所述的文本召回的方法,其特征在于,所述将待匹配文本与所述短文本进行语义匹配得到第一匹配结果包括:

5.根据权利要求1所述的文本召回的方法,其特征在于,所述按照预设切分规则将长文本切分为多个短文本包括:

6.根据权利要求1、4、5中任意一项所述的文本召回的方...

【专利技术属性】
技术研发人员:谢鹏
申请(专利权)人:上海众调信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1