文本匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37668830 阅读:23 留言:0更新日期:2023-05-26 04:29
本公开提供了一种文本匹配方法、装置、电子设备及存储介质,用于避免因语音识别错误、文本长度过长等问题导致的文本匹配效率低的问题,高效准确地实现句子之间的文本匹配。该方法包括:确定第一转译文本的意图标签,获取意图标签对应的意图场景词集合;将第一转译文本中与意图场景词集合匹配的字词确定为目标特征词;根据目标特征词对第一转译文本进行删减处理,得到第二转译文本;将第二转译文本与标准问数据库中存储的多个标准问进行匹配,根据匹配结果确定与第一转译文本匹配的标准问。据匹配结果确定与第一转译文本匹配的标准问。据匹配结果确定与第一转译文本匹配的标准问。

【技术实现步骤摘要】
文本匹配方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,特别涉及一种文本匹配方法、装置、电子设备及可读存储介质。

技术介绍

[0002]文本匹配是自然语言处理中非常重要的基础任务之一,主要用于描述两段文本之间的关系以进行语义相似度比较。文本匹配有很多应用场景,可以应用在检索式问答系统的意图识别任务中,用于识别客户的问题。
[0003]通常情况下,在进行文本匹配时,需要对两个文本之间的相似度进行比较,根据比较结果确定匹配文本。其中,在进行意图识别任务时,通常使用语音识别技术将语音数据转换为文字数据,再进行文本匹配。当受到外界环境和语音识别模型本身性能等影响时,生成的待比较的文字数据具有文本较长、误识别等问题,加上对话本身存在的随机性、专业词较多等特点也会给语音数据转换为文字数据带来一定的困难,进而难以进行后续的文本匹配任务。

技术实现思路

[0004]本公开提供了一种文本匹配方法、装置、电子设备及可读存储介质,用于避免因语音识别错误、文本长度过长等问题导致的文本匹配效率低的问题,高效准确地实现句子之本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:确定第一转译文本的意图标签,获取所述意图标签对应的意图场景词集合;其中,每个意图标签对应的意图场景词集合用于存储所述意图标签对应的多个标准问中包含的能够表征意图特征的场景词;将所述第一转译文本中与所述意图场景词集合匹配的字词确定为目标特征词;根据所述目标特征词对所述第一转译文本进行删减处理,得到第二转译文本;其中,所述第二转译文本的文本长度小于所述第一转译文本的文本长度;将所述第二转译文本与标准问数据库中存储的多个标准问进行匹配,根据匹配结果确定与所述第一转译文本匹配的标准问。2.根据权利要求1所述的方法,其特征在于,所述获取所述意图标签对应的意图场景词集合包括:从所述标准问数据库中获取所述意图标签对应的多个标准问,针对所述意图标签对应的每个标准问进行分词处理,得到每个标准问中包含的多个分词;将所述每个标准问中包含的多个分词中的至少两个分词确定为一个分词组合,将所述分词组合同时出现在一个标准问中的频次确定为所述分词组合的组合出现频次;将组合出现频次高于预设频次阈值的分词组合确定为关联场景词,根据所述关联场景词得到所述意图标签对应的意图场景词集合。3.根据权利要求1所述的方法,其特征在于,所述获取所述意图标签对应的意图场景词集合包括:从所述标准问数据库中获取所述意图标签对应的多个标准问,针对所述意图标签对应的多个标准问进行分词处理,得到多个分词;获取各个分词在所述标准问数据库中的词频逆文档频率,根据所述词频逆文档频率生成各个分词对应的分词向量;将各个分词对应的分词向量输入逻辑回归模型,得到各个分词对应的回归系数;其中,所述回归系数用于表征分词的重要度;将回归系数大于预设阈值的分词确定为特征场景词,根据所述特征场景词得到所述意图标签对应的意图场景词集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征词对所述第一转译文本进行删减处理,得到第二转译文本包括:将所述第一转译文本中除所述目标特征词之外的字词确定为冗余词,将所述冗余词从所述第一转译文本中删除,得到所述第二转译文本。5.根据权利要求1

4任一所述的方法,其特征在于,所述将所述第二转译文本与标准问数据库中存储的多个标准问进行匹配,根据匹配结果确定与所述第一转译文本匹配的标准问包括:通过概率检索模型,从所述标准问数据库中存储的N个标准问中筛选出与所述第二转...

【专利技术属性】
技术研发人员:赵宏宇赵国庆蒋宁肖冰李可新
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1