【技术实现步骤摘要】
一种文本匹配方法及装置
[0001]本专利技术涉及信息处理
,尤其涉及一种文本匹配方法及装置。
技术介绍
[0002]现有技术中,公开号为CN108874917A,名称为“意图识别方法、装置、设备及存储介质”中公开了:响应意图数据;根据由预先生成的词法模板和句法模板编译成的基于文档的问答DBQA模板,对意图数据进行匹配;根据匹配的结果,识别意图数据所表示的语义;另外,公开号为CN103294666A,名称为“语法编译方法、语义解析方法以及对应装置”中公开了:采用基于逻辑语法直观语言(LGML)预先定义对应的语法描述文件和词类描述文件,建立语义语法树,采用整句匹配、语义映射匹配或者整句匹配和语义映射匹配相结合的方式进行语义解析。
[0003]在基于文本的机器人问答场景中,通常需要对用户输入的文本进行基于过去训练数据的匹配,匹配算法众多。在该应用场景下,训练数据可以是一些句子,或表达一种意图,或表达一个知识点。就意图表述来说,通常有多种表达形式,难以穷举。现有的解决方案是添加一些常见的意图之后,对另外的一些意图通过 ...
【技术保护点】
【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:对满足预设语法规则的表达式集合进行语法解析,确定目标正则表达式集合;将待匹配文本与所述目标正则表达式集合中的每个正则表达式进行逐一匹配,确定与所述待匹配文本匹配成功的目标正则表达式;基于所述目标正则表达式,获取所述待匹配文本对应的目标意图信息。2.根据权利要求1所述的文本匹配方法,其特征在于,所述对满足预设语法规则的表达式集合进行语法解析,确定目标正则表达式集合,包括:生成适用于所述预设语法规则的语法解析器;调用所述语法解析器,对满足所述预设语法规则的表达式集合中的每个表达式进行语法解析,得到目标正则表达式集合。3.根据权利要求1所述的文本匹配方法,其特征在于,所述将待匹配文本与所述目标正则表达式集合中的每个正则表达式进行逐一匹配,确定与所述待匹配文本匹配成功的目标正则表达式,包括:在所述目标正则表达式集合中存在包括排除项的正则表达式的情况下,将所述待匹配文本与除去排除项的正则表达式进行句式匹配;所述排除项包括开始符号、结束符号和排除词;在句式匹配成功的情况下,从所述包括排除项的正则表达式中确定与所述待匹配文本匹配成功的目标正则表达式。4.根据权利要求2所述的文本匹配方法,其特征在于,所述表达式集合中的表达式包括多个匹配项,所述匹配项是基于所述预设语法规则确定的字符串,相应地,调用所述语法解析器,对满足所述预设语法规则的表达式集合中的每个表达式进行语法解析,得到目标正则表达式集合,包括:调用所述语法解析器,将所述表达式集合中的表达式拆分为多个匹配项;调用所述语法解析器,根据各个所述匹配项所属类型对应的预设解析方法,将每个所述匹配项解析为对应的正则表达式,得到多个正则表达式;所述匹配项包括引用型匹配项、字符串型匹配项、短语型匹配项;调用所述语法解析器,将所述多个正则表达式进行合并处理,生成所述表达式集合中的表达式对应的正则表达式;基于所述表达式集合中各个表达式对应的正则表达式,得到目标正则表达式集合。5.根据权利要求3所述的文本匹配方法,其特征在于,基于所述目标正则表达式,获取所述待匹配文本对应的目标意图信息,包括:在所述目标正则表达式包括一个排除项的情况下,根据所述目标正则表达式对应的意图信息,得到所述待匹配文本对应的目标意图信息;或,在所述目标正则表达式包括多个排除项的情况下,将所述目标正则表达式进行扩充,生成所述目标正则表达式中的每个排除项对应的新的正则表达式;基于每个所述新的正则表达式对应的意图信息,得到所述待...
【专利技术属性】
技术研发人员:李小杰,
申请(专利权)人:北京沃丰时代数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。