基于倒排索引的短文本匹配方法及装置制造方法及图纸

技术编号:25396714 阅读:26 留言:0更新日期:2020-08-25 23:01
本发明专利技术适用于自然语言处理技术领域,提供了基于倒排索引的短文本匹配方法及装置,该方法包括:对输入的文字进行特征提取,并把提取后的特征与知识库中的规则模板进行一一匹配,查找到最合适的模板。特别地,本发明专利技术在特征提取之后,采用倒排索引技术对输入的文字建立倒排索引,优化了匹配时的计算效率,从而大大加快之后与知识库中的模板进行一一匹配的过程。该装置包括规则模板知识库、特征提取器、特征扩展器、倒排索引生成器、模板编译器和模板匹配器。本发明专利技术可应用于智能客服、问答系统中的问题匹配,或者其他信息检索场景下的用户输入匹配,还可以进行灵活而复杂的文本匹配规则设置,同时保证匹配过程的高效率执行。

【技术实现步骤摘要】
基于倒排索引的短文本匹配方法及装置
本专利技术属于自然语言处理领域,尤其涉及基于倒排索引的短文本匹配方法及装置。
技术介绍
自然语言处理是研究人和计算机之间通过自然语言进行交互的技术,文本匹配是自然语言处理中的一个重要任务。通常在一个问答系统中,可以通过事先建立好的一个问答知识库,并把用户输入的问题文本与知识库中所有问题进行匹配,找到匹配问题的答案从而回答用户的问题。文本匹配一般包括使用文本与文本之间做匹配,以及文本与规则模板之间匹做配两种方式。倒排索引是一种根据属性的值来查找记录的技术,通常信息检索领域,加快搜索引擎全文搜索的效率。现阶段,文本匹配一般包括使用文本与文本之间做匹配,以及文本与规则模板之间匹做配两种方式。文本与文本之间的匹配技术,使用起来比较简单,但是往往语义匹配不够精准,目前基于深度学习的技术在精准度上有了一定突破,但是对数据量的需求比较大,在数据较少的情况下也不够精准。正则表达式技术,使用起来需要一定的专业知识基础,同时也不太直观容易出错,特别是它的模糊匹配机制在这种操作符出现次数较多时,会使性能指数级下降。另外,CN201811241976提出的方法相对正则表达式来说简单易用,性能也很快,但是匹配能力却不够强,不能支持基于短语前后位置的规则。
技术实现思路
本专利技术提供基于倒排索引的短文本匹配方法及装置,主要目的是用于智能客服问答领域,精准地匹配问题,正确回答用户的提问。本专利技术是这样实现的,基于倒排索引的短文本匹配方法,包括以下步骤:S1、特征提取:对输入的文本进行特征提取,所述特征为从文本中蕴含的若干短语,以及短语在文本中的位置组成;S2、特征扩展:对步骤S1提取的特征进行扩展,把提取出的短语的同义词或类别名,配合短语在文本中的位置,作为新的特征;S3、生成倒排索引:对所有特征建立倒排索引;S4、规则匹配:依次把所述倒排索引与预设的规则模板做匹配,输出匹配结果;S5、输出结果:根据匹配出的结果,以及各个规则模板之间的预设的优先级关系,选择优先级最高的一条规则模板,作为输出。优选的,所述特征提取具体为:预设置一个短语词典,用trie树对输入文本进行短语匹配,提取出同时存在于短语字典与输入文本中的短语;如果两个短语之间有互相覆盖,则选择长度更长的短语,丢弃掉较短的;如果长度一样,那么选择位置靠前的短语。优选的,所述特征扩展具体为:预设置一个短语映射表,短语映射表用于将提取出的特征中的短语进行映射后作为新的特征加入特征表中。优选的,所述规则匹配具体为:预设置一个规则模板知识库,所述规则模板知识库包含多个规则模板,然后把倒排索引与所述规则模板知识库中的每一条规则模板做匹配,每一条匹配结果均为成功或失败。优选的,所述输出结果具体为:对于所有成功匹配的规则模板,如果数量超过一,视为匹配结果存在冲突;当存在冲突时,根据规则模板知识库中预设的模板之间的相对优先级,将匹配成功的模板中的优先级较低的丢弃;如果不再存在冲突,则输出结果为一条成功匹配的规则模板的编号;如果继续存在冲突,则输出结果为判定所有匹配失败。本专利技术还提供基于倒排索引的短文本匹配装置,其特征在于:包括一个规则模板知识库、一个特征提取器、一个特征扩展器、一个倒排索引生成器、一个模板编译器和一个模板匹配器;所述规则模板知识库包含预定义的多个规则模板,以及多个规则模板之间的相对优先级的信息;所述特征提取器包含一个预设置的短语词典,特征提取器在运行时用于提取出同时存在于短语字典与输入文本中的短语;所述特征扩展器包含一个预先定义的短语映射表,在运行时对特征提取器提取出的特征进行扩展;所述倒排索引生成器用于对特征扩展器扩展后的规则生成倒排索引;所述模板编译器用于对规则模板知识库中预定义的规则模板进行编译;所述模板匹配器用于将生成的倒排索引与知识库中的规则模板编译后的对象一一进行匹配,如果存在多个匹配成功的规则模板,按照规则模板知识库内的优先级规则,做出筛选,输出最终匹配结果。优选的,还包括模板匹配缓存器,其用于在模板匹配过程中提供缓存服务,加快整体匹配效率。与现有技术相比,本专利技术的有益效果是:本专利技术的基于倒排索引的短文本匹配方法及装置,通过对输入的文字进行特征提取,并把提取后的特征与知识库中的规则模板进行一一匹配,查找到最合适的模板,特征提取之后,采用倒排索引技术对输入的文字建立倒排索引,优化了匹配时的计算效率,从而大大加快之后与知识库中的模板进行一一匹配的过程,本专利技术可以进行灵活而复杂的文本匹配规则设置,同时保证匹配过程的高效率执行。附图说明图1为本专利技术的具体实施方式的基于倒排索引的短文本匹配方法的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一请参阅图1,本实施例提供一种技术方案:基于倒排索引的短文本匹配方法,包括以下步骤:S1、特征提取:对输入的文本进行特征提取,特征为从文本中蕴含的若干短语,以及短语在文本中的位置组成。预设置一个短语词典,用trie树对输入文本进行短语匹配,提取出同时存在于短语字典与输入文本中的短语。预定义的词典可以是一个多行的文本,其中每一行为一条短语。如果两个短语之间有互相覆盖,则选择长度更长的短语,丢弃掉较短的。如果长度一样,那么选择位置靠前的短语。一个特征Fx,由一条提取出的短语Fxs和短语的位置Fxp组成:Fx=(Fxs,Fxp)。所有提取出的特征{F1,F2,F3…Fn}构成输入文本提取出的特征表。S2、特征扩展:对步骤S1提取的特征进行扩展,把提取出的短语的同义词或类别名,配合短语在文本中的位置,作为新的特征。预设置一个短语映射表,短语映射表用于将提取出的特征中的短语进行映射后作为新的特征加入特征表中。映射后的值可能是短语的同义词或者短语的分类名,同一条短语可能被映射成多个不同的值。预定义的短语映射表可以是一个多行的文本,其中每一行可以被tab分割成两段,第一段为某短语,第二段未短语映射后的值。即对于任一提取出的特征Fx=(Fxs,Fxp),短语Fxs映射后的一系列值Fxsm1,Fxsm2,Fxsm3...Fxsmn,分别将(Fxsm1,Fxp),(Fxsm2,Fxp),(Fxsm3,Fxp)...(Fxsmn,Fxp)作为新的特征加入到特征表中。预定义的短语映射表可以是一个多行的文本,其中每一行可以被tab分割成两段,第一段为某短语,第二段未短语映射后的值。S3、生成倒排索引:对所有特征建立倒排索引。根据扩展后的特征表生成倒排索引表,对于任一扩展后的特征表中的特征Fx=(Fxs,Fxp),建立Fxs到Fxp的索引,因本文档来自技高网...

【技术保护点】
1.基于倒排索引的短文本匹配方法,其特征在于:包括以下步骤:/nS1、特征提取:对输入的文本进行特征提取,所述特征为从文本中蕴含的若干短语,以及短语在文本中的位置组成;/nS2、特征扩展:对步骤S1提取的特征进行扩展,把提取出的短语的同义词或类别名,配合短语在文本中的位置,作为新的特征;/nS3、生成倒排索引:对所有特征建立倒排索引;/nS4、规则匹配:依次把所述倒排索引与预设的规则模板做匹配,输出匹配结果;/nS5、输出结果:根据匹配出的结果,以及各个规则模板之间的预设的优先级关系,选择优先级最高的一条规则模板,作为输出。/n

【技术特征摘要】
1.基于倒排索引的短文本匹配方法,其特征在于:包括以下步骤:
S1、特征提取:对输入的文本进行特征提取,所述特征为从文本中蕴含的若干短语,以及短语在文本中的位置组成;
S2、特征扩展:对步骤S1提取的特征进行扩展,把提取出的短语的同义词或类别名,配合短语在文本中的位置,作为新的特征;
S3、生成倒排索引:对所有特征建立倒排索引;
S4、规则匹配:依次把所述倒排索引与预设的规则模板做匹配,输出匹配结果;
S5、输出结果:根据匹配出的结果,以及各个规则模板之间的预设的优先级关系,选择优先级最高的一条规则模板,作为输出。


2.如权利要求1所述的基于倒排索引的短文本匹配方法,其特征在于:所述特征提取具体为:
预设置一个短语词典,用trie树对输入文本进行短语匹配,提取出同时存在于短语字典与输入文本中的短语;
如果两个短语之间有互相覆盖,则选择长度更长的短语,丢弃掉较短的;如果长度一样,那么选择位置靠前的短语。


3.如权利要求2所述的基于倒排索引的短文本匹配方法,其特征在于:所述特征扩展具体为:
预设置一个短语映射表,短语映射表用于将提取出的特征中的短语进行映射后作为新的特征加入特征表中。


4.如权利要求3所述的基于倒排索引的短文本匹配方法,其特征在于:所述规则匹配具体为:
预设置一个规则模板知识库,所述规则模板知识库包含多个规则模板,然后把倒排索引与所述规则模板知识库中的每一条规则模板做匹配,每一条匹配结果均为成功或失败。

【专利技术属性】
技术研发人员:陈恒生叶浩
申请(专利权)人:上海兑观信息科技技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1