一种基于句模进行模糊匹配与剪枝的方法技术

技术编号:16644634 阅读:85 留言:0更新日期:2017-11-26 17:02
本发明专利技术公开了一种基于句模进行模糊匹配与剪枝的方法,先输入待理解语句,编写句模;建立数据库和与句模一一对应的转关系类,将句模存入数据库中;将该待理解语句与句模进行匹配,如果匹配失败,则进行模糊匹配,未匹配语句在已经匹配上句模的语句中寻找一个最相似的语句,并输出对应的数学关系。本发明专利技术利用系统所匹配到的大量数据进行训练,从而推荐出最相似的语句,此外在利用实体组合进行语义理解时,会产生大量的关系;可利用句模对其进行剪枝,从而减少候选项的个数,使得对语句的理解更为准确;使题意的理解可达到70%‑80%的准确率,特别是加上基于句模的模糊匹配与剪枝后,使系统更健壮,容错率更高,尤其表现在对新语料的识别率上。

A method of fuzzy matching and pruning based on sentence patterns

The invention discloses a method for fuzzy matching and pruning based on sentence model, the first to understand the input statement, written sentence model; establish a database and corresponding sentence mode between the classes, the sentence model stored in the database; the statement, and to understand the sentence model, if the match fails, then fuzzy matching, not matching the words to find the most similar statements in the statement has matched the sentence model, the mathematical relationship and the corresponding output. The invention uses large amounts of data to the system, training, and recommend the most similar statements, in addition to the semantic understanding in the use of solid combination, will produce a large number of relations; to be pruned based on the sentence model, so as to reduce the number of candidate items, make the statement more accurate to understand; you can understand the accuracy of 70% 80%, especially with the sentence model based on fuzzy matching and pruning, make the system more robust, fault-tolerant rate is higher, especially in the identification of new data rate.

【技术实现步骤摘要】
一种基于句模进行模糊匹配与剪枝的方法
本专利技术涉及自然语言处理领域,具体涉及一种基于句模进行模糊匹配与剪枝的方法。
技术介绍
在处理初等数学的语义理解的过程中,经常会有一些无用的信息来干扰系统对语义的理解;由于系统采用的是模板匹配与实体组合的策略来理解语句,所以大量的干扰信息不仅没有任何意义,而且妨碍了系统利用句模和实体组合进行理解。目前在初等数学的语义理解过程中主流的方法都是采用模板匹配的方式进行,而模板匹配采用的是基于正则表达式的方法进行匹配的;正则表达式则要求被匹配的句子与所写的模板完全匹配的时候才能匹配成功,虽然多句话可以同时匹配上一个正则表达式,但是一旦句式稍加变化就不能匹配成功,这在一定的程度的限制了模板的作用,也浪费了大量的数据。针对此种情况,如果采用枚举的方法对所有的情况进行穷举,将会耗费大量的人力和时间,并且取得效果也不理想,一旦有新的干扰成分出现则匹配就会失败。
技术实现思路
基于此,针对上述问题,有必要提出一种基于句模进行模糊匹配与剪枝的方法,利用系统所匹配到的大量数据进行训练,从而推荐出最相似的语句,此外在利用实体组合进行语义理解时,会产生大量的关系;同样,可利本文档来自技高网...
一种基于句模进行模糊匹配与剪枝的方法

【技术保护点】
一种基于句模进行模糊匹配与剪枝的方法,其特征在于,包括以下步骤:a、输入待理解语句,编写句模;b、建立数据库和与句模一一对应的转关系类,将句模存入数据库中;c、将该待理解语句与句模进行匹配,如果匹配成功,则传递相应的数据到转关系类中,输出对应的数学关系;如果匹配失败,则进入步骤d;d、进行基于句模的模糊匹配,未匹配语句在已经匹配上句模的语句中寻找一个最相似的语句,并输出对应的数学关系。

【技术特征摘要】
1.一种基于句模进行模糊匹配与剪枝的方法,其特征在于,包括以下步骤:a、输入待理解语句,编写句模;b、建立数据库和与句模一一对应的转关系类,将句模存入数据库中;c、将该待理解语句与句模进行匹配,如果匹配成功,则传递相应的数据到转关系类中,输出对应的数学关系;如果匹配失败,则进入步骤d;d、进行基于句模的模糊匹配,未匹配语句在已经匹配上句模的语句中寻找一个最相似的语句,并输出对应的数学关系。2.根据权利要求1所述基于句模进行模糊匹配与剪枝的方法,其特征在于,所述步骤b具体包括以下步骤:利用句模运行一次全量测试,统计出所有的能够匹配上句模的语句以及与之匹配的句模和向转关系类中传递的数据,保存在一个XML文件中,并导入数据库。3.根据权利要求2所述基于句模进行模糊匹配与剪枝的方法,其特征在于,所述步骤b还包括以下步骤:对于已经匹配上句模的语句,将其训练成词向量表,同时根据TF-IDF给每个词语以相应的权值,加权得到每个语句的向量。4.根据权利要求3所述基于句模进行模糊匹配与剪枝的方法,其特征在于,所述步骤b中进行词向量训练的...

【专利技术属性】
技术研发人员:林辉
申请(专利权)人:成都准星云学科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1