自然语言的处理方法、装置及电子设备制造方法及图纸

技术编号:28468358 阅读:15 留言:0更新日期:2021-05-15 21:35
本申请提供了一种自然语言查询语句的处理方法、装置及电子设备,方法包括:获取用户的自然语言查询语句;根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取及标识标注,得到目标词组合,即多个目标词及每个目标词对应的属性标识和位置标识;根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询语句;将目标查询语句转换为数据库执行语言,以便进行信息查询。本申请能够通过目标词提取和基于规则的文本重构过程,将用户的自然语言查询语句转换为目标查询语句,然后再将目标查询语句转换为数据库执行语言,通过两次转换可以大大提高信息查询的准确度。查询的准确度。查询的准确度。

【技术实现步骤摘要】
自然语言的处理方法、装置及电子设备


[0001]本申请涉及自然语言处理
,尤其是涉及一种自然语言的处理方法、装置及电子设备。

技术介绍

[0002]在基于用户输入的自然语言进行信息搜索的过程中,现有的处理思路往往是通过某种算法建立一个直接从纯自然语言到数据库(如:SQL)执行语言的映射关系,通过该映射关系就可以将自然语言直接转化为数据库执行语言,从而完成信息搜索。然而这种方式只需要进行一次转换过程,往往会存在转换精确度不够的问题,即可能导致转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准。

技术实现思路

[0003]本申请的目的在于提供一种自然语言的处理方法、装置及电子设备,能够通过目标词提取和基于规则的文本重构过程,将用户的自然语言查询语句转换为目标查询语句,然后再将目标查询语句转换为数据库执行语言,通过两次转换可以大大提高信息查询的准确度。
[0004]第一方面,本申请实施例提供一种自然语言查询语句的处理方法,方法应用于服务器,服务器中存储有预设数据表、预设关键词表和多个文本重构规则;方法包括:获取用户的自然语言查询语句;根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取及标识标注,得到目标词组合;目标词组合包括:多个目标词及每个目标词对应的属性标识和位置标识;属性标识用于表征目标词的词类型;位置标识用于表征目标词在自然语言查询语句中的位置;根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询语句;将目标查询语句转换为数据库执行语言,以便进行信息查询。
[0005]进一步的,上述根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取和标识标注,得到目标词组合的步骤,包括:对自然语言查询语句进行预处理,得到多个目标分词;如果多个目标分词中存在阿拉伯数字,将阿拉伯数字作为一个目标词;从预设数据表和预设关键词表中,查找与多个目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词;为每个目标词标注对应的属性标识和位置标识,得到目标词组合。
[0006]进一步的,上述对自然语言查询语句进行预处理,得到多个目标分词的步骤,包括:对自然语言查询语句进行分词处理,得到多个分词;对多个分词进行预设处理,得到多个目标分词;预设处理包括以下至少一项:特殊词替换、停用词剔除和中文数字转换;其中,特殊词替换用于将分词替换为系统可识别的目标分词;停用词剔除用于删除无意义的分词;中文数字转换用于将中文数字转换为阿拉伯数字。
[0007]进一步的,上述预设数据表包括列名和列中值;从预设数据表和预设关键词表中,
查找与多个目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词的步骤,包括:将每个目标分词作为当前分词,均执行以下步骤:通过模糊搜索,从预设数据表和关键词表中查找与当前分词模糊匹配的列名、列中值和/或关键词;计算当前分词和其模糊匹配的列名、列中值和/或关键词的相似度,将最大相似度对应的列名、列中值和/或关键词,确定为目标词。
[0008]进一步的,上述每个列名对应有列类型标识;为每个目标词标注对应的属性标识的步骤,包括:如果目标词为关键词,为目标词标注关键词标识;如果目标词为列名或列中值,为目标词标注相应的列类型标识;如果目标词为阿拉伯数字,为目标词标注相应的数字相关标识;数字相关标识包括以下至少之一:数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。
[0009]进一步的,上述每个文本重构规则包括:基于关键词的至少一个文本重构格式;根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询语句的步骤,包括:根据多个目标词对应的属性标识,从多个文本重构规则中查找目标词组合对应的目标文本重构格式;根据目标文本重构格式和多个目标词,进行文本补全;根据多个目标词对应的位置标识,将文本补全后的多个词进行排序,确定目标查询语句。
[0010]进一步的,上述根据多个目标词对应的属性标识,从多个文本重构规则中查找目标词组合对应的目标文本重构格式的步骤,包括:以属性标识为关键词标识的目标词为索引,从基于关键词的多个文本重构格式中查找对应的文本重构格式;基于查找到的文本重构格式,确定目标词组合对应的目标文本重构格式。
[0011]进一步的,上述基于查找到的文本重构格式,确定目标词组合对应的目标文本重构格式的步骤,包括:如果查找到的文本重构格式为一个,则将文本重构格式作为目标词组合对应的目标文本重构格式;如果查找到的文本重构格式为多个,则计算多个目标词在每个文本重构格式下的得分,将得分最高的文本重构格式作为目标词组合对应的目标文本重构格式。
[0012]进一步的,上述计算多个目标词在每个文本重构格式下的得分的步骤,包括:通过下式计算多个目标词在文本重构格式下的得分:
[0013]score=a/d*106+b/c*105+d*103+e*10+f;
[0014]其中,score表示目标词在文本重构格式下的得分;a表示占位符匹配到的数量;b表示星标文本匹配到的数量;c表示星标文本总数量;d表示占位符总数量;e表示普通文本匹配到的数量;f表示正则匹配到的数量。
[0015]进一步的,上述文本重构格式中包括关键词和属性标识的排列组合;根据目标文本重构格式和多个目标词,进行文本补全的步骤,包括:利用目标文本重构格式中的属性标识对应的目标词,替换目标文本重构格式中的属性标识,得到目标词与关键词的排列组合结果。
[0016]进一步的,上述预设关键词表的类型包括以下中的多项:筛选关键词、排序关键词、数值计算关键词、日期关键词、时间关键词、字符串关键词、增长关键词、分组关键词、vs关键词、地理空间关键词、逻辑计算关键词、页码关键词。
[0017]进一步的,上述将目标查询语句转换为数据库执行语言的步骤,包括:通过预先训
练好的语句转换模型将目标查询语句转换为数据库执行语言。
[0018]第二方面,本申请实施例还提供一种自然语言查询语句的处理装置,装置应用于服务器,服务器中存储有预设数据表、预设关键词表和多个文本重构规则;装置包括:语句获取模块,用于获取用户的自然语言查询语句;词提取标注模块,用于根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取及标识标注,得到目标词组合;目标词组合包括:多个目标词及每个目标词对应的属性标识和位置标识;属性标识用于表征目标词的词类型;位置标识用于表征目标词在自然语言查询语句中的位置;文本重构模块,用于根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询语句;语句转换模块,用于将目标查询语句转换为数据库执行语言,以便进行信息查询。
[0019]第三方面,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言查询语句的处理方法,其特征在于,所述方法应用于服务器,所述服务器中存储有预设数据表、预设关键词表和多个文本重构规则;所述方法包括:获取用户的自然语言查询语句;根据所述预设数据表和所述预设关键词表,对所述自然语言查询语句进行目标词提取及标识标注,得到目标词组合;所述目标词组合包括:多个目标词及每个所述目标词对应的属性标识和位置标识;所述属性标识用于表征目标词的词类型;所述位置标识用于表征目标词在所述自然语言查询语句中的位置;根据多个所述目标词分别对应的属性标识和位置标识,利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构,得到目标查询语句;将所述目标查询语句转换为数据库执行语言,以便进行信息查询。2.根据权利要求1所述的方法,其特征在于,根据所述预设数据表和所述预设关键词表,对所述自然语言查询语句进行目标词提取和标识标注,得到目标词组合的步骤,包括:对所述自然语言查询语句进行预处理,得到多个目标分词;如果多个所述目标分词中存在阿拉伯数字,将所述阿拉伯数字作为一个目标词;从所述预设数据表和所述预设关键词表中,查找与多个所述目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词;为每个所述目标词标注对应的属性标识和位置标识,得到目标词组合。3.根据权利要求2所述的方法,其特征在于,对所述自然语言查询语句进行预处理,得到多个目标分词的步骤,包括:对所述自然语言查询语句进行分词处理,得到多个分词;对多个所述分词进行预设处理,得到多个目标分词;所述预设处理包括以下至少一项:特殊词替换、停用词剔除和中文数字转换;其中,所述特殊词替换用于将所述分词替换为系统可识别的目标分词;所述停用词剔除用于删除无意义的分词;所述中文数字转换用于将中文数字转换为阿拉伯数字。4.根据权利要求2所述的方法,其特征在于,所述预设数据表包括列名和列中值;从所述预设数据表和所述预设关键词表中,查找与多个所述目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词的步骤,包括:将每个所述目标分词作为当前分词,均执行以下步骤:通过模糊搜索,从所述预设数据表和所述关键词表中查找与所述当前分词模糊匹配的列名、列中值和/或关键词;计算所述当前分词和其模糊匹配的列名、列中值和/或关键词的相似度,将最大相似度对应的列名、列中值和/或关键词,确定为目标词。5.根据权利要求2所述的方法,其特征在于,每个列名对应有列类型标识;为每个所述目标词标注对应的属性标识的步骤,包括:如果所述目标词为关键词,为所述目标词标注关键词标识;如果所述目标词为列名或列中值,为所述目标词标注相应的列类型标识;如果所述目标词为阿拉伯数字,为所述目标词标注相应的数字相关标识;所述数字相关标识包括以下至少之一:数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。
6.根据权利要求1所述的方法,其特征在于,每个所述文本重构规则包括:基于关键词的至少一个文本重构格式;根据多个所述目标词分别对应的属性标识和位置标识,利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构,得到目标查询语句的步骤,包括:根据多个所述目标词对应的属性标识,从多个所述文本重构规则中查找所述目标词组合对应的目标文本重构格式;根据所述目标文本重构格式和多个所述目标词,进行文本补全;根据多个所述目标词对应的位置标识,将文本补全后的多个词进行排序,确定目标查询语句。7.根...

【专利技术属性】
技术研发人员:王碧波孙闯
申请(专利权)人:杭州汇数智通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1