【技术实现步骤摘要】
自然语言的处理方法、装置及电子设备
[0001]本申请涉及自然语言处理
,尤其是涉及一种自然语言的处理方法、装置及电子设备。
技术介绍
[0002]在基于用户输入的自然语言进行信息搜索的过程中,现有的处理思路往往是通过某种算法建立一个直接从纯自然语言到数据库(如:SQL)执行语言的映射关系,通过该映射关系就可以将自然语言直接转化为数据库执行语言,从而完成信息搜索。然而这种方式只需要进行一次转换过程,往往会存在转换精确度不够的问题,即可能导致转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准。
技术实现思路
[0003]本申请的目的在于提供一种自然语言的处理方法、装置及电子设备,能够通过目标词提取和基于规则的文本重构过程,将用户的自然语言查询语句转换为目标查询语句,然后再将目标查询语句转换为数据库执行语言,通过两次转换可以大大提高信息查询的准确度。
[0004]第一方面,本申请实施例提供一种自然语言查询语句的处理方法,方法应用于服务器,服务器中存储有预设数据表、预设关键词表和多个文本重构规则;方法包括:获取用户的自然语言查询语句;根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取及标识标注,得到目标词组合;目标词组合包括:多个目标词及每个目标词对应的属性标识和位置标识;属性标识用于表征目标词的词类型;位置标识用于表征目标词在自然语言查询语句中的位置;根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言查询语句的处理方法,其特征在于,所述方法应用于服务器,所述服务器中存储有预设数据表、预设关键词表和多个文本重构规则;所述方法包括:获取用户的自然语言查询语句;根据所述预设数据表和所述预设关键词表,对所述自然语言查询语句进行目标词提取及标识标注,得到目标词组合;所述目标词组合包括:多个目标词及每个所述目标词对应的属性标识和位置标识;所述属性标识用于表征目标词的词类型;所述位置标识用于表征目标词在所述自然语言查询语句中的位置;根据多个所述目标词分别对应的属性标识和位置标识,利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构,得到目标查询语句;将所述目标查询语句转换为数据库执行语言,以便进行信息查询。2.根据权利要求1所述的方法,其特征在于,根据所述预设数据表和所述预设关键词表,对所述自然语言查询语句进行目标词提取和标识标注,得到目标词组合的步骤,包括:对所述自然语言查询语句进行预处理,得到多个目标分词;如果多个所述目标分词中存在阿拉伯数字,将所述阿拉伯数字作为一个目标词;从所述预设数据表和所述预设关键词表中,查找与多个所述目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词;为每个所述目标词标注对应的属性标识和位置标识,得到目标词组合。3.根据权利要求2所述的方法,其特征在于,对所述自然语言查询语句进行预处理,得到多个目标分词的步骤,包括:对所述自然语言查询语句进行分词处理,得到多个分词;对多个所述分词进行预设处理,得到多个目标分词;所述预设处理包括以下至少一项:特殊词替换、停用词剔除和中文数字转换;其中,所述特殊词替换用于将所述分词替换为系统可识别的目标分词;所述停用词剔除用于删除无意义的分词;所述中文数字转换用于将中文数字转换为阿拉伯数字。4.根据权利要求2所述的方法,其特征在于,所述预设数据表包括列名和列中值;从所述预设数据表和所述预设关键词表中,查找与多个所述目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词的步骤,包括:将每个所述目标分词作为当前分词,均执行以下步骤:通过模糊搜索,从所述预设数据表和所述关键词表中查找与所述当前分词模糊匹配的列名、列中值和/或关键词;计算所述当前分词和其模糊匹配的列名、列中值和/或关键词的相似度,将最大相似度对应的列名、列中值和/或关键词,确定为目标词。5.根据权利要求2所述的方法,其特征在于,每个列名对应有列类型标识;为每个所述目标词标注对应的属性标识的步骤,包括:如果所述目标词为关键词,为所述目标词标注关键词标识;如果所述目标词为列名或列中值,为所述目标词标注相应的列类型标识;如果所述目标词为阿拉伯数字,为所述目标词标注相应的数字相关标识;所述数字相关标识包括以下至少之一:数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。
6.根据权利要求1所述的方法,其特征在于,每个所述文本重构规则包括:基于关键词的至少一个文本重构格式;根据多个所述目标词分别对应的属性标识和位置标识,利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构,得到目标查询语句的步骤,包括:根据多个所述目标词对应的属性标识,从多个所述文本重构规则中查找所述目标词组合对应的目标文本重构格式;根据所述目标文本重构格式和多个所述目标词,进行文本补全;根据多个所述目标词对应的位置标识,将文本补全后的多个词进行排序,确定目标查询语句。7.根...
【专利技术属性】
技术研发人员:王碧波,孙闯,
申请(专利权)人:杭州汇数智通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。