【技术实现步骤摘要】
数字提取方法和装置、存储介质及电子装置
本专利技术涉及计算机领域,具体而言,涉及一种数字提取方法和装置、存储介质及电子装置。
技术介绍
在用户向硬件设备输入的指令中,常常会携带一些数字信息,如包含用于表示货币、时间、长度、距离等数字词语的信息。为了方便硬件设备对上述数字信息中所携带的数字执行相应的机器处理操作,往往需要先从指令中提取出上述数字。目前,硬件设备在获取到指令对应的指令文本之后,常用的提取方式为:利用正则匹配公式对指令文本进行简单匹配,以提取出指令文本中数字信息所携带的数字。然而,在指令文本中常常会出现特殊数字,如无意义的汉字数字或汉字数字和阿拉伯数字被混合使用的复合数字。针对上述特殊数字,若继续采用相关技术所采用的数字提取方法,将导致数字提取的准确性低的问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数字提取方法和装置、存储介质及电子装置,以至少解决相关技术中数字提取准确性低的技术问题。根据本专利技术实施例的一个方面,提供了一种数字提取方法,包括:获取与输入的查询指令相匹配的指令文本;对上述指令文本执行分词标注处理,得到指令分词集合,其中,上述指令分词集合中的每一个指令分词分别配置有词性标签;根据上述词性标签从上述指令分词集合中确定出目标指令分词,其中,上述目标指令分词中包含有效数字信息;根据上述指令分词集合中所包含的上述目标指令分词之间的位置关系,从上述指令文本中提取出与上述有效数字信息匹配的目标数字,其中,上述目标数字为允许机器识别的数字。根据本专利技术实施例的另一方面,还提供了一种数字提取装置,包括 ...
【技术保护点】
1.一种数字提取方法,其特征在于,包括:获取与输入的查询指令相匹配的指令文本;对所述指令文本执行分词标注处理,得到指令分词集合,其中,所述指令分词集合中的每一个指令分词分别配置有词性标签;根据所述词性标签从所述指令分词集合中确定出目标指令分词,其中,所述目标指令分词中包含有效数字信息;根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,其中,所述目标数字为允许机器识别的数字。
【技术特征摘要】
1.一种数字提取方法,其特征在于,包括:获取与输入的查询指令相匹配的指令文本;对所述指令文本执行分词标注处理,得到指令分词集合,其中,所述指令分词集合中的每一个指令分词分别配置有词性标签;根据所述词性标签从所述指令分词集合中确定出目标指令分词,其中,所述目标指令分词中包含有效数字信息;根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,其中,所述目标数字为允许机器识别的数字。2.根据权利要求1所述的方法,其特征在于,所述根据指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字包括:获取所述指令分词集合中所包含的全部所述有效数字信息中所携带的数字的数字格式;在所述数字格式包含汉字数字的情况下,根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式;按照所述提取模式提取出所述目标数字。3.根据权利要求2所述的方法,其特征在于,所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式包括:在所述指令分词集合中至少两个所述目标指令分词所在的位置为连续位置,且所述至少两个所述目标指令分词中所包含的所述有效数字信息的数据类型均为整数类型的情况下,确定所述至少两个所述目标指令分词的所述提取模式为组合提取模式;所述按照所述提取模式提取出所述目标数字包括:按照所述组合提取模式,组合所述至少两个所述目标指令分词,得到组合指令字段;提取与所述组合指令字段相匹配的所述目标数字。4.根据权利要求2所述的方法,其特征在于,所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式包括:在所述指令分词集合中所述目标指令分词所在的位置均为离散位置的情况下,确定所述提取模式为离散提取模式;所述按照所述提取模式提取出所述目标数字包括:按照所述离散提取模式,分别提取所述指令分词集合中所述目标指令分词包含的所述有效数字信息所携带的数字,作为所述目标数字。5.根据权利要求2所述的方法,其特征在于,在所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式之前,还包括:获取在所述指令分词集合中的第一关键分词及第二关键分词,其中,所述第一关键分词与所述目标指令分词相邻且位于所述目标指令分词之前,所述第二关键分词与所述目标指令分词相邻且位于所述目标指令分词之后;将所述第一关键分词、所述目标指令分词及所述第二关键分词组合得到候选字段;调用复合数字模板与所述候选字段进行比对;在所述候选字段与所述复合数字模板匹配的情况下,按照所述复合数字模板提取所述目标数字。6.根据权利要求2所述的方法,其特征在于,在所述获取所述有效数字信息中所携带的数字的数字格式之后,还包括:在所述数字格式均为阿拉伯数字的情况下,提取所述有效数字信息所携带的数字,作为所述目标数字。7.根据权利要求1至6中任一项所述的方法,所述根据所述词性标签从所述指令分词集合中确定出目标指令分词包括:从所述指令分词集合中,获取所述词性标签指示为数词的指令分词,作为所述目标指令分词,其中,所述词性标签指示为数词的指令分词中包含所述有效数字信息。8.根据权利要求1至6中任一项所述的...
【专利技术属性】
技术研发人员:包恒耀,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。