数字提取方法和装置、存储介质及电子装置制造方法及图纸

技术编号:20273018 阅读:54 留言:0更新日期:2019-02-02 03:50
本发明专利技术公开了一种数字提取方法和装置、存储介质及电子装置。其中,该方法包括:获取与输入的查询指令相匹配的指令文本;对指令文本执行分词标注处理,得到指令分词集合,其中,指令分词集合中的每一个指令分词分别配置有词性标签;根据词性标签从指令分词集合中确定出目标指令分词,其中,目标指令分词中包含有效数字信息;根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字,其中,目标数字为允许机器识别的数字。本发明专利技术解决了相关技术中数字提取准确性低的技术问题。

【技术实现步骤摘要】
数字提取方法和装置、存储介质及电子装置
本专利技术涉及计算机领域,具体而言,涉及一种数字提取方法和装置、存储介质及电子装置。
技术介绍
在用户向硬件设备输入的指令中,常常会携带一些数字信息,如包含用于表示货币、时间、长度、距离等数字词语的信息。为了方便硬件设备对上述数字信息中所携带的数字执行相应的机器处理操作,往往需要先从指令中提取出上述数字。目前,硬件设备在获取到指令对应的指令文本之后,常用的提取方式为:利用正则匹配公式对指令文本进行简单匹配,以提取出指令文本中数字信息所携带的数字。然而,在指令文本中常常会出现特殊数字,如无意义的汉字数字或汉字数字和阿拉伯数字被混合使用的复合数字。针对上述特殊数字,若继续采用相关技术所采用的数字提取方法,将导致数字提取的准确性低的问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数字提取方法和装置、存储介质及电子装置,以至少解决相关技术中数字提取准确性低的技术问题。根据本专利技术实施例的一个方面,提供了一种数字提取方法,包括:获取与输入的查询指令相匹配的指令文本;对上述指令文本执行分词标注处理,得到指令分词集合,其中,上述指令分词集合中的每一个指令分词分别配置有词性标签;根据上述词性标签从上述指令分词集合中确定出目标指令分词,其中,上述目标指令分词中包含有效数字信息;根据上述指令分词集合中所包含的上述目标指令分词之间的位置关系,从上述指令文本中提取出与上述有效数字信息匹配的目标数字,其中,上述目标数字为允许机器识别的数字。根据本专利技术实施例的另一方面,还提供了一种数字提取装置,包括:获取单元,用于获取与输入的查询指令相匹配的指令文本;处理单元,用于对上述指令文本执行分词标注处理,得到指令分词集合,其中,上述指令分词集合中的每一个指令分词分别配置有词性标签;确定单元,用于根据上述词性标签从上述指令分词集合中确定出目标指令分词,其中,上述目标指令分词中包含有效数字信息;提取单元,用于根据上述指令分词集合中所包含的上述目标指令分词之间的位置关系,从上述指令文本中提取出与上述有效数字信息匹配的目标数字,其中,上述目标数字为允许机器识别的数字。作为一种可选的示例,上述提取单元包括:第三提取模块,用于在上述获取上述有效数字信息中所携带的数字的数字格式之后,在上述数字格式均为阿拉伯数字的情况下,提取上述有效数字信息所携带的数字,作为上述目标数字。作为一种可选的示例,上述确定单元包括:第三获取模块,用于从上述指令分词集合中,获取上述词性标签指示为数词的指令分词,作为上述目标指令分词,其中,上述词性标签指示为数词的指令分词中包含上述有效数字信息。作为一种可选的示例,上述获取单元包括以下至少之一:第四获取模块,用于获取语音输入的上述查询指令;识别上述查询指令中所携带的指令信息;根据上述指令信息生成上述指令文本;第五获取模块,用于获取通过输入设备输入的上述查询指令;解析上述查询指令,得到上述指令文本。根据本专利技术实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数字提取方法。根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的数字提取方法。在本专利技术实施例中,采用了获取与输入的查询指令相匹配的指令文本;对指令文本执行分词标注处理,得到指令分词集合;其中,指令分词集合中的每一个指令分词分别配置有词性标签;根据词性标签从指令分词集合中确定出目标指令分词根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字的方法。在上述方法中,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。进而解决了相关技术中数字提取准确性低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种数字提取方法的应用环境的示意图;图2是根据本专利技术实施例的一种数字提取方法的流程示意图;图3是根据本专利技术实施例的一种数字提取方法的示意图;图4是根据本专利技术实施例的另一种数字提取方法的示意图;图5是根据本专利技术实施例的又一种数字提取方法的示意图;图6是根据本专利技术实施例的又一种数字提取方法的示意图;图7是根据本专利技术实施例的又一种数字提取方法的示意图;图8是根据本专利技术实施例的又一种数字提取方法的示意图;图9是根据本专利技术实施例的一种数字提取装置的结构示意图;图10是根据本专利技术实施例的一种电子装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例的一个方面,提供了一种数字提取方法,可选地,作为一种可选的实施方式,上述数字提取方法可以但不限于应用于如图1所示的环境中。用户102与用户设备104之间可以进行人机交互。用户设备104包含有存储器106与处理器108。用户设备104可以获取用户输入的查询指令,并根据上述查询指令,获取与上述查询指令匹配的指令文本。在获取到上述指令文本后,用户设备104通过网络将上述指令文本发送给服务器112。服务器112中包含有索引数据库114,分词引擎116与提取引擎118。在服务器112获取到上述指令文本后,可以将上述指令文本存储到索引数据库114中。然后,使用分词引擎116对上述指令文本进行分词,得到分词集合。提取引擎118根据分词集合中的目标指令分词之间的位置关系,提取出目标数字。服务器112返回目标数字给用户设备104。需要说明的是,相关技术中,由于文本中往往存在无意义的汉字或者复合数字,从而在获取文本中的数字时,所获取到的结果准确度不高。而本实施例中,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,本文档来自技高网
...

【技术保护点】
1.一种数字提取方法,其特征在于,包括:获取与输入的查询指令相匹配的指令文本;对所述指令文本执行分词标注处理,得到指令分词集合,其中,所述指令分词集合中的每一个指令分词分别配置有词性标签;根据所述词性标签从所述指令分词集合中确定出目标指令分词,其中,所述目标指令分词中包含有效数字信息;根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,其中,所述目标数字为允许机器识别的数字。

【技术特征摘要】
1.一种数字提取方法,其特征在于,包括:获取与输入的查询指令相匹配的指令文本;对所述指令文本执行分词标注处理,得到指令分词集合,其中,所述指令分词集合中的每一个指令分词分别配置有词性标签;根据所述词性标签从所述指令分词集合中确定出目标指令分词,其中,所述目标指令分词中包含有效数字信息;根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,其中,所述目标数字为允许机器识别的数字。2.根据权利要求1所述的方法,其特征在于,所述根据指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字包括:获取所述指令分词集合中所包含的全部所述有效数字信息中所携带的数字的数字格式;在所述数字格式包含汉字数字的情况下,根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式;按照所述提取模式提取出所述目标数字。3.根据权利要求2所述的方法,其特征在于,所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式包括:在所述指令分词集合中至少两个所述目标指令分词所在的位置为连续位置,且所述至少两个所述目标指令分词中所包含的所述有效数字信息的数据类型均为整数类型的情况下,确定所述至少两个所述目标指令分词的所述提取模式为组合提取模式;所述按照所述提取模式提取出所述目标数字包括:按照所述组合提取模式,组合所述至少两个所述目标指令分词,得到组合指令字段;提取与所述组合指令字段相匹配的所述目标数字。4.根据权利要求2所述的方法,其特征在于,所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式包括:在所述指令分词集合中所述目标指令分词所在的位置均为离散位置的情况下,确定所述提取模式为离散提取模式;所述按照所述提取模式提取出所述目标数字包括:按照所述离散提取模式,分别提取所述指令分词集合中所述目标指令分词包含的所述有效数字信息所携带的数字,作为所述目标数字。5.根据权利要求2所述的方法,其特征在于,在所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式之前,还包括:获取在所述指令分词集合中的第一关键分词及第二关键分词,其中,所述第一关键分词与所述目标指令分词相邻且位于所述目标指令分词之前,所述第二关键分词与所述目标指令分词相邻且位于所述目标指令分词之后;将所述第一关键分词、所述目标指令分词及所述第二关键分词组合得到候选字段;调用复合数字模板与所述候选字段进行比对;在所述候选字段与所述复合数字模板匹配的情况下,按照所述复合数字模板提取所述目标数字。6.根据权利要求2所述的方法,其特征在于,在所述获取所述有效数字信息中所携带的数字的数字格式之后,还包括:在所述数字格式均为阿拉伯数字的情况下,提取所述有效数字信息所携带的数字,作为所述目标数字。7.根据权利要求1至6中任一项所述的方法,所述根据所述词性标签从所述指令分词集合中确定出目标指令分词包括:从所述指令分词集合中,获取所述词性标签指示为数词的指令分词,作为所述目标指令分词,其中,所述词性标签指示为数词的指令分词中包含所述有效数字信息。8.根据权利要求1至6中任一项所述的...

【专利技术属性】
技术研发人员:包恒耀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1