一种中文语言的特征信息提取方法及装置制造方法及图纸

技术编号:28037344 阅读:18 留言:0更新日期:2021-04-09 23:19
本发明专利技术提供一种中文语言的特征信息提取方法及装置,所述方法包括:获取待识别文本;对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。所述装置用于执行上述方法。本发明专利技术实施例提供的中文语言的特征信息提取方法及装置,提高了特征信息的提取效率。

【技术实现步骤摘要】
一种中文语言的特征信息提取方法及装置
本专利技术涉及人工智能
,具体涉及一种中文语言的特征信息提取方法及装置。
技术介绍
基于自然语言处理技术,可以用于识别用户语言描述的操作意图,以更自然的方式,实现人机交互。现有技术中,可以通过关键词匹配理解用户意图,通常通过预置相关的关键词,匹配关键词在语句中是否出现来判断用户操作意图。由于该技术通过关键词进行匹配,只能识别大概的意图,并且识别的准确率低,经常发生误判和错判的情况。还可以基于正则表达式进行模式匹配识别,通过编写正则表达式,穷举所有可能的表述方式,对其中的查询特征信息进行提取。但是,正则表达式编写规则复杂,技术难度高,通过这种方式进行自然语言处理,工作量巨大,需要大量的人工来编写识别规则;并且规则执行效率低下,支持的场景有限,难以大规模使用。还可以基于神经网络的机器学习技术,通过对海量数据样本的标注和训练,生成数据识别模型,基于生成的模型进行自然语言理解和处理。由于机器学习技术在需要针对大量的样本数据进行标注和训练,模型的学习成本较高,且需要较长的训练周期,在一些无法获取足够样本的场景下,难以使用;并且训练生成的模型优化困难,难以干预或调整。
技术实现思路
针对现有技术中的问题,本专利技术实施例提供一种中文语言的特征信息提取方法及装置,能够至少部分地解决现有技术中存在的问题。一方面,本专利技术提出一种中文语言的特征信息提取方法,包括:获取待识别文本;对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。另一方面,本专利技术提供一种中文语言的特征信息提取装置,包括:获取单元,用于获取待识别文本;第一获得单元,用于对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;第二获得单元,用于根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;提取单元,用于根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。再一方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述中文语言的特征信息提取方法的步骤。又一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述中文语言的特征信息提取方法的步骤。本专利技术实施例提供的中文语言的特征信息提取方法及装置,能够获取待识别文本,对待识别文本进行分词并标注词性,获得待识别文本的词向量,根据词向量以及第一语义规则状态机,获得待识别文本对应的第一特征要素,每个第一特征要素对应第一语义规则状态机中的一条第一识别分支,根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得待识别文本的特征信息,能够从自然语言文本中,快速识别出特征信息,提高了特征信息的提取效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术一实施例提供的中文语言的特征信息提取方法的流程示意图。图2是本专利技术另一实施例提供的中文语言的特征信息提取方法的流程示意图。图3是本专利技术一实施例提供的第一语义规则状态机的结构示意图。图4是本专利技术再一实施例提供的中文语言的特征信息提取方法的流程示意图。图5是本专利技术一实施例提供的语义网络的结构示意图。图6是本专利技术又一实施例提供的中文语言的特征信息提取方法的流程示意图。图7是本专利技术一实施例提供的第二语义规则状态机的结构示意图。图8是本专利技术一实施例提供的修正后的词向量与第二语义规则状态机中的每条第二识别分支进行匹配的流程图。图9是本专利技术一实施例提供的中文语言的特征信息提取装置的结构示意图。图10是本专利技术一实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。为了便于理解本申请提供的技术方案,下面先对本申请技术方案的相关内容进行说明。本专利技术实施例提供的中文语言的特征信息提取方法,能够识别用户中文自然语言中数据分析涉及到的特征语言信息,可以精确提取用户语言表达中的数据分析所需的特性信息,而对于语言表达中辅助语义描述(如感叹、疑问语气、重复强调等等),则会进行模糊化处理。本专利技术实施例提供的中文语言的特征信息提取方法,可广泛应用于各种基于语音、文本等形式的智能化人机交互,快速提取用户中文自然语言中描述的特征信息,从而实现基于中文自然语言的交互式问答查询,为用户提供智能化的交互体验。图1是本专利技术一实施例提供的中文语言的特征信息提取方法的流程示意图,如图1所示,本专利技术实施例提供的中文语言的特征信息提取方法,包括:S101、获取待识别文本;具体地,服务器能够获取待识别文本,所述待识别文本可以是一句话,也可以是一段文本,根据实际需要进行设置,本专利技术实施例不做限定。其中,本专利技术实施例提供的中文语言的特征信息提取方法的执行主体包括但不限于服务器。例如,用户可以通过键盘输入一句话“我想看看2018年以来各地区销售收入的变化情况?”,服务器可以获取到上述语句作为待识别文本。例如,服务器可以从文件中读取一段文本作为待识别文本。例如,用户以语音输入的方式输入“我想看看2018年以来各地区销售收入的变化情况?”,服务器可以将上述语音输入转化为文本,将转化的文本作为待识别文本。S102、对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;具体地,所服务器在获得所述待识别文本之后,可以对所述待识别文本进行分词,获得所述待识别文本包括的每个词语,然后对每个词语进行词性标注,获得每个词语的词性,并将所述待识别文本包括的每个词语按照阅读顺序进行排序,获得所述待识别文本的词向量,所述词向量包括每个词语、每个词语的词性以及各个词语本文档来自技高网...

【技术保护点】
1.一种中文语言的特征信息提取方法,其特征在于,包括:/n获取待识别文本;/n对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;/n根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;/n根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。/n

【技术特征摘要】
1.一种中文语言的特征信息提取方法,其特征在于,包括:
获取待识别文本;
对所述待识别文本进行分词并标注词性,获得所述待识别文本的词向量;
根据所述词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素,每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支;其中,所述第一语义规则状态机是预先生成的,包括多条第一识别分支;
根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则,获得所述待识别文本的特征信息。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本的词向量以及第一语义规则状态机,获得所述待识别文本对应的第一特征要素包括:
将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配;
若判断获知所述词向量包括的词语与所述第一识别分支匹配,则将与所述第一识别分支匹配的词语作为与所述第一识别分支对应的第一特征要素。


3.根据权利要求2所述的方法,其特征在于,所述将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配包括:
按照所述词向量包括的词语的排列顺序,根据每个词语和/或每个词语对应的词性以及第一语义匹配规则将每个词语与每条第一识别分支包括的第一个语义单元进行匹配;其中,每条第一识别分支包括至少一个语义单元;所述第一语义匹配规则是预设的。


4.根据权利要求3所述的方法,其特征在于,还包括:
若判断获知所述词语与所述第一识别分支包括的第一个语义单元匹配,则从所述词语的下一个词语开始按照所述词向量包括的词语的排列顺序依次将每个词语与所述第一识别分支包括的语义单元进行匹配,直到完成所述第一识别分支的匹配。


5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
通过行业词库对所述待识别文本的词向量进行修正并标注分类,获得修正后的词向量;其中,所述行业词库是预先生成的;
根据修正后的词向量以及第二语义规则状态机,获得所述待识别文本对应的第二特征要素,每个第二特征要素对应所述第二语义规则状态机中的一条第二识别分支;其中,所述第二语义规则状态机是预先生成的,包括多条第二识别分支;
根据每个第二特征要素以及每个第二特征要素对应第二识别分支所对应的转化规则,获得所述待识别文本的特征...

【专利技术属性】
技术研发人员:李纪洲王星宇吴明星
申请(专利权)人:北京久其软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1