一种中文语言的特征信息提取方法及装置制造方法及图纸

技术编号：28037344 阅读：31 留言：0更新日期：2021-04-09 23:19

本发明专利技术提供一种中文语言的特征信息提取方法及装置，所述方法包括：获取待识别文本；对所述待识别文本进行分词并标注词性，获得所述待识别文本的词向量；根据所述词向量以及第一语义规则状态机，获得所述待识别文本对应的第一特征要素，每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支；其中，所述第一语义规则状态机是预先生成的，包括多条第一识别分支；根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则，获得所述待识别文本的特征信息。所述装置用于执行上述方法。本发明专利技术实施例提供的中文语言的特征信息提取方法及装置，提高了特征信息的提取效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文语言的特征信息提取方法及装置
本专利技术涉及人工智能
，具体涉及一种中文语言的特征信息提取方法及装置。
技术介绍
基于自然语言处理技术，可以用于识别用户语言描述的操作意图，以更自然的方式，实现人机交互。现有技术中，可以通过关键词匹配理解用户意图，通常通过预置相关的关键词，匹配关键词在语句中是否出现来判断用户操作意图。由于该技术通过关键词进行匹配，只能识别大概的意图，并且识别的准确率低，经常发生误判和错判的情况。还可以基于正则表达式进行模式匹配识别，通过编写正则表达式，穷举所有可能的表述方式，对其中的查询特征信息进行提取。但是，正则表达式编写规则复杂，技术难度高，通过这种方式进行自然语言处理，工作量巨大，需要大量的人工来编写识别规则；并且规则执行效率低下，支持的场景有限，难以大规模使用。还可以基于神经网络的机器学习技术，通过对海量数据样本的标注和训练，生成数据识别模型，基于生成的模型进行自然语言理解和处理。由于机器学习技术在需要针对大量的样本数据进行标注和训练，模型的学习成本较高，且需要较长的训练周期，在一些无法获取足够样本的场景下，难以使用；并且训练生成的模型优化困难，难以干预或调整。
技术实现思路
针对现有技术中的问题，本专利技术实施例提供一种中文语言的特征信息提取方法及装置，能够至少部分地解决现有技术中存在的问题。一方面，本专利技术提出一种中文语言的特征信息提取方法，包括：获取待识别文本；对所述待识别文本进行分词并标注词性，获得所述待识别文本的词向...

【技术保护点】
1.一种中文语言的特征信息提取方法，其特征在于，包括：/n获取待识别文本；/n对所述待识别文本进行分词并标注词性，获得所述待识别文本的词向量；/n根据所述词向量以及第一语义规则状态机，获得所述待识别文本对应的第一特征要素，每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支；其中，所述第一语义规则状态机是预先生成的，包括多条第一识别分支；/n根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则，获得所述待识别文本的特征信息。/n

【技术特征摘要】
1.一种中文语言的特征信息提取方法，其特征在于，包括：
获取待识别文本；
对所述待识别文本进行分词并标注词性，获得所述待识别文本的词向量；
根据所述词向量以及第一语义规则状态机，获得所述待识别文本对应的第一特征要素，每个第一特征要素对应所述第一语义规则状态机中的一条第一识别分支；其中，所述第一语义规则状态机是预先生成的，包括多条第一识别分支；
根据每个第一特征要素以及每个第一特征要素对应第一识别分支所对应的转化规则，获得所述待识别文本的特征信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本的词向量以及第一语义规则状态机，获得所述待识别文本对应的第一特征要素包括：
将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配；
若判断获知所述词向量包括的词语与所述第一识别分支匹配，则将与所述第一识别分支匹配的词语作为与所述第一识别分支对应的第一特征要素。

3.根据权利要求2所述的方法，其特征在于，所述将所述待识别文本的词向量与所述第一语义规则状态机中的每条第一识别分支进行匹配包括：
按照所述词向量包括的词语的排列顺序，根据每个词语和/或每个词语对应的词性以及第一语义匹配规则将每个词语与每条第一识别分支包括的第一个语义单元进行匹配；其中，每条第一识别分支包括至少一个语义单元；所述第一语义匹配规则是预设的。

4.根据权利要求3所述的方法，其特征在于，还包括：
若判断获知所述词语与所述第一识别分支包括的第一个语义单元匹配，则从所述词语的下一个词语开始按照所述词向量包括的词语的排列顺序依次将每个词语与所述第一识别分支包括的语义单元进行匹配，直到完成所述第一识别分支的匹配。

5.根据权利要求1至4任一项所述的方法，其特征在于，还包括：
通过行业词库对所述待识别文本的词向量进行修正并标注分类，获得修正后的词向量；其中，所述行业词库是预先生成的；
根据修正后的词向量以及第二语义规则状态机，获得所述待识别文本对应的第二特征要素，每个第二特征要素对应所述第二语义规则状态机中的一条第二识别分支；其中，所述第二语义规则状态机是预先生成的，包括多条第二识别分支；
根据每个第二特征要素以及每个第二特征要素对应第二识别分支所对应的转化规则，获得所述待识别文本的特征...

【专利技术属性】
技术研发人员：李纪洲，王星宇，吴明星，
申请(专利权)人：北京久其软件股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人