业务关键词的提取方法、装置、设备及存储介质制造方法及图纸

技术编号：28035592 阅读：16 留言：0更新日期：2021-04-09 23:17

本发明专利技术涉及人工智能技术领域，提供一种业务关键词的提取方法、装置、设备及存储介质，用于提高业务关键词的提取准确性。业务关键词的提取方法包括：通过预置业务字典树对待处理文本信息进行业务词汇匹配，得到文本业务词汇；根据文本业务词汇对待处理文本信息进行分词处理，得到分词信息；通过预置神经网络模型中的嵌入层，将分词信息进行字词向量转换得到目标分词向量；通过预置神经网络模型中特征提取层，对目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；根据目标语义编码特征，对待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。此外，本发明专利技术还涉及区块链技术，待处理文本信息可存储于区块链中。

全部详细技术资料下载

【技术实现步骤摘要】
业务关键词的提取方法、装置、设备及存储介质
本专利技术涉及人工智能的自然语言处理领域，尤其涉及一种业务关键词的提取方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展，诸多业务事项都需要用到关键词提取的处理方式，比如：对业务领域的业务关键词的提取。现有的自动抽取业务关键词一般都是使用命名实体识别(namedentityrecognition，NER)任务的模型，命名实体识别是指识别文本中具有特定意义的实体，如人名和地名，而命名实体识别任务的模型采用的是基于词汇字符的方法对识别文本进行分词，然后提取其关键词。但是，由于中文分词存在误差，且没有利用业务领域的词汇信息，以及结合词汇边界对识别文本进行分词，因而，导致了分词存在误差，提取的关键词不适于业务领域，从而，导致了业务关键词的提取准确性较低。
技术实现思路
本专利技术提供一种业务关键词的提取方法、装置、设备及存储介质，用于提高业务关键词的提取准确性。本专利技术第一方面提供了一种业务关键词的提取方法，包括：获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇；根据所述文本业务词汇，对所述待处理文本信息进行分词处理，得到分词信息；通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，所述预置神经网络模型包括嵌入层和特征提取层；通过所述特征提取层，对所述目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；根...

【技术保护点】
1.一种业务关键词的提取方法，其特征在于，所述业务关键词的提取方法包括：/n获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇；/n根据所述文本业务词汇，对所述待处理文本信息进行分词处理，得到分词信息；/n通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，所述预置神经网络模型包括嵌入层和特征提取层；/n通过所述特征提取层，对所述目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；/n根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。/n

【技术特征摘要】
1.一种业务关键词的提取方法，其特征在于，所述业务关键词的提取方法包括：
获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇；
根据所述文本业务词汇，对所述待处理文本信息进行分词处理，得到分词信息；
通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，所述预置神经网络模型包括嵌入层和特征提取层；
通过所述特征提取层，对所述目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；
根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。

2.根据权利要求1所述的业务关键词的提取方法，其特征在于，所述获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇之前，还包括：
获取业务词汇集，并计算所述业务词汇集中每个业务词汇的词频-逆文本频率指数值；
根据所述词频-逆文本频率指数值，对所述业务词汇集进行排序，得到业务词汇序列；
对所述业务词汇序列进行字符串分割处理，得到分词字符集，并创建所述业务词汇序列的反向索引信息；
将所述反向索引信息作为根结点，将所述分词字符集作为叶节点，根据所述根结点和所述叶节点，创建预置业务字典树。

3.根据权利要求1所述的业务关键词的提取方法，其特征在于，所述根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词，包括：
通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值；
基于所述目标分类概率值，提取所述待处理文本信息中对应的业务关键词，得到目标业务关键词。

4.根据权利要求3所述的业务关键词的提取方法，其特征在于，所述通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值，包括：
通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类，得到初始分类概率值；
按照值从大到小的顺序，对所述初始分类概率值进行排序，将排序第一的初始分类概率值确定为候选分类概率值，并判断所述候选分类概率值是否大于预设阈值；
若所述候选分类概率值大于所述预设阈值，则将所述候选分类概率值确定为目标分类概率值；
若所述候选分类概率值小于或等于所述预设阈值，则重新获取所述待处理文本信息的待处理分类概率值；
将所述待处理分类概率值与所述预设阈值进行对比分析，得到目标分类概率值。

<...

【专利技术属性】
技术研发人员：赵焕丽，徐国强，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人