业务关键词的提取方法、装置、设备及存储介质制造方法及图纸

技术编号:28035592 阅读:16 留言:0更新日期:2021-04-09 23:17
本发明专利技术涉及人工智能技术领域,提供一种业务关键词的提取方法、装置、设备及存储介质,用于提高业务关键词的提取准确性。业务关键词的提取方法包括:通过预置业务字典树对待处理文本信息进行业务词汇匹配,得到文本业务词汇;根据文本业务词汇对待处理文本信息进行分词处理,得到分词信息;通过预置神经网络模型中的嵌入层,将分词信息进行字词向量转换得到目标分词向量;通过预置神经网络模型中特征提取层,对目标分词向量进行语义特征提取和上下文语义编码,得到目标语义编码特征;根据目标语义编码特征,对待处理文本信息依次进行分类和关键词提取,得到目标业务关键词。此外,本发明专利技术还涉及区块链技术,待处理文本信息可存储于区块链中。

【技术实现步骤摘要】
业务关键词的提取方法、装置、设备及存储介质
本专利技术涉及人工智能的自然语言处理领域,尤其涉及一种业务关键词的提取方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展,诸多业务事项都需要用到关键词提取的处理方式,比如:对业务领域的业务关键词的提取。现有的自动抽取业务关键词一般都是使用命名实体识别(namedentityrecognition,NER)任务的模型,命名实体识别是指识别文本中具有特定意义的实体,如人名和地名,而命名实体识别任务的模型采用的是基于词汇字符的方法对识别文本进行分词,然后提取其关键词。但是,由于中文分词存在误差,且没有利用业务领域的词汇信息,以及结合词汇边界对识别文本进行分词,因而,导致了分词存在误差,提取的关键词不适于业务领域,从而,导致了业务关键词的提取准确性较低。
技术实现思路
本专利技术提供一种业务关键词的提取方法、装置、设备及存储介质,用于提高业务关键词的提取准确性。本专利技术第一方面提供了一种业务关键词的提取方法,包括:获取待处理文本信息,通过预置业务字典树,对所述待处理文本信息进行业务词汇匹配,得到文本业务词汇;根据所述文本业务词汇,对所述待处理文本信息进行分词处理,得到分词信息;通过预置神经网络模型中的嵌入层,将所述分词信息进行字词向量转换,得到目标分词向量,所述预置神经网络模型包括嵌入层和特征提取层;通过所述特征提取层,对所述目标分词向量进行语义特征提取和上下文语义编码,得到目标语义编码特征;根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词。可选的,在本专利技术第一方面的第一种实现方式中,所述获取待处理文本信息,通过预置业务字典树,对所述待处理文本信息进行业务词汇匹配,得到文本业务词汇之前,还包括:获取业务词汇集,并计算所述业务词汇集中每个业务词汇的词频-逆文本频率指数值;根据所述词频-逆文本频率指数值,对所述业务词汇集进行排序,得到业务词汇序列;对所述业务词汇序列进行字符串分割处理,得到分词字符集,并创建所述业务词汇序列的反向索引信息;将所述反向索引信息作为根结点,将所述分词字符集作为叶节点,根据所述根结点和所述叶节点,创建预置业务字典树。可选的,在本专利技术第一方面的第二种实现方式中,所述根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词,包括:通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类和概率值筛选,得到目标分类概率值;基于所述目标分类概率值,提取所述待处理文本信息中对应的业务关键词,得到目标业务关键词。可选的,在本专利技术第一方面的第三种实现方式中,所述通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类和概率值筛选,得到目标分类概率值,包括:通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类,得到初始分类概率值;按照值从大到小的顺序,对所述初始分类概率值进行排序,将排序第一的初始分类概率值确定为候选分类概率值,并判断所述候选分类概率值是否大于预设阈值;若所述候选分类概率值大于所述预设阈值,则将所述候选分类概率值确定为目标分类概率值;若所述候选分类概率值小于或等于所述预设阈值,则重新获取所述待处理文本信息的待处理分类概率值;将所述待处理分类概率值与所述预设阈值进行对比分析,得到目标分类概率值。可选的,在本专利技术第一方面的第四种实现方式中,所述基于所述目标分类概率值,提取所述待处理文本信息中对应的业务关键词,得到目标业务关键词,包括:基于所述目标分类概率值,提取所述待处理文本信息中对应的业务关键词,得到初始业务关键词;对所述初始业务关键词依次进行拼接、词性过滤和字典树匹配,得到目标业务关键词。可选的,在本专利技术第一方面的第五种实现方式中,所述通过预置神经网络模型中的嵌入层,将所述分词信息进行字词向量转换,得到目标分词向量,包括:通过预置神经网络模型中嵌入层的预训练字向量,将所述分词信息进行字词向量转换,得到文本字向量;获取所述文本业务词汇的目标词向量,并判断所述文本字向量中是否存在所述目标词向量;若所述文本字向量中存在所述目标词向量,则按照所述目标词向量,将所述文本字向量对应的字向量进行拼接,得到目标分词向量。可选的,在本专利技术第一方面的第六种实现方式中,所述根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词之后,还包括:获取基于所述目标业务关键词的目标误差值和修正业务词,根据所述目标误差值和所述修正业务词,对所述预置神经网络模型进行优化。本专利技术第二方面提供了一种业务关键词的提取装置,包括:匹配模块,用于获取待处理文本信息,通过预置业务字典树,对所述待处理文本信息进行业务词汇匹配,得到文本业务词汇;分词模块,用于根据所述文本业务词汇,对所述待处理文本信息进行分词处理,得到分词信息;转换模块,用于通过预置神经网络模型中的嵌入层,将所述分词信息进行字词向量转换,得到目标分词向量,所述预置神经网络模型包括嵌入层和特征提取层;编码模块,用于通过所述特征提取层,对所述目标分词向量进行语义特征提取和上下文语义编码,得到目标语义编码特征;提取模块,用于根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词。可选的,在本专利技术第二方面的第一种实现方式中,所述业务关键词的提取装置,还包括:计算模块,用于获取业务词汇集,并计算所述业务词汇集中每个业务词汇的词频-逆文本频率指数值;排序模块,用于根据所述词频-逆文本频率指数值,对所述业务词汇集进行排序,得到业务词汇序列;分割模块,用于对所述业务词汇序列进行字符串分割处理,得到分词字符集,并创建所述业务词汇序列的反向索引信息;创建模块,用于将所述反向索引信息作为根结点,将所述分词字符集作为叶节点,根据所述根结点和所述叶节点,创建预置业务字典树。可选的,在本专利技术第二方面的第二种实现方式中,所述提取模块包括:分类筛选单元,用于通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类和概率值筛选,得到目标分类概率值;提取单元,用于基于所述目标分类概率值,提取所述待处理文本信息中对应的业务关键词,得到目标业务关键词。可选的,在本专利技术第二方面的第三种实现方式中,所述分类筛选单元具体用于:通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类,得到初始分类概率值;按照值从大到小的顺序,对所述初始分类概率值进行排序,将排序第一的初始分类概率值确定为候选分类概率值,并判断所述候选分类概率值是否大于预设阈值;若所述候选分类概率值大于所述预设阈值,则将所述候本文档来自技高网...

【技术保护点】
1.一种业务关键词的提取方法,其特征在于,所述业务关键词的提取方法包括:/n获取待处理文本信息,通过预置业务字典树,对所述待处理文本信息进行业务词汇匹配,得到文本业务词汇;/n根据所述文本业务词汇,对所述待处理文本信息进行分词处理,得到分词信息;/n通过预置神经网络模型中的嵌入层,将所述分词信息进行字词向量转换,得到目标分词向量,所述预置神经网络模型包括嵌入层和特征提取层;/n通过所述特征提取层,对所述目标分词向量进行语义特征提取和上下文语义编码,得到目标语义编码特征;/n根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词。/n

【技术特征摘要】
1.一种业务关键词的提取方法,其特征在于,所述业务关键词的提取方法包括:
获取待处理文本信息,通过预置业务字典树,对所述待处理文本信息进行业务词汇匹配,得到文本业务词汇;
根据所述文本业务词汇,对所述待处理文本信息进行分词处理,得到分词信息;
通过预置神经网络模型中的嵌入层,将所述分词信息进行字词向量转换,得到目标分词向量,所述预置神经网络模型包括嵌入层和特征提取层;
通过所述特征提取层,对所述目标分词向量进行语义特征提取和上下文语义编码,得到目标语义编码特征;
根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词。


2.根据权利要求1所述的业务关键词的提取方法,其特征在于,所述获取待处理文本信息,通过预置业务字典树,对所述待处理文本信息进行业务词汇匹配,得到文本业务词汇之前,还包括:
获取业务词汇集,并计算所述业务词汇集中每个业务词汇的词频-逆文本频率指数值;
根据所述词频-逆文本频率指数值,对所述业务词汇集进行排序,得到业务词汇序列;
对所述业务词汇序列进行字符串分割处理,得到分词字符集,并创建所述业务词汇序列的反向索引信息;
将所述反向索引信息作为根结点,将所述分词字符集作为叶节点,根据所述根结点和所述叶节点,创建预置业务字典树。


3.根据权利要求1所述的业务关键词的提取方法,其特征在于,所述根据所述目标语义编码特征,对所述待处理文本信息依次进行分类和关键词提取,得到目标业务关键词,包括:
通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类和概率值筛选,得到目标分类概率值;
基于所述目标分类概率值,提取所述待处理文本信息中对应的业务关键词,得到目标业务关键词。


4.根据权利要求3所述的业务关键词的提取方法,其特征在于,所述通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类和概率值筛选,得到目标分类概率值,包括:
通过所述预置神经网络模型中的输出层,对所述目标语义编码特征进行业务词汇分类,得到初始分类概率值;
按照值从大到小的顺序,对所述初始分类概率值进行排序,将排序第一的初始分类概率值确定为候选分类概率值,并判断所述候选分类概率值是否大于预设阈值;
若所述候选分类概率值大于所述预设阈值,则将所述候选分类概率值确定为目标分类概率值;
若所述候选分类概率值小于或等于所述预设阈值,则重新获取所述待处理文本信息的待处理分类概率值;
将所述待处理分类概率值与所述预设阈值进行对比分析,得到目标分类概率值。

<...

【专利技术属性】
技术研发人员:赵焕丽徐国强
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1