基于小样本学习的关键词提取方法及装置制造方法及图纸

技术编号:36953954 阅读:14 留言:0更新日期:2023-03-22 19:14
本申请提供了一种基于小样本学习的关键词提取方法及装置,该基于小样本学习的关键词提取方法包括:获取第一文本数据;将第一文本数据输入Bi LSTM模型,得到预设长度的文本序列;将文本序列输入Bi Lstm

【技术实现步骤摘要】
基于小样本学习的关键词提取方法及装置


[0001]本申请涉及人工智能
,具体涉及一种基于小样本学习的关键词提取方法及装置。

技术介绍

[0002]目前,已有大量基于通用领域的关键词提取模型,并主要分为无监督和有监督两种类型。但在通信细分领域中,客服通信数据量庞大,构建语料库的成本也相应提升,且为之后的修正更新带来新的困难,因此已往的关键词提取模型存在几个问题:(1)使用无监督的方法提取关键词往往存在准确率较低、提取出的主题词与文档关联较弱、不能很好地诠释文档主题等问题,而有监督的方法虽然在关键词提取的准确度上有了提升,却需要大量的高质量人工标注的语料。建立细分领域下的大规模高质量的标注训练集需要大量的人工成本,并不现实。(2)客户用语随意,存在口语词汇多、通篇使用方言或者普通话中夹杂方言的现象。(3)训练成本高,大规模样本的训练需要耗费大量的训练时间和算力。
[0003]也即,现有技术中关键词提取方法准确度比较低。

技术实现思路

[0004]本申请旨在提供一种基于小样本学习的关键词提取方法及装置,旨在解决现有技术中关键词提取方法准确度比较低的问题。
[0005]一方面,本申请提供一种基于小样本学习的关键词提取方法,所述基于小样本学习的关键词提取方法包括:
[0006]获取第一文本数据;
[0007]将第一文本数据输入BiLSTM模型,得到预设长度的文本序列;
[0008]将文本序列输入BiLstm

CRF模型,得到所述第一文本数据的第一关键词列表;
[0009]将所述第一文本数据输入预设关键词提取模型进行关键词提取,得到所述第一文本数据的第二关键词列表;
[0010]判断所述第一关键词列表和所述第二关键词列表是否相同;
[0011]若所述第一关键词列表和所述第二关键词列表不相同,则利用所述第一文本数据更新BiLSTM模型和BiLstm

CRF模型;若所述第一关键词列表和所述第二关键词列表相同,则将所述第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
[0012]进一步的,所述获取第一文本数据,包括:
[0013]获取通信对话语音数据;
[0014]对通信对话语音数据进行语音识别,得到第二文本数据;
[0015]根据第二文本数据确定第一文本数据。
[0016]进一步的,所述根据第二文本数据确定第一文本数据,包括:
[0017]根据预设方言词典判断第二文本数据的方言类型;
[0018]根据第二文本数据的方言类型确定对应的方言普通话映射字典;
[0019]根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据;
[0020]根据第三文本数据确定第一文本数据。
[0021]进一步的,所述根据第三文本数据确定第一文本数据,包括:
[0022]将第三文本数据中的同义词合并,得到同义词合并文本数据;
[0023]将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。
[0024]进一步的,所述目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。
[0025]进一步的,所述将第一文本数据输入BiLSTM模型,得到预设长度的文本序列,包括:
[0026]将第一文本数据的预设语气词和预设无意义词剔除,得到剔除后文本数据;
[0027]将剔除后文本数据输入预训练的字向量模型,对剔除后文本数据的字进行读取,获取字向量列表;
[0028]将字向量列表输入BiLSTM模型,得到预设长度的文本序列。
[0029]进一步的,所述获取第一文本数据之前,包括:
[0030]对训练文本集进行文本预处理,得到预处理文本数据;
[0031]对预处理文本数据进行预设语气词和预设无意义词剔除、特征词语提取以及修复标注,得到目标训练向量和对应的目标标签数据;
[0032]基于目标训练向量和对应的目标标签数据对BiLSTM

CRF模型进行训练。
[0033]一方面,本申请提供一种基于小样本学习的关键词提取装置,所述基于小样本学习的关键词提取装置包括:
[0034]获取单元,用于获取第一文本数据;
[0035]文本获取单元,用于将第一文本数据输入BiLSTM模型,得到预设长度的文本序列;
[0036]第一关键词提取单元,用于将文本序列输入BiLstm

CRF模型,得到所述第一文本数据的第一关键词列表;
[0037]第二关键词提取单元,将所述第一文本数据输入预设关键词提取模型进行关键词提取,得到所述第一文本数据的第二关键词列表;
[0038]判断单元,用于判断所述第一关键词列表和所述第二关键词列表是否相同;
[0039]确定单元,若所述第一关键词列表和所述第二关键词列表不相同,则利用所述第一文本数据更新BiLSTM模型和BiLstm

CRF模型;若所述第一关键词列表和所述第二关键词列表相同,则将所述第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。
[0040]进一步的,所述获取单元,用于:
[0041]获取通信对话语音数据;
[0042]对通信对话语音数据进行语音识别,得到第二文本数据;
[0043]根据第二文本数据确定第一文本数据。
[0044]进一步的,所述获取单元,用于:
[0045]根据预设方言词典判断第二文本数据的方言类型;
[0046]根据第二文本数据的方言类型确定对应的方言普通话映射字典;
[0047]根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据;
[0048]根据第三文本数据确定第一文本数据。
[0049]进一步的,所述获取单元,用于:
[0050]将第三文本数据中的同义词合并,得到同义词合并文本数据;
[0051]将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。
[0052]进一步的,所述目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。
[0053]进一步的,所述文本获取单元,用于,包括:
[0054]将第一文本数据的预设语气词和预设无意义词剔除,得到剔除后文本数据;
[0055]将剔除后文本数据输入预训练的字向量模型,对剔除后文本数据的字进行读取,获取字向量列表;
[0056]将字向量列表输入BiLSTM模型,得到预设长度的文本序列。
[0057]进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的关键词提取方法,其特征在于,所述基于小样本学习的关键词提取方法包括:获取第一文本数据;将第一文本数据输入BiLSTM模型,得到预设长度的文本序列;将文本序列输入BiLstm

CRF模型,得到所述第一文本数据的第一关键词列表;将所述第一文本数据输入预设关键词提取模型进行关键词提取,得到所述第一文本数据的第二关键词列表;判断所述第一关键词列表和所述第二关键词列表是否相同;若所述第一关键词列表和所述第二关键词列表不相同,则利用所述第一文本数据更新BiLSTM模型和BiLstm

CRF模型;若所述第一关键词列表和所述第二关键词列表相同,则将所述第一文本数据的第一关键词列表确定为提取出来的目标关键词列表。2.根据权利要求1所述的基于小样本学习的关键词提取方法,其特征在于,所述获取第一文本数据,包括:获取通信对话语音数据;对通信对话语音数据进行语音识别,得到第二文本数据;根据第二文本数据确定第一文本数据。3.根据权利要求2所述的基于小样本学习的关键词提取方法,其特征在于,所述根据第二文本数据确定第一文本数据,包括:根据预设方言词典判断第二文本数据的方言类型;根据第二文本数据的方言类型确定对应的方言普通话映射字典;根据方言普通话映射字典将第二文本数据映射至普通话类型的第三文本数据;根据第三文本数据确定第一文本数据。4.根据权利要求3所述的基于小样本学习的关键词提取方法,其特征在于,所述根据第三文本数据确定第一文本数据,包括:将第三文本数据中的同义词合并,得到同义词合并文本数据;将同义词合并文本数据输入目标摘要生成模型进行降维,得到第一文本数据。5.根据权利要求4所述的基于小样本学习的关键词提取方法,其特征在于,所述目标摘要生成模型包括编码器子模型和解码器子模型,编码器子模型的网络层包括多头自注意机制子网络层和全连接前馈子网络层;解码器子模型的网络层包括多头自注意机制子网络层、注意力子网络层和全连接前馈子网络层。6.根据权利要求1所述的基于小样本学习的关键词提取方法,其特征在于,所述将第一文本数据输入BiLSTM模型,...

【专利技术属性】
技术研发人员:马晓亮安玲玲朱栩陈茂强邓从健杜德泉黄建文古风云
申请(专利权)人:广州云趣信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1