基于神经网络的新词挖掘方法和系统技术方案

技术编号：40949857 阅读：2 留言：0更新日期：2024-04-18 20:24

本发明专利技术提供一种基于神经网络的新词挖掘方法和系统，包括：获取公开语料；基于神经网络构建新词挖掘模型，所述新词挖掘模型包括编码器和解码器；对新词挖掘模型进行训练，以得到训练后的新词挖掘模型；利用训练后的新词挖掘模型对公开语料进行推理，以得到新词词表。本发明专利技术基于神经网络构建新词挖掘模型，通过对新词挖掘模型中的编码器和解码器进行训练，使得新词挖掘模型能够通过文本的上下文语义来识别词语，挖掘时硬件资源的需求不会随语料的增加而增加，此外，由于训练后的新词挖掘模型具有较高的鲁棒性，从而有效提高了新词挖掘的效率和准确率，解决了现有新词挖掘算法硬件资源需求大且挖掘效率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别涉及一种基于神经网络的新词挖掘方法和系统。

技术介绍

1、自然语言处理(natural language processing，nlp)是以语言为对象，利用计算机技术来分析、理解和处理自然语言的一门学科，即把计算机作为语言研究的强大工具，在计算机的支持下对语言信息进行定量化的研究，并提供可供人与计算机之间能共同使用的语言描写。自然语言处理包括自然语言理解(natural language understanding，nlu)和自然语言生成(natural language generation，nlg)两部分。

2、在自然语言处理中，新词是指以前从来没有出现过的词汇，或者在词典中没有收录的词汇。新词挖掘，则是指从已知的语料中去提取一些词或字，组成新的词汇，或对从未出现过的词汇进行识别，从而形成精准的总结文本信息，例如标签化、方便统计、构造索引、特征化长文本等都是通过新词挖掘产生的。

3、目前常用的新词挖掘算法主要是基于统计相关的算法，主要依赖于新词在语料中的出现频率(如计算新词的左右熵及相关的凝固度、分离度等)来实现。虽然该方法容易实现，但随着语料的增加，对内存和cpu等硬件资源的需求也随之增加，且挖掘效率会变低。

技术实现思路

1、本专利技术的目的在于提供一种基于神经网络的新词挖掘方法和系统，以解决现有新词挖掘算法硬件资源需求大且挖掘效率低的问题。

2、为解决上述技术问题，本专利技术提供一种基于神经网络的新词挖掘方法，包括：

3、获取公开语料；

4、基于神经网络构建新词挖掘模型，所述新词挖掘模型包括编码器和解码器；

5、对新词挖掘模型进行训练，以得到训练后的新词挖掘模型；

6、利用训练后的新词挖掘模型对公开语料进行推理，以得到新词词表。

7、可选的，在所述的基于神经网络的新词挖掘方法中，所述对新词挖掘模型进行训练，以得到训练后的新词挖掘模型的方法包括：

8、构建训练语料，所述训练语料包括文本序列；

9、利用编码器将文本序列转换为文本特征向量；

10、利用解码器从文本特征向量中获取词语片段。

11、可选的，在所述的基于神经网络的新词挖掘方法中，所述利用编码器将文本序列转换为文本特征向量的方法包括：

12、编码器对文本序列做独热编码，以得到初始向量；

13、对初始向量进行字嵌入处理和位置嵌入处理，以得到文本向量；

14、利用多头注意力机制，对文本向量进行多头自注意力计算，以得到结果向量；

15、将结果向量转换为文本特征向量。

16、可选的，在所述的基于神经网络的新词挖掘方法中，所述利用多头注意力机制，对文本向量进行多头自注意力计算，以得到结果向量的方法包括：

17、利用多头自注意力公式对文本向量进行计算，以得到注意力向量，其中，所述多头自注意力公式为：

18、

19、k＝wkep

20、v＝wvep

21、q＝wqep

22、其中，a为注意力向量，ep为文本向量，d为k的维度，wk、wv和wq为编码器需训练的参数；

23、对多次计算得到的注意力向量进行拼接，以得到结果向量。

24、可选的，在所述的基于神经网络的新词挖掘方法中，所述将结果向量转换为文本特征向量的方法包括：

25、对结果向量进行层归一化处理，并使用一层全连接层做前向传播，以得到特征向量；

26、对特征向量进行残差连接处理和层归一化处理，以得到文本特征向量。

27、可选的，在所述的基于神经网络的新词挖掘方法中，所述利用解码器从文本特征向量中获取词语片段的方法包括：

28、构建条件随机场映射矩阵；

29、利用条件随机场映射矩阵计算文本特征向量每个状态映射的条件概率，其中，所述文本特征向量每个状态映射的条件概率的计算公式为：

30、

31、其中，n表示最终状态y的候选个数，表示条件随机场映射矩阵中基于前一状态yi-1下的yi的概率，为解码器输出的结果中yi的概率，s(x,y)为文本特征向量当前状态下的输入x到最终状态y的映射概率；

32、从计算得到的所有条件概率中选取概率最大的标注序列，以得到词语片段。

33、可选的，在所述的基于神经网络的新词挖掘方法中，所述对新词挖掘模型进行训练，以得到训练后的新词挖掘模型的方法还包括：

34、设置损失函数，所述损失函数为：

35、

36、

37、其中，ygold表示真实标签，x表示样本，yx表示解码器生成的标签概率分布，p(ygold|x)表示样本x下真实标签ygold的概率；

38、利用损失函数做反向传播，以更新编码器中的各个参数。

39、可选的，在所述的基于神经网络的新词挖掘方法中，所述利用训练后的新词挖掘模型对公开语料进行推理，以得到新词词表的方法包括：

40、将公开语料分批次输入训练后的新词挖掘模型中，并利用维特比解码确定新词挖掘模型的最优解；

41、利用最优解获得词语片段；

42、从词语片段中提取词语以得到候选词表；

43、将候选词表中的公共词汇剔除，以得到新词词表。

44、为解决上述技术问题，本专利技术还提供一种基于神经网络的新词挖掘系统，用于实现如上任一项所述的基于神经网络的新词挖掘方法，所述基于神经网络的新词挖掘系统包括：

45、语料获取模块，用于获取公开语料；

46、新词挖掘模块，包括新词挖掘模型，用于对公开语料进行新词挖掘以得到新词词表；

47、词表存储模块，用于存储公共词汇和获得的新词词表。

48、可选的，在所述的基于神经网络的新词挖掘系统中，所述新词挖掘模型包括编码器、解码器和提取器；所述编码器用于将公开语料中的文本序列转换为文本特征向量；所述解码器用于从文本特征向量中获取词语片段；所述提取器用于从词语片段中提取出新词以得到新词词表。

49、本专利技术提供的基于神经网络的新词挖掘方法和系统，包括：获取公开语料；基于神经网络构建新词挖掘模型，所述新词挖掘模型包括编码器和解码器；对新词挖掘模型进行训练，以得到训练后的新词挖掘模型；利用训练后的新词挖掘模型对公开语料进行推理，以得到新词词表。本专利技术基于神经网络构建新词挖掘模型，通过对新词挖掘模型中的编码器和解码器进行训练，使得新词挖掘模型能够通过文本的上下文语义来识别词语，挖掘时硬件资源的需求不会随语料的增加而增加，此外，由于训练后的新词挖掘模型具有较高的鲁棒性，从而有效提高了新词挖掘的效率和准确率，解决了现有新词挖掘算法硬件资源需求大且挖掘效率低的问题。

本文档来自技高网...

【技术保护点】

1.一种基于神经网络的新词挖掘方法，其特征在于，包括：

2.根据权利要求1所述的基于神经网络的新词挖掘方法，其特征在于，所述对新词挖掘模型进行训练，以得到训练后的新词挖掘模型的方法包括：

3.根据权利要求2所述的基于神经网络的新词挖掘方法，其特征在于，所述利用编码器将文本序列转换为文本特征向量的方法包括：

4.根据权利要求3所述的基于神经网络的新词挖掘方法，其特征在于，所述利用多头注意力机制，对文本向量进行多头自注意力计算，以得到结果向量的方法包括：

5.根据权利要求3所述的基于神经网络的新词挖掘方法，其特征在于，所述将结果向量转换为文本特征向量的方法包括：

6.根据权利要求2所述的基于神经网络的新词挖掘方法，其特征在于，所述利用解码器从文本特征向量中获取词语片段的方法包括：

7.根据权利要求2所述的基于神经网络的新词挖掘方法，其特征在于，所述对新词挖掘模型进行训练，以得到训练后的新词挖掘模型的方法还包括：

8.根据权利要求1所述的基于神经网络的新词挖掘方法，其特征在于，所述利用训练后的新词挖掘模

9.一种基于神经网络的新词挖掘系统，用于实现如权利要求1～8任一项所述的基于神经网络的新词挖掘方法，其特征在于，所述基于神经网络的新词挖掘系统包括：

10.根据权利要求9所述的基于神经网络的新词挖掘系统，其特征在于，所述新词挖掘模型包括编码器、解码器和提取器；所述编码器用于将公开语料中的文本序列转换为文本特征向量；所述解码器用于从文本特征向量中获取词语片段；所述提取器用于从词语片段中提取出新词以得到新词词表。

...

【技术特征摘要】

1.一种基于神经网络的新词挖掘方法，其特征在于，包括：

2.根据权利要求1所述的基于神经网络的新词挖掘方法，其特征在于，所述对新词挖掘模型进行训练，以得到训练后的新词挖掘模型的方法包括：

3.根据权利要求2所述的基于神经网络的新词挖掘方法，其特征在于，所述利用编码器将文本序列转换为文本特征向量的方法包括：

5.根据权利要求3所述的基于神经网络的新词挖掘方法，其特征在于，所述将结果向量转换为文本特征向量的方法包括：

6.根据权利要求2所述的基于神经网络的新词挖掘方法，其特征在于，所述利用解码器从文本特征向量中获取词语片段的方法包...

【专利技术属性】
技术研发人员：许程冲，赵文博，肖清，吕召彪，
申请(专利权)人：联通广东产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人