文本中多义性单词的标注方法、设备、处理器和存储介质技术

技术编号：28839266 阅读：44 留言：0更新日期：2021-06-11 23:37

本发明专利技术涉及一种文本中多义性单词的标注方法、设备、处理器和存储介质；所述方法包括输入待处理的原始语料库；训练上下文相关词嵌入模型，获得上下文相关向量；根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注；输出标注多义性的伪文档。本发明专利技术利用上下文相关词嵌入模型，通过对多义性单词的不同语义进行标注，消除多种语义的歧义，相较于没有考虑单词多义性的文本来说，对后续文本处理，文本分类，主题模型等任务的准确度有较大的提升。

全部详细技术资料下载

【技术实现步骤摘要】
文本中多义性单词的标注方法、设备、处理器和存储介质
本专利技术涉及自然语言处理
，尤其是指一种文本中多义性单词的标注方法、设备、处理器和存储介质。
技术介绍
词嵌入模型(wordembeddings)常被用于各类自然语言处理任务中，例如文本挖掘、情感分析、文本分类等。常见的词嵌入模型，如word2vec和GloVe，只能为每一个单词学习一个向量，忽略了不同上下文中的单词多义性问题，例如，“apple”这个词可以有多种语义:在“Ilikeeatingapples”这句话中，它指的是一种水果；当出现在“WewenttotheApplestoreyesterday”这句话中时，它指的是一家科技公司的名字。这一现象可归结为单词多义性问题。近年来研究表明，在开展自然语言处理任务时，考虑单词的多义性问题能有效提升模型的效果。一般来说，针对同一个单词在不同上下文中学习不同的词向量，主要由三类学习范式：Two-stagemodels、Jointmodels和Contextualizedwordembeddings。其中，Two-stagemode本文档来自技高网...

【技术保护点】
1.一种文本中多义性单词的标注方法，其特征在于：包括输入待处理的原始语料库；训练上下文相关词嵌入模型，获得上下文相关向量；根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注；输出标注多义性的伪文档。/n

【技术特征摘要】
1.一种文本中多义性单词的标注方法，其特征在于：包括输入待处理的原始语料库；训练上下文相关词嵌入模型，获得上下文相关向量；根据上下文相关向量搭建语义向量生成算法，区分每个单词的多个含义，并对原始语料库进行标注；输出标注多义性的伪文档。

2.根据权利要求1所述的文本中多义性单词的标注方法，其特征在于：所述上下文相关词嵌入模型为ELMo，利用ELMo算法具体的计算方式如下：

式中γ为调节矢量尺度的参数；sj为第j层softmax归一化权值的参数；是前向和后向的第j个隐层。

3.根据权利要求1所述的文本中多义性单词的标注方法，其特征在于：搭建所述语义向量生成算法的过程为：
输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε
初始化dic为空
foreachdocumentdinDdo
fori←0tolen(d)-1do
若当前语义不在字典dic中，
将的语义赋给wi#s；
将赋给
将添加到字典中；
将wi#s添加到pdi中；
否则，
初始化minDist＝1和minIndex＝0；
初始化found＝False；

4.根据权利要求3所述的文本中多义性单词的标注方法，其特征在于：计算两个语义向量的余弦距离，表示为计...

【专利技术属性】
技术研发人员：陆恒杨，黄渊卓，方伟，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人