【技术实现步骤摘要】
文本中多义性单词的标注方法、设备、处理器和存储介质
本专利技术涉及自然语言处理
,尤其是指一种文本中多义性单词的标注方法、设备、处理器和存储介质。
技术介绍
词嵌入模型(wordembeddings)常被用于各类自然语言处理任务中,例如文本挖掘、情感分析、文本分类等。常见的词嵌入模型,如word2vec和GloVe,只能为每一个单词学习一个向量,忽略了不同上下文中的单词多义性问题,例如,“apple”这个词可以有多种语义:在“Ilikeeatingapples”这句话中,它指的是一种水果;当出现在“WewenttotheApplestoreyesterday”这句话中时,它指的是一家科技公司的名字。这一现象可归结为单词多义性问题。近年来研究表明,在开展自然语言处理任务时,考虑单词的多义性问题能有效提升模型的效果。一般来说,针对同一个单词在不同上下文中学习不同的词向量,主要由三类学习范式:Two-stagemodels、Jointmodels和Contextualizedwordembeddings。其中,Two ...
【技术保护点】
1.一种文本中多义性单词的标注方法,其特征在于:包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。/n
【技术特征摘要】
1.一种文本中多义性单词的标注方法,其特征在于:包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。
2.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:所述上下文相关词嵌入模型为ELMo,利用ELMo算法具体的计算方式如下:
式中γ为调节矢量尺度的参数;sj为第j层softmax归一化权值的参数;是前向和后向的第j个隐层。
3.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:搭建所述语义向量生成算法的过程为:
输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε
初始化dic为空
foreachdocumentdinDdo
fori←0tolen(d)-1do
若当前语义不在字典dic中,
将的语义赋给wi#s;
将赋给
将添加到字典中;
将wi#s添加到pdi中;
否则,
初始化minDist=1和minIndex=0;
初始化found=False;
4.根据权利要求3所述的文本中多义性单词的标注方法,其特征在于:计算两个语义向量的余弦距离,表示为计...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。