当前位置: 首页 > 专利查询>江南大学专利>正文

文本中多义性单词的标注方法、设备、处理器和存储介质技术

技术编号:28839266 阅读:44 留言:0更新日期:2021-06-11 23:37
本发明专利技术涉及一种文本中多义性单词的标注方法、设备、处理器和存储介质;所述方法包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。本发明专利技术利用上下文相关词嵌入模型,通过对多义性单词的不同语义进行标注,消除多种语义的歧义,相较于没有考虑单词多义性的文本来说,对后续文本处理,文本分类,主题模型等任务的准确度有较大的提升。

【技术实现步骤摘要】
文本中多义性单词的标注方法、设备、处理器和存储介质
本专利技术涉及自然语言处理
,尤其是指一种文本中多义性单词的标注方法、设备、处理器和存储介质。
技术介绍
词嵌入模型(wordembeddings)常被用于各类自然语言处理任务中,例如文本挖掘、情感分析、文本分类等。常见的词嵌入模型,如word2vec和GloVe,只能为每一个单词学习一个向量,忽略了不同上下文中的单词多义性问题,例如,“apple”这个词可以有多种语义:在“Ilikeeatingapples”这句话中,它指的是一种水果;当出现在“WewenttotheApplestoreyesterday”这句话中时,它指的是一家科技公司的名字。这一现象可归结为单词多义性问题。近年来研究表明,在开展自然语言处理任务时,考虑单词的多义性问题能有效提升模型的效果。一般来说,针对同一个单词在不同上下文中学习不同的词向量,主要由三类学习范式:Two-stagemodels、Jointmodels和Contextualizedwordembeddings。其中,Two-stagemode本文档来自技高网...

【技术保护点】
1.一种文本中多义性单词的标注方法,其特征在于:包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。/n

【技术特征摘要】
1.一种文本中多义性单词的标注方法,其特征在于:包括输入待处理的原始语料库;训练上下文相关词嵌入模型,获得上下文相关向量;根据上下文相关向量搭建语义向量生成算法,区分每个单词的多个含义,并对原始语料库进行标注;输出标注多义性的伪文档。


2.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:所述上下文相关词嵌入模型为ELMo,利用ELMo算法具体的计算方式如下:



式中γ为调节矢量尺度的参数;sj为第j层softmax归一化权值的参数;是前向和后向的第j个隐层。


3.根据权利要求1所述的文本中多义性单词的标注方法,其特征在于:搭建所述语义向量生成算法的过程为:
输入原始语料库D,每个单词及其对应的语义上下文相关向量的字典dic,余弦距离阈值ε
初始化dic为空
foreachdocumentdinDdo
fori←0tolen(d)-1do
若当前语义不在字典dic中,
将的语义赋给wi#s;
将赋给
将添加到字典中;
将wi#s添加到pdi中;
否则,
初始化minDist=1和minIndex=0;
初始化found=False;





4.根据权利要求3所述的文本中多义性单词的标注方法,其特征在于:计算两个语义向量的余弦距离,表示为计...

【专利技术属性】
技术研发人员:陆恒杨黄渊卓方伟
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1