基于容错粗糙集的多义词词表示方法、系统及介质技术方案

技术编号:24290012 阅读:84 留言:0更新日期:2020-05-26 20:12
本发明专利技术请求保护一种基于容错粗糙集的多义词词表示方法、系统及介质,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类);104、对于每个基词的不确定性函数集合,进行模糊聚类,计算每个基词的词义数量;105、构建连续词袋模型(CBOW),训练词向量。本发明专利技术主要是通过应用容错粗糙集模型,获取每个词语的词义数量,建立相应的连续词袋模型训练词向量,获取多义词的词表示,切实结合当下的技术发展需求。

Representation method, system and medium of polysemous words based on fault tolerant rough set

【技术实现步骤摘要】
基于容错粗糙集的多义词词表示方法、系统及介质
本专利技术属于深度学习、人工智能技术、自然语言处理领域,是自然语言处理中的词表示方法。
技术介绍
单词作为语言的基本单元,其表示学习一直是自然语言处理的的核心基础问题。传统上,自然语言处理系统把词编码成字符串。这种方式是随意确定的,且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是自然语言处理领域的一个替代方案。它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。例如,让我们看看四个词:“woman”(女人)、“man”(男人)、“queen”(女王)和“king”(国王)。我们把它们都向量化,再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后,这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近[43,44]:e("woman")-e("man")≈e("queen")-e("king")Google在2013年推出开源工具包word2vec就是通过训练好的词向量,制定一个词看看有返回和它余弦距离最近的词并排序,即我们可以利用词表示去找同义词。同时可以把词表示结果作为神经网络的输入层,通过前馈网络和卷积网络应用于词性标注和语义角色标注任务。词表示算法是自然语言处理的基础,以Word2Vec为代表的现有的词表示研究模型,已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是,词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中,每个词语对应一个向量,但是在实际情况下,词语中存在着大量的一词多义现象。根据“上下文相似,其语义也相似”的分布式假说,对于和每个词语经常共同出现在同一个上下文中的词语,其意思也是相近的,而由于每个词语的词义不同,出现的上下文的内容也是有区别的。通过利用容错粗糙集模型,根据每个词语的实际情况,分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类),再对其容错类进行聚类,那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于容错粗糙集的多义词词表示方法、系统及介质,具体方法如下:一种基于容错粗糙集的多义词词表示方法,其包括以下步骤:101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;103、计算机获取每个基词的不确定性函数即容错类;104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。进一步的,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:1)删除文档的页眉页脚,只取实际内容部分;2)去除标点符号和数字;3)将词语中的大写转换为小写。进一步的,所述步骤102确定语料库的基词集合,主要操作如下:1)统计语料库中出现的所有词语;2)将所有词语作为基词即需要训练词向量的词语,基词集合为W={w1,w2,...,wn},其中n表示基词的数量,wn表示基词中的第n个词语。进一步的,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;2)计算每个基词的不确定性函数Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci,其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值。在后面的内容中,用ci表示词语wi的容错类。进一步的,所述步骤104计算每个词语的词义数量具体包括:1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。2)确定词语的词义数量其中,sim(vi,vj)表示向量vi与vj之间的余弦相似度:μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:进一步的,所述步骤105构建连续词袋模型CBOW,训练词向量,具体步骤如下:1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为其中,wi-R和wi+R分别为wi的第R个上下文单词、v(coni)表示coni的向量表示。出现单词不为wi的概率为P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))其中,2)对于一序列词语W={w1,w2,...,wn},目标函数为其中,wi'是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D—是词语-上下文对(wi',coni)。3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:①计算当前目标函数的梯度:②计算当前位置的上升距离:其中,α为步长。③进行参数更新:若θ小于某个阈值ε,则停止迭代,算法终止。一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述任一项的方法。一种基于容错粗糙集的多义词词表示系统,其包括:预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练。9本文档来自技高网
...

【技术保护点】
1.一种基于容错粗糙集的多义词词表示方法,其特征在于,包括以下步骤:/n101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;/n102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;/n103、计算机获取每个基词的不确定性函数即容错类;/n104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;/n105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。/n

【技术特征摘要】
1.一种基于容错粗糙集的多义词词表示方法,其特征在于,包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;
103、计算机获取每个基词的不确定性函数即容错类;
104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;
105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。


2.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写。


3.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。


4.根据权利要求3所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci,
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值,在后面的内容中,用ci表示词语wi的容错类。


5.根据权利要求4所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤104计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值



其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量



其中,



sim(vi,vj)表示向量vi与vj之间的余弦相似度:



...

【专利技术属性】
技术研发人员:邱东江海欢
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1