基于容错粗糙集的多义词词表示方法、系统及介质技术方案

技术编号：24290012 阅读：84 留言：0更新日期：2020-05-26 20:12

本发明专利技术请求保护一种基于容错粗糙集的多义词词表示方法、系统及介质，包括：101、计算机获取语料库，并对语料库进行预处理操作；102、计算机确定语料库的基词集合；103、计算机获取每个基词的不确定性函数(容错类)；104、对于每个基词的不确定性函数集合，进行模糊聚类，计算每个基词的词义数量；105、构建连续词袋模型(CBOW)，训练词向量。本发明专利技术主要是通过应用容错粗糙集模型，获取每个词语的词义数量，建立相应的连续词袋模型训练词向量，获取多义词的词表示，切实结合当下的技术发展需求。

Representation method, system and medium of polysemous words based on fault tolerant rough set

全部详细技术资料下载

【技术实现步骤摘要】
基于容错粗糙集的多义词词表示方法、系统及介质
本专利技术属于深度学习、人工智能技术、自然语言处理领域，是自然语言处理中的词表示方法。
技术介绍
单词作为语言的基本单元，其表示学习一直是自然语言处理的的核心基础问题。传统上，自然语言处理系统把词编码成字符串。这种方式是随意确定的，且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是自然语言处理领域的一个替代方案。它把词或短语映射成实数向量，把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。例如，让我们看看四个词：“woman”(女人)、“man”(男人)、“queen”(女王)和“king”(国王)。我们把它们都向量化，再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后，这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近[43,44]：e("woman")-e("man")≈e("queen")-e("king")Google在2013年推出开源工具包word2vec就是通过训练好的词向量，制定一个词看看有返回和它余弦距离最近的词并排序，即我们可以利用词表示去找同义词。同时可以把词表示结果作为神经网络的输入层，通过前馈网络和卷积网络应用于词性标注和语义角色标注任务。词表示算法是自然语言处理的基础，以Word2Vec为代表的现有的词表示研究模型，已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但...

【技术保护点】
1.一种基于容错粗糙集的多义词词表示方法，其特征在于，包括以下步骤：/n101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；/n102、计算机对预处理后的语料库确定基词集合，基词表示需要训练词向量的词语；/n103、计算机获取每个基词的不确定性函数即容错类；/n104、计算机对于每个基词的不确定性函数集合，采用模糊聚类算法进行聚类，计算每个基词的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量；/n105、计算机构建连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量。/n

【技术特征摘要】
1.一种基于容错粗糙集的多义词词表示方法，其特征在于，包括以下步骤：
101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；
102、计算机对预处理后的语料库确定基词集合，基词表示需要训练词向量的词语；
103、计算机获取每个基词的不确定性函数即容错类；
104、计算机对于每个基词的不确定性函数集合，采用模糊聚类算法进行聚类，计算每个基词的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量；
105、计算机构建连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量。

2.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤101读取语料库，并对语料库进行预处理操作，具体包括：
1)删除文档的页眉页脚，只取实际内容部分；
2)去除标点符号和数字；
3)将词语中的大写转换为小写。

3.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤102确定语料库的基词集合，主要操作如下：
1)统计语料库中出现的所有词语；
2)将所有词语作为基词即需要训练词向量的词语，基词集合为
W＝{w1,w2,...,wn}，
其中n表示基词的数量，wn表示基词中的第n个词语。

4.根据权利要求3所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤103获取每个基词的不确定性函数即容错类，包括步骤：
1)设语料库由集合D＝{d1,d2,...,dv}组成，其中di表示第i个文档；
2)计算每个基词的不确定性函数
Iθ(wi)＝{wj|fD(wi,wj)≥θ}∪{wi}＝ci，
其中Iθ(wi)表示词语wi的容错类，fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量，θ是词语共现度阈值，在后面的内容中，用ci表示词语wi的容错类。

5.根据权利要求4所述的一种基于容错粗糙集的多义词词表示方法，其特征在于，所述步骤104计算每个词语的词义数量具体包括：
1)由容错粗糙集计算出的词语wi不确定性函数集合ci，向量表示为集合中所有词语向量的平均值

其中，vcontext(ci)表示ci的向量表示，v(c)表示词语c的词向量，c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量

其中，

sim(vi,vj)表示向量vi与vj之间的余弦相似度：

...

【专利技术属性】
技术研发人员：邱东，江海欢，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人