一种基于神经网络的多义词识别方法技术

技术编号:23161700 阅读:90 留言:0更新日期:2020-01-21 21:59
本发明专利技术提供一种基于神经网络的多义词识别方法,属于数据挖掘和自然语言处理领域。该方法主要利用了文本中上下文的语义来识别多义词并生成多义词表示,包括五个步骤:1)预处理语料;2)预训练词表示;3)提取上下文;4)识别多义词;5)多义词表示的选择。本发明专利技术充分利用了词向量的优良特性,通过词的上下文语义差异来自动标识出多义词。同时,在具体的任务中,该发明专利技术也提供了通过多义词的上下文来选择多义词表示的方法,不仅提升了文本表示的质量,也提高了任务的准确率。此外,本发明专利技术的实施流程较为简便,具有良好的适用性。

【技术实现步骤摘要】
一种基于神经网络的多义词识别方法
本专利技术属于数据挖掘和自然语言处理领域,特别涉及一种基于神经网络的多义词识别方法,具体可以应用在文本分类和情感分析等多项自然语言处理任务中。
技术介绍
在数据挖掘和自然语言处理领域,词表示是一项基础而又重要的工作。近年来,基于神经网络的方法来学习词的分布式表示备受关注。其中,著名的word2vec模型更是凭借着高效性和易用性脱颖而出。Word2vec的原理是使用目标词的上下文来训练目标词,并将意思相近的词映射成向量空间中相近的点。该模型已经在很多基于生成高质量的词表示的任务中取得了成功,例如语言建模、文本理解和机器翻译等。多义词识别是自然语言处理中一个热门的研究问题。多义词是指具有两个或更多意义的词,它们大多是一些和生活关系最密切的常用词,以动词与形容词居多。多义词在比拟、比喻、借代等修辞中,因其“多义”的特点,可以得到良好的表达效果。多义词识别任务就是让计算机能够自动的识别出给定的段落或句子中存在的多义词,并赋予该词更精确的词表示。多义词识别具有很重要的意义,它不仅能够提高词表示和段表示的质量,也能本文档来自技高网...

【技术保护点】
1.一种基于神经网络的多义词识别方法,其特征在于,包括以下步骤:/n第一步,预处理语料/n1.1)选择自然语言处理任务中的语料库,删除文本中的特殊字符和不可识别字符;/n第二步,预训练词表示/n2.1)对预处理后的语料使用词向量训练工具预训练词向量;/n2.2)预训练结束后,保存词-词向量映射表;/n第三步,提取上下文/n3.1)定义一个新的上下文窗口,并重新扫描整个语料库,提取每个词在不同句子中的上下文;/n3.2)统计每个词对应的上下文中的词,并删除重复的词,为每个词生成其对应的上下文词典;该词典的每一行记录的是一个词的上下文中出现的词的集合;/n3.3)将步骤3.2)中的每个上下文词典与...

【技术特征摘要】
1.一种基于神经网络的多义词识别方法,其特征在于,包括以下步骤:
第一步,预处理语料
1.1)选择自然语言处理任务中的语料库,删除文本中的特殊字符和不可识别字符;
第二步,预训练词表示
2.1)对预处理后的语料使用词向量训练工具预训练词向量;
2.2)预训练结束后,保存词-词向量映射表;
第三步,提取上下文
3.1)定义一个新的上下文窗口,并重新扫描整个语料库,提取每个词在不同句子中的上下文;
3.2)统计每个词对应的上下文中的词,并删除重复的词,为每个词生成其对应的上下文词典;该词典的每一行记录的是一个词的上下文中出现的词的集合;
3.3)将步骤3.2)中的每个上下文词典与相应的词作映射,构建词-上下文词典映射表;
第四步,识别多义词
4.1)加载步骤3.3)得到的词-上下文词典映射表,对映射表中每个词对应的上下文分别进行k-means聚类,k≥2;聚类操作前,上下文中的词需要按照步骤2.2)得到的词-词向量映射表转换成相应的词向量形式;聚类操作后,得到上下文词典中每个词所属的类别,以及每一个类别的中心向量;
4.2)使用聚类评估算法对映射表中每个词的上下文的聚类结果进行评估;聚类评估算法需要以参与聚类的词表示和词所属的类别作为输入,输出为一个评估值;当一个词的上下文的评估结果大于预先定义的阈值,则判定该词为多义词;
4.3)输出多义词,并使用该多义词在步骤4.1)中得到的每个类别的中心向量作为不同词义的词表示;
第五步,多义词表示的选择
5.1)重新扫描语料库中的词,一旦目标词出现在多义词表中,就需要为该多义词选择符合当前上下文语义的词表示;
5.2)使用上下文窗口获取该多义词的上下文;
5.3)从步骤2.2)中的词-词向量映射表中获取该上下文中词的词向量,并计算他们的算数平均作为上下文向量;
5.4)分别计算该词的上下文向量和其不同词义的词表示之间的距离;
5.5)最终选择与该上下文向量距离最近的多义词向量作为该多义词在当前上下文中的词表示。
<...

【专利技术属性】
技术研发人员:姚念民郭顺
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1