本发明专利技术公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,包括步骤一:对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中目标多义词语按照聚类簇类别标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤二:对目标短文本预处理获得短文本词语序列,识别词语序列中目标多义词语,计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度,将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。本发明专利技术解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。
【技术实现步骤摘要】
基于CRP聚类的词语多原型向量表示及词义消歧方法
本专利技术涉及自然语言处理领域,特别涉及一种基于CRP聚类的词语多原型向量表示及词义消歧方法。
技术介绍
在自然语言处理领域的众多任务中,面临的基本问题是如何将语言符号表示为机器可以处理的编码模式。对语言符号进行映射表示,将词语、句子、文本等表示为一个连续的低维向量,实现词语、句子、文本的语义向量化表示,在信息检索、短文本分类、命名实体识别、情感分析、推荐引擎、自动文本摘要等任务有广泛应用。词语是语言的最基本组成单元,词语的向量化表示在自然语言处理任务中有着广泛的应用。一种简单的词语向量表示是One-hotRepresentation,这种表示方法的缺点是向量维数等于所有词语的数目,存在维数灾难问题,也不能刻画词语之间的语义联系,同时对于多义词语也不能反应出不同的语义表达。词语的词向量表示(WordEmbedding或WordRepresentation)是一种固定长度的低维实数向量表示,通过对海量文本的训练学习,得到每个词语唯一的向量表示,特点是相似或者相关的词语在距离上更接近了。但是由于词语中多义词语的存在,同一个词语符号在不同的上下文语境可能反映不同的语义,大多数传统的词语词向量表示只对应唯一的词向量表示,不能有效的表达多义词语的不同词义。多义词语的每个词义应该对应的一个向量表示。词语多原型向量表示对于多义词语的每个词义都对应一个词向量表示,能提高词语表示的精确性。获得词语不同词义的向量表示,通常使用基于聚类的模型,通过聚类词语上下文来进行词义归纳,对原文词语的上下文直接进行聚类或者利用跨语言知识进行语义映射后聚类,再训练获得词语在不同上下文语境中具体词义对应的词向量表示。基于k-means聚类算法及神经网络语言模型训练获得多义词语词向量表示的方法,参数k(聚类类别)的大小需要根据多义词语词义个数来选择不同的数值。而基于CRP聚类的词语多原型向量表示训练过程不需要事先指定聚类类别数目,符合不同的多义词语在上下文中词义数目不一致的实际情况。高质量的词语词义表示能捕获丰富的语义和句法信息,有助于词义消歧。高质量的词义消歧能更好地学习词语词义的表示。词义消歧主要方法有两类:基于外部知识库方法和基于语料库的方法。基于外部知识库方法,借助外部知识库(WordNet或HowNet)对词语不同语义的解释或描述,来辨析识别多义词语具体的语义,但外部知识库或词典的构建需要耗费大量的人力物力。基于语料库的方法,以语料库为知识资源,通过自动或半自动的学习确定词语在给定上下文中的具体词义,从而实现词义消歧。对语句中的多义词语,利用文本语料库,基于获得的词语多原型向量表示,通过给出的词义消歧方法获得词语在上下文中特定词义,有助于提高词语及语句的表示效率。互联网技术及移动应用逐渐普及日常的生活,人们使用移动终端进行信息传递和交流沟通变得越来越普遍,由此产生了海量的数据,例如新闻标题、微博信息、购物平台的商品或服务描述、论坛评论、智能交互应用以及社交对话消息等,这些数据通常由文字构成,长度较短,是一种典型的短文本形式,这种短文本数据含有大量高价值的信息,具有很高的研究价值。利用机器对互联网上海量的短文本数据进行有效的处理和理解已成为自然语言处理和机器学习领域重要的研究难点和热点。在信息检索的相似度计算中,词语多原型向量表示及词义消歧方法能够区分检索对象中多义词语的具体词义,提高词语表示及计算的准确性。为信息检索领域中的短文本检索提供一种有效的词语语义表示及词义消歧方法,为语义计算提供技术支持。
技术实现思路
本专利技术的目的是克服上述现有技术中存在的问题,提供一种基于CRP聚类的词语多原型向量表示及词义消歧方法,其词语多原型向量表示对于多义词语的每个词义都对应一个词向量表示,解决了词语表示中一词多义的表示问题,其基于词语多原型向量表示的词义消歧方法解决了词义表示中的歧义识别问题。本专利技术的技术方案是:基于CRP聚类的词语多原型向量表示及词义消歧方法,包括如下步骤:步骤S1,对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中的目标多义词语按照聚类簇类别进行标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤S2,对目标短文本进行预处理获得短文本的词语序列,识别词语序列中的目标多义词语,计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,将相似度最大值的聚类簇类别所对应词向量表示,作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。上述步骤S1所述的对海量文本语料集中的文本进行提纯预处理获得纯文本,包括:删除字数少于预设阈值的文本;繁体字统一转化为简体字;利用中英文缩写字典,对文本语料中英文缩写使用中文词语进行替换;对文本语料集中的文本进行分词;去除停用词;删除非中文字符和数字外的其他字符;统计词频;高频词语的词频预设为上限阈值;选择文本语料集中出现次数大于预设下限阈值的词语建立词语表;基于多义词词典建立多义词词语表。上述步骤S1中所述的目标多义词语的上下文窗口表示,其方法是由词语上下文中词语的词向量进行平均来得到,具体计算公式为:其中,veC为词语的上下文窗口表示,wi为词语上下文窗口词语集合Context中的第i个词语,vec(wi)为词语wi的初始词向量。上述步骤S1所述的基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,其表示方法包括如下步骤:步骤S101,获取所述的多义词语在文本语料集中所有样本的上下文窗口表示;步骤S102,获得CRP聚类算法的初始聚类簇质心,取随机一个样本作为CRP聚类的初始聚类簇质心,或者基于k-means算法对多义词语的上下文窗口表示进行初始聚类,将包含最多数量样本的聚类簇质心作为初始聚类簇质心;步骤S103,对所述的多义词语所有样本的上下文窗口表示,对于所有的聚类簇,计算每个样本和每个聚类簇质心之间的相似度,获得第i个样本与第t个聚类簇质心间的最大相似度Smax;如果Smax大于预设阈值α,则将第i个样本划分到第t个聚类簇,聚类簇t中的样本数量加1,重新计算第t个聚类簇的质心;否则,生成新聚类簇,聚类簇总数目K增加1,新聚类簇中样本数量为1,新聚类簇的质心为样本i;步骤S104,获得每个聚类簇中的样本、聚类簇的质心以及聚类簇的总数。上述步骤S1所述的在标记的文本语料集上训练获得多义词语的多原型向量表示,其表示方法包括如下步骤:步骤S201,对文本语料集中所述目标多义词语的所有样本,按照所属的聚类簇进行标记,不同的聚类簇代表目标词语不同的词义;步骤S202,在标记的聚类簇上执行基于神经网络语言模型的词语词向量表示训练过程,得到词语在不同上下文中表达特定词义的多原型向量表示。上述步骤S2所述的对多义词进行词义消歧,包括如下步骤:步骤S301,对所述的目标短文本进行预处理,获得短文本的词语序列,根据词语的多原型向量表示识别所述词语序列中的多义词语;步骤S302,对所述的多义词语进行词义消歧,计算词语在短文本词语序列中的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,提取出相似度最大值的聚类本文档来自技高网...
【技术保护点】
1.基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,包括如下步骤:步骤S1,对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中的目标多义词语按照聚类簇类别进行标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤S2,对目标短文本进行预处理获得短文本的词语序列,识别词语序列中的目标多义词语,计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,将相似度最大值的聚类簇类别所对应词向量表示,作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。
【技术特征摘要】
1.基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,包括如下步骤:步骤S1,对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中的目标多义词语按照聚类簇类别进行标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤S2,对目标短文本进行预处理获得短文本的词语序列,识别词语序列中的目标多义词语,计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,将相似度最大值的聚类簇类别所对应词向量表示,作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。2.如权利要求1所述的基于CRP聚类的词语多原型表示及词义消歧方法,其特征在于,步骤S1所述的对海量文本语料集中的文本进行提纯预处理获得纯文本,包括:删除字数少于预设阈值的文本;繁体字统一转化为简体字;利用中英文缩写字典,对文本语料中英文缩写使用中文词语进行替换;对文本语料集中的文本进行分词;去除停用词;删除非中文字符和数字外的其他字符;统计词频;高频词语的词频预设为上限阈值;选择文本语料集中出现次数大于预设下限阈值的词语建立词语表;基于多义词词典建立多义词词语表。3.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S1中所述的目标多义词语的上下文窗口表示,其方法是由词语上下文中词语的词向量进行平均来得到,具体计算公式为:其中,veC为词语的上下文窗口表示,wi为词语上下文窗口词语集合Context中的第i个词语,vec(wi)为词语wi的初始词向量。4.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S1所述的基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,其表示方法包括如下步骤:步骤S101,获取所述的多义词语在文本语料集中所有样本的上下文窗口表示;步骤S102,获得CRP聚类算法的初始聚类簇质心,取随机一个样本作为CRP聚类的初始聚类簇质心,或者基于k-means算法对...
【专利技术属性】
技术研发人员:李国佳,郭鸿奇,杨喜亮,王国卿,杨振中,
申请(专利权)人:华北水利水电大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。