一种词的表示方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:28217106 阅读:12 留言:0更新日期:2021-04-28 09:31
本申请实施例公开了一种词的表示方法、装置、设备及计算机可读存储介质,其中,所述方法包括:获取待表示词的词根;当训练好的向量模型中不存在所述待表示词的词根对应的向量表示时,以单纯词为分解粒度对所述待表示词进行分解,得到单纯词集合;根据所述向量模型获取所述单纯词集合中各个单纯词的向量表示;根据所述各个单纯词的向量表示,确定所述待表示词的词向量表示。的词向量表示。的词向量表示。

【技术实现步骤摘要】
一种词的表示方法、装置、设备及计算机可读存储介质


[0001]本申请实施例涉及数据处理
,涉及但不限于一种词的表示方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]词向量(word embedding)是词语的特征表示,通过语义词典或机器学习技术将每个词语表示为固定长度的向量。目前,词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。
[0003]罕见词(rare words)又称稀有词或生僻词,是指较少被使用或不经常出现的词。现有技术中,通常以词向量算法训练词的向量表示或借助外部语义词典(WordNet)来推测罕见词的词向量。其中,在词向量算法训练词中,以一个词语在语料库中所出现位置的上下文词语集合作为神经网络的输入,经过不断迭代得到中心词的向量化表达。但是对于罕见词,由于语料库中出现频率较低,难以得到充分的训练,使得罕见词语义表达的准确性相对非罕见词出现大幅下降,甚至无法得到罕见词的词向量;而借助WordNet来推测罕见词的词向量时,受限于WordNet的收录范围,一旦罕见词没有在WordNet出现,借助WordNet来推测罕见词的词向量方法就不会再起作用,而本身WordNet包含的是通用领域中的常见词语,对于一些领域专属词并没有收录。现有技术并没有很好的得到罕见词的词向量的方法,即使能得到罕见词的向量表示,其语义表达准确性也较低。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种词的表示方法、装置、词的表示设备及计算机可读存储介质。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供一种词的表示方法,所述方法包括:
[0007]获取待表示词的词根;
[0008]当训练好的向量模型中不存在所述待表示词的词根对应的向量表示时,以单纯词为分解粒度对所述待表示词进行分解,得到单纯词集合;
[0009]根据所述向量模型获取所述单纯词集合中各个单纯词的向量表示;
[0010]根据所述各个单纯词的向量表示,确定所述待表示词的词向量表示。
[0011]第二方面,本申请实施例提供一种词的表示装置,包括:
[0012]第一获取模块,用于获取待表示词的词根;
[0013]分解模块,用于当训练好的向量模型中不存在所述待表示词的词根对应的向量表示时,以单纯词为分解粒度对所述待表示词进行分解,得到单纯词集合;
[0014]第二获取模块,用于根据所述向量模型获取所述单纯词集合中各个单纯词的向量表示;
[0015]确定模块,用于根据所述各个单纯词的向量表示,确定所述待表示词的词向量表
示。
[0016]第三方面,本申请实施例提供一种词的表示设备,所述设备包括:
[0017]处理器;以及
[0018]存储器,用于存储可在所述处理器上运行的计算机程序;
[0019]其中,所述计算机程序被处理器执行时实现上述所述词的表示方法的步骤。
[0020]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述所述的词的表示方法的步骤。
[0021]本申请实施例提供的词的表示方法、装置、设备及计算机可读存储介质,当待表示词(如罕见词)的词根不在训练好的向量模型中时,将待表示词分解得到单纯词集合,通过在向量模型获取单纯词集合中各个单纯词的向量表示进而确定待表示的词。因单纯词仅有一个词义,通过单纯词对应的向量表示来获取待表示词的向量表示,从而实现了待表示词的词向量的语义更准确的表达。
附图说明
[0022]在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
[0023]图1为相关技术中提供的CBOW模型的结构示意图;
[0024]图2为相关技术中提供的Skip-gram模型的结构示意图;
[0025]图3为本申请实施例提供的词的表示方法流程示意图;
[0026]图4为本申请实施例提供的改进的CBOW模型结构示意图;
[0027]图5为本申请实施例中提供的获取单纯词集合中各个单纯词的向量表示的流程示意图;
[0028]图6为本申请实施例提供的词的表示方法流程示意图;
[0029]图7为本申请实施例提供的词的表示装置的组成结构示意图;
[0030]图8为本申请实施例提供的词的表示设备的组成结构示意图。
具体实施方式
[0031]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0032]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0033]如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0034]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的

技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0035]为了更好地理解本申请实施例中提供的词的表示方法、装置、设备及计算机可读存储介质,首先,对相关技术中的词表示方法的实现方式及存在的问题进行分析说明。
[0036]词向量的表示方法主要分为独热表示(One-hot representation)和分布式表示(Distributed representation)两种,其中,分布式表示是目前表示词语特征的最常用方式。
[0037]分布式表示的词向量模型中,最为知名的是词到向量(word2vec,word to vector)模型。word2vec是Google推出的一款基于深度学习(Deep Learning)的开源的学习工具。word2vec是通过在给定语料库上训练一个模型,将单词转换成向量形式的工具。词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。通过词向量训练,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上词与词之间的相关度,来表示词语语义上的相关度。
[0038]word2vec包含了两种训练模型,分别为连续词带(CBOW,Conti本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词的表示方法,其特征在于,所述方法包括:获取待表示词的词根;当训练好的向量模型中不存在所述待表示词的词根对应的向量表示时,以单纯词为分解粒度对所述待表示词进行分解,得到单纯词集合;根据所述向量模型获取所述单纯词集合中各个单纯词的向量表示;根据所述各个单纯词的向量表示,确定所述待表示词的词向量表示。2.根据权利要求1所述的方法,其特征在于,所述以单纯词为分解粒度对所述待表示词进行分解,得到单纯词集合,包括:以单纯词为分解粒度对所述待表示词进行分解,得到第一分解结果;当确定所述第一分解结果中的单纯词为所述待表示词时,将所述待表示词转换为第二语种,得到第二语种待表示词;将所述第二语种待表示词转换为第一语种,得到目标词;其中,所述目标词与所述待表示词为第一语种;将所述目标词进行分解,得到第二分解结果,并根据所述第二分解结果中的单纯词得到单纯词集合。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当确定所述第一分解结果中的单纯词不是待表示词时,获取所述第一分解结果中的单纯词;根据所述第一分解结果中的单纯词得到单纯词集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述向量模型获取所述单纯词集合中各个单纯词的向量表示,包括:获取所述单纯词集合中的第i个单纯词,i=1,2,

,N,所述单纯词集合中共有N个单纯词;判断在所述向量模型中是否存在所述第i个单纯词对应的向量表示;当在所述向量模型中存在所述第i个单纯词对应的向量表示时,获取所述第i单纯词的向量表示。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:...

【专利技术属性】
技术研发人员:李小涛游树娟
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1