当前位置: 首页 > 专利查询>清华大学专利>正文

字词词义处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27743534 阅读:34 留言:0更新日期:2021-03-19 13:37
本发明专利技术提供一种字词词义处理方法、装置、电子设备及存储介质,该方法包括:获取目标文本中待处理的目标字词,确定所述目标字词的各候选词义,所述目标字词具备多个词义,候选词义包括多个词义的部分或全部;根据各候选词义的标注信息,确定各候选词义对应的同义词集合;根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义。本发明专利技术提供的字词词义处理方法、装置、电子设备及存储介质,通过确定字词的候选词义,并找到具备候选词义的同义词,根据同义词在目标文本上的匹配结果,从候选词义中确定出词义作为目标字词的词义,能够高效对字词进行词义消歧。

【技术实现步骤摘要】
字词词义处理方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种字词词义处理方法、装置、电子设备及存储介质。
技术介绍
词义消歧旨在识别多义词在具体的语境中的正确义项。词义消歧是自然语言处理和计算语言学中的一项基本任务,对于机器翻译、信息抽取、信息检索等其他下游任务有非常重要的意义。目前词义消歧方法主要包括两种:第一种方法基于待消岐的目标词的义原和它的上下文词语的义原之间的共同出现次数的统计结果,第二种方法利用义项的分布式向量和上下文词语的分布式向量之间的相似度进行消岐。实验结果表明这两种方法的词义消歧结果还有待提高。
技术实现思路
针对现有技术存在的问题,本专利技术提供一种字词词义处理方法、装置、电子设备及存储介质。本专利技术提供一种字词词义处理方法,包括:获取目标文本中待处理的目标字词,确定所述目标字词的各候选词义,所述目标字词具备多个词义,所述候选词义包括多个词义的部分或全部;根据各候选词义的标注信息,确定各候选词义对应的同义词集合;根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义。根据本专利技术提供的一种日志文件处理方法,所述确定所述目标字词的各候选词义,包括:确定目标字词的词性,以及确定目标字词的所有词义的词性;将词性与目标字词的词性相同的词义作为候选词义。根据本专利技术提供的一种字词词义处理方法,在根据各候选词义的标注信息,确定各候选词义对应的同义词集合之前,还包括:<br>确定各候选词义的义原标注,将义原标注和各候选词义对应的词性进行组合,得到各候选词义的标注信息。根据本专利技术提供的一种字词词义处理方法,所述根据各候选词义的标注信息,确定各候选词义对应的同义词集合,包括:确定标注信息与候选词义的标注信息相同的词义,确定具备所述词义的字词,将具备所述词义的字词集合作为同义词集合。根据本专利技术提供的一种字词词义处理方法,所述根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义,包括:用所述同义词集合中的各同义词替换目标文本中的目标字词,形成新文本,确定各同义词在新文本中的匹配度,根据各同义词在新文本中的匹配度,确定同义词集合的匹配度;根据各同义词集合的匹配度确定所述目标字词的词义。根据本专利技术提供的一种字词词义处理方法,所述根据各同义词集合的匹配度确定所述目标字词的词义,包括:根据各同义词集合的匹配度确定各同义词集合中匹配度最高的同义词集合;将匹配度最高的同义词集合对应的候选词义作为所述目标字词的词义。本专利技术还提供一种字词词义处理装置,包括:筛选模块,用于获取目标文本中待处理的目标字词,确定所述目标字词的各候选词义,所述目标字词具备多个词义,所述候选词义包括多个词义的部分或全部;匹配模块,用于根据各候选词义的标注信息,确定各候选词义对应的同义词集合;确定模块,用于根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义。根据本专利技术提供的一种字词词义处理装置,所述确定模块具体用于:用所述同义词集合中的各同义词替换目标文本中的目标字词,形成新文本,确定各同义词在新文本中的匹配度,根据各同义词在新文本中的匹配度,确定同义词集合的匹配度;根据各同义词集合的匹配度确定所述目标字词的词义。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述字词词义处理方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述字词词义处理方法的步骤。本专利技术提供的字词词义处理方法、装置、电子设备及存储介质,通过确定字词的候选词义,并找到具备候选词义的同义词,根据同义词在目标文本上的匹配结果,从候选词义中确定出词义作为目标字词的词义,能够高效对字词进行词义消歧。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的字词词义处理方法的流程示意图;图2是本专利技术提供的字词词义处理装置的结构示意图;图3是本专利技术提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合图1-3图描述本专利技术提供的字词词义处理方法、装置、电子设备及存储介质。图1示出了本专利技术提供的字词词义处理方法的流程示意图,参见图1,该方法包括以下步骤:S11、获取目标文本中待处理的目标字词,确定目标字词的各候选词义,目标字词具备多个词义,候选词义包括多个词义的部分或全部;S12、根据各候选词义的标注信息,确定各候选词义对应的同义词集合;S13、根据各候选词义对应的同义词集合和目标文本确定目标字词的词义。针对上述步骤S11-步骤S13,需要说明的是,在本专利技术中,一段文本,该文本可以是一段文字,也可以是一句文字。该文本中可能存在一个或一些字词是多义词。为此,在对该文本上的这些字词进行标注时,要标注出正确的词义。对于多义词来说,一个多义词也就具备多项词义(相当于具备多个义项)。每个词义均由单独的字词进行解释说明。例如“苹果”,其一项词义可为“水果”,另一项词义可为“手机品牌”。当一个多义词具有较多的词义时,例如具有m项词义。此时,在文本中,文本中的该多义词基于语境,可能被标注的词义仅存有n种,n小于m。为此,需要从m项词义中确定更具有标注意义的n项词义。即从目标字词具备的所有词义中确定目标字词的各候选词义。另外,当m和n的数值均较小,可能存在n与m相同的情况。确定各候选词义后,可确定各候选词义的标注信息。该标注信息用于判断词义之间是否相同或相似。该标注信息可包括义原标注和词性。然后基于各候选词义的标注信息去确定各候选词义对应的同义词集合。对此,需要说明的是,同义词为不同于目标字词的字词,其同样具备词义,其具备的词义需与各候选词义相同。判断词义是否相同或相似,需要依据候选词义的标注信息。该同义词集合一般包括至少两个同义词(即字词)。另外,在特殊情况下,同义词集合中只有一个同义词。最后,根据各候选词义对应的同义词集合和目标文本确定目标字词的词义,对此,需要说明的是,为了从目标字词的候选词义中筛选出一个词义,作为目标字词的词义。故需要将同义词集合中本文档来自技高网...

【技术保护点】
1.一种字词词义处理方法,其特征在于,包括:/n获取目标文本中待处理的目标字词,确定所述目标字词的各候选词义,所述目标字词具备多个词义,所述候选词义包括多个词义的部分或全部;/n根据各候选词义的标注信息,确定各候选词义对应的同义词集合;/n根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义。/n

【技术特征摘要】
1.一种字词词义处理方法,其特征在于,包括:
获取目标文本中待处理的目标字词,确定所述目标字词的各候选词义,所述目标字词具备多个词义,所述候选词义包括多个词义的部分或全部;
根据各候选词义的标注信息,确定各候选词义对应的同义词集合;
根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义。


2.根据权利要求1所述的字词词义处理方法,其特征在于,所述确定所述目标字词的各候选词义,包括:
确定目标字词的词性,以及确定目标字词的所有词义的词性;
将词性与目标字词的词性相同的词义作为候选词义。


3.根据权利要求2所述的字词词义处理方法,其特征在于,在根据各候选词义的标注信息,确定各候选词义对应的同义词集合之前,还包括:
确定各候选词义的义原标注,将义原标注和各候选词义对应的词性进行组合,得到各候选词义的标注信息。


4.根据权利要求1或3所述的字词词义处理方法,其特征在于,所述根据各候选词义的标注信息,确定各候选词义对应的同义词集合,包括:
确定标注信息与候选词义的标注信息相同的词义,确定具备所述词义的字词,将具备所述词义的字词集合作为同义词集合。


5.根据权利要求4所述的字词词义处理方法,其特征在于,所述根据各候选词义对应的同义词集合和所述目标文本确定所述目标字词的词义,包括:
用所述同义词集合中的各同义词替换目标文本中的目标字词,形成新文本,确定各同义词在新文本中的匹配度,根据各同义词在新文本中的匹配度,确定同义词集合的匹配度;
根据各同...

【专利技术属性】
技术研发人员:岂凡超刘知远侯柏汝臧原张旭睿孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1