System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其是涉及一种基于量子干涉模型的词义消歧方法、设备及存储介质。
技术介绍
1、词义消歧(word sense disambiguation,wsd)属于自然语言处理领域中的基础性研究课题,是一个标准的分类任务。词义消歧旨在依据给定的上下文信息为目标词确定一个词义清单中最有可能的词义,其中目标词指需要消歧或识别的词汇,词义清单一般指电子词典中列出的目标词的所有词义注释。词义消歧任务的挑战在于(1)难以基于有限的上下文信息获得准确的目标词表征,(2)难以基于有限且固定的词义注释文本学习到准确且易于区分的词义定义表征,以及(3)基于语义不一致的词义注释文本改善词义定义表征的准确性问题。第一个挑战属于基于文本信息的词表征学习问题,第二个挑战属于低资源下的文本表征学习问题,第三个挑战属于表征向量的选择与优化问题。
2、针对改善词义定义表征的准确性问题,前人工作分别采用了引入外部知识的方法、挖掘内在语义的方法和施加语义强约束的方法来改善词义消歧任务中词义定义表征的准确性。(1)引入外部知识的方法常见的有整合多语言词义定义知识、融合多词典词义定义知识、以及增加多模态词义信息的方法。上述方法的核心思想是扩展更多的能够改善词义定义表征的信息,以改善或提高词义定义表征的准确性。引入外部知识的方法能够有效应对词义注释文本稀缺的问题,但忽视了多源词义定义信息中可能存在的语义偏差问题。对于低资源任务而言,扩充的有限数据中存在的语义偏差会显著影响模型的表现。(2)挖掘内在语义的方法尝试借助词义定义间或目标词表征与词义
3、针对基于语义不一致(即语义偏差)的词义注释文本来改善词义定义表征的准确性问题,前人工作并未针对性的给予研究,处理词义注释文本语义偏差的方法多为取均值的方法或由模型自主学习过程来决定。上述方法并不是一个有效应对词义注释文本语义偏差的方式,尤其是针对训练样本匮乏的长尾词义而言,上述方法将更容易导致词义定义表征的不准确。
技术实现思路
1、本专利技术是为了克服现有技术中词义注释间存在语义偏差情况下实施词义定义表征增强时导致的表征向量不准确现象,提出一种基于量子干涉模型的词义消歧方法、设备及存储介质,通过量子测量运算计算目标词属于对应词义的概率,并通过测量运算导出的干涉项作为平衡因子来对抗词义注释间存在的语义偏差。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、一种基于量子干涉模型的词义消歧方法,包括:
4、从待消歧文本中获得目标词表征,进而将其构造为量子测量算子;
5、从同一词义的多个词义注释文本中获得对应的词义定义表征,进而将其构造为量子叠加态;基于量子测量算子和量子叠加态,通过量子测量运算计算目标词属于对应词义的概率,并通过量子测量运算导出的干涉项作为平衡因子来对抗词义注释间存在的语义偏差。
6、本专利技术受量子力学理论中量子双缝干涉实验的启发,参见“说明书附图”中的图2,通过将同一词义定义的多个词义注释的文本表征构造为叠加态,并将目标词的词表征构造为测量算子来实现量子测量操作,以获得识别目标词的概率输出值。该设置的优势在于对叠加的测量操作能够形式上导出量子干涉项,而该干涉项可被作为平衡因子用于对抗词义注释间存在的语义偏差。
7、进一步的,得到量子测量算子的过程包括:
8、对包含目标词的待消歧文本实施编码;在待消歧文本的开头与结尾处分别添加开始标记符[cls]和结束标记符[sep],将添加标记符后的待消歧文本中的单词编码为对应的字符编号,以获得待消歧文本的编码文本;
9、对待消歧文本的编码文本实施向量化操作以获得目标词表征;
10、将获得的目标词表征构造为测量算子。
11、进一步的,得到量子叠加态的过程包括:
12、对词义注释文本实施编码,在词义注释文本的开头与结尾处分别添加开始标记符[cls]与结束标记符[sep],将添加标记符后的词义注释文本中的词汇编码为对应的字符编号,以获得词义注释文本的编码文本;
13、对词义注释文本的编码文本实施向量化操作得到词义定义表征;
14、将词义定义表征构造为词义定义的叠加态。
15、进一步的,对于待消歧文本wtext:
16、wtext=[w1,w2,…,wi,…]
17、其中wi指待消歧文本中的词汇,目标词wtarget属于wtext;
18、添加开始与结尾处标记后的形式为:
19、wtext=[[cls],w1,w2,…,wi,…,[sep]]
20、采用预训练语言模型bert的编码方法berttokenizer(·)获得待消歧文本的编码文本:
21、ctext=berttokenizer(wtext)
22、采用预训练语言模型bert的向量化方法bert(·)对待消歧文本的编码文本进行向量化:
23、
24、v[cls]与v[sep]分别为编码文本中开始与结束标记符对应的词表征,vtarget所对应的词表征则为目标词表征。
25、进一步的,将获得的目标词表征vtarget构造为测量算子的过程包括:
26、采用平方和归一化函数将目标词表征构造为量子态:
27、
28、再将该量子态构造为测量算子:
29、
30、进一步的,对于同一词义的多个词义注释文本
31、
32、wi指构成词义注释文本的词汇,sensej指目标词的第j个词义,glossk指词义j的第k个词义注释文本;
33、添加开始与结尾处标记后的形式为:
34、
35、采用预训练语言模型bert的编码方法berttokenizer(·)获得词义注释文本的编码文本:
36、
37、采本文档来自技高网...
【技术保护点】
1.一种基于量子干涉模型的词义消歧方法,其特征在于,包括:
2.根据权利要求1所述的一种基于量子干涉模型的词义消歧方法,其特征在于,得到量子测量算子的过程包括:
3.根据权利要求1所述的一种基于量子干涉模型的词义消歧方法,其特征在于,得到量子叠加态的过程包括:
4.根据权利要求2所述的一种基于量子干涉模型的词义消歧方法,其特征在于,对于待消歧文本Wtext:
5.根据权利要求2所述的一种基于量子干涉模型的词义消歧方法,其特征在于,将获得的目标词表征vtarget构造为测量算子的过程包括:
6.根据权利要求3所述的一种基于量子干涉模型的词义消歧方法,其特征在于,对于同一词义的多个词义注释文本
7.根据权利要求3所述的一种基于量子干涉模型的词义消歧方法,其特征在于,将词义定义表征构造为词义定义的叠加态的过程包括:
8.根据权利要求1-7任一项所述的一种基于量子干涉模型的词义消歧方法,其特征在于,通过量子测量运算计算目标词属于对应词义的概率:
9.一种电子设备,其特征在于,包括存储器、处理器
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任意一项基于量子干涉模型的词义消歧方法的步骤。
...【技术特征摘要】
1.一种基于量子干涉模型的词义消歧方法,其特征在于,包括:
2.根据权利要求1所述的一种基于量子干涉模型的词义消歧方法,其特征在于,得到量子测量算子的过程包括:
3.根据权利要求1所述的一种基于量子干涉模型的词义消歧方法,其特征在于,得到量子叠加态的过程包括:
4.根据权利要求2所述的一种基于量子干涉模型的词义消歧方法,其特征在于,对于待消歧文本wtext:
5.根据权利要求2所述的一种基于量子干涉模型的词义消歧方法,其特征在于,将获得的目标词表征vtarget构造为测量算子的过程包括:
6.根据权利要求3所述的一种基于量子干涉模型的词义消歧方法,其特征在于,对于同一词义的多个词义注释文本
<...【专利技术属性】
技术研发人员:张俊伟,李晓林,
申请(专利权)人:中国科学院基础医学与肿瘤研究所筹,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。