当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于传递的同义词扩展方法技术

技术编号:24498729 阅读:69 留言:0更新日期:2020-06-13 04:07
本发明专利技术公开了一种基于传递的同义词扩展方法:利用百科多义词页面获取实体三元组t=<e

A synonym extension method based on transfer

【技术实现步骤摘要】
一种基于传递的同义词扩展方法
本专利技术涉及基于传递的同义词扩展方法,特别是涉及一种通过共有同义词的语义传递辅助实体对间同义关系判别的方法。
技术介绍
同义词实体是指一组描述同一概念、指向同一实体的词语。人们通常喜欢采用不同方式表述某个实体,实体的多种名称构成了同义关系。实体同义名称的应用虽然能够增加语言表述的丰富性,但同时也加大了文本理解和文本分析的难度。因此,从海量语料中自动识别同义词实体已经成为一项重要任务。它不仅能够为知识挖掘提供丰富的语义信息,还能使许多下游任务受益,例如在Web搜索、问答系统、知识图谱构建等应用领域中,同义信息都发挥着不可或缺的作用。获取同义词实体的一种最直接方法是利用公开知识资源,著名英文知识库例如WordNet、ConceptNet和DBpedia中均包含了大量同义信息,而中文词典《同义词词林》、《同义词词林扩展版》以及中文WordNet也都是可靠的同义资源。然而这些知识资源大多基于人工,需要耗费大量的时间和人力去构造及维护。尤其随着信息时代的到来,同义词实体的数量也在飞速增长,知识资源中的同义信息覆盖率已远远满足不了人们的需求。自动同义词实体抽取任务已逐渐成为一项研究热点。
技术实现思路
本专利技术设计并实现了一种基于传递的同义词扩展方法。该方法提出并解决了一个新任务,即判断同义关系能否传递,模型结合多角度实体匹配策略和同义语句选择任务,通过一个中间同义词来辅助判别实体对间是否存在同义关系,从而实现同义词扩展。本专利技术解决其技术问题采用的技术方案如下:一种基于传递的同义词扩展算法,包括以下步骤:1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2;2)句子编码:对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,…,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...h|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示和ej的序列表示整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={W1,w2,…,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量与距离实体对ei和ej的两个位置向量和作为该词的嵌入表示其中dw为词向量维度,dp为位置向量维度,为向量拼接操作;将序列输入到BiLSTM模型中进行编码,正反向编码公式如下:其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,为正向第t个时间步的隐层输出,为反向第t个时间步的隐层输出,即对应句子中第t个词语;将正反向的隐层输出拼接,得到作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示和ej的序列表示将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示c)句子表示:利用步骤a)或步骤b)对语句s编码后,得到了句子隐层表示hs和实体序列表示与Hej,将hs经过一个包含激活函数tanh的全连接层转化,得到句子向量vs,公式如下:vs=tanh(Wshs+bs)其中和为模型的可训练参数,dh为编码器隐层输出的维度,dc为全连接层的输出维度;对实体序列中每个词的隐层向量计算平均,同样经过一个包含激活函数tanh的全连接层转化,计算获得ei的实体向量与ej的实体向量公式如下:其中和为模型的可训练参数,k∈{1,2,3}为实体编号;将句子向量与两个实体向量拼接,作为该句子的最终表示d)语句包表示:通过前三个步骤,对语句包S中每个语句进行编码,得到语句向量集合同时采用注意力机制对语句包内的有效语句加以选择,得到每个句子的注意力权重αi,计算公式如下:公式采用的是乘法注意力,其中表示同义关系向量,由模型随机初始化,维度与句子向量相同,exp为指数函数;将所有语句向量进行加权求和,即得到语句包的向量表示Vs:将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|S),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:o=W1Vs+b1其中和为模型的可训练参数,o1和o2为向量o的两个元素,o1对应模型预测为正确的维度,o2对应模型预测为错误的维度;3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包和e2的实体向量包以及S2中e3的实体向量包和e2的实体向量包利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:其中k∈{1,2}为语句包编号,i∈{1,2,3为实体编号,为语句包Sk中第j个语句的注意力权重,为该句中第i个实体;经过计算,得到四个实体融合向量和接着采用门控机制分别将的语义融入将的语义融入得到e2在S1中的最终向量表示在S2中的最终向量表示公式为:其中语句包编号k∈{1,2},实体编号i∈{1,3},为门控向量,是可训练参数,维度与实体向量相同,⊙为向量元素乘操作;4)多角度实体匹配:对步骤3)中得到的e2的两个实体向量包和以及e2的两个实体向量和同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entityBag)和B2B(entityBag-to-entityBag)三种匹配进本文档来自技高网...

【技术保护点】
1.一种基于传递的同义词扩展方法,其特征在于,包括以下步骤:/n1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e

【技术特征摘要】
1.一种基于传递的同义词扩展方法,其特征在于,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2;
2)句子编码:对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,...,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...h|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示和ej的序列表示整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={w1,w2,...,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量与距离实体对ei和ej的两个位置向量和作为该词的嵌入表示其中dw为词向量维度,dp为位置向量维度,为向量拼接操作;将序列输入BiLSTM模型中进行编码,正反向编码公式如下:






其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,为正向第t个时间步的隐层输出,为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示和ej的序列表示将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
c)句子表示:利用步骤a)或步骤b)对语句s编码后,得到了句子隐层表示hs和实体序列表示与将hs经过一个包含激活函数tanh的全连接层转化,得到句子向量vs,公式如下:
vs=tanh(Wshs+bs)
其中和为模型的可训练参数,dh为编码器隐层输出的维度,dc为全连接层的输出维度;
对实体序列中每个词的隐层向量计算平均,同样经过一个包含激活函数tanh的全连接层转化,计算获得ei的实体向量与ej的实体向量公式如下:



其中和为模型的可训练参数,k∈{1,2,3}为实体编号;将句子向量与两个实体向量拼接,作为该句子的最终表示
d)语句包表示:通过前三个步骤,对语句包S中每个语句进行编码,得到语句向量集合同时采用注意力机制对语句包内的有效语句加以选择,得到每个句子的注意力权重αi,计算公式如下:






公式采用的是乘法注意力,其中定示同义关系向量,由模型随机初始化,维度与句子向量相同,exp为指数函数;
将所有语句向量进行加权求和,即得到语句包的向量表示Vs:



将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|S),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1



其中和为模型的可训练参数,o1和o2为向量o的两个元素,o1对应模型预测为正确的维度,o2对应模型预测为错误的维度;
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包和e2的实体向量包以及S2中e3的实体向量包和e2的实体向量包利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:



其中k∈{1,2}为语句包编号,i∈{1,2,3}为实体编号,为语句包Sk中第j个语句的注意力权重,为该句中第i个实体;经过计算,得到四个实体融合向量和
接着采用门控机制分...

【专利技术属性】
技术研发人员:鲁伟明俞家乐吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1