当前位置: 首页 > 专利查询>浙江大学专利>正文

基于模式学习的中文同义词迭代抽取方法技术

技术编号:20681241 阅读:45 留言:0更新日期:2019-03-27 18:59
本发明专利技术公开了一种基于模式学习的中文同义词迭代抽取方法:以百科词条的非结构化数据作为语料库,利用重定向获得的种子同义词对与语料文本进行匹配,获得词对间的文本作为候选模式;通过候选模式匹配,抽取出文本语句中模式前后的实体对作为候选同义词对;利用word2vec计算实体对间的语义相似度,评估词对相近程度;统计候选模式支持的种子数,并通过其抽取的词对质量计算候选模式的评分;接着利用模式评分、实体置信度、词对相似度对候选同义词进行评分,筛选出有效同义词实体对;利用抽取的高质量同义词作为新种子不断迭代,获得更多中文同义词对。本发明专利技术提出的方法成功从千万百科词条文本中抽取出了大量精确度较高的中文同义词实体,对于利用海量非结构化文本提取同义信息具有较大的应用意义。

【技术实现步骤摘要】
基于模式学习的中文同义词迭代抽取方法
本专利技术涉及基于模式学习的中文同义词迭代抽取方法,特别是涉及一种开放式同义词迭代抽取方法。
技术介绍
同义词是指一组具有相同或几乎相同含义、表达同一概念的词语或词组。同义关系作为一种典型的语义关系,有利于更好地理解丰富多变的语言文字、挖掘出文本中的重要信息。同义关系作为信息处理领域的一种基础资源,在信息检索、自然语言处理、文本挖掘、知识图谱构建等方面都具有广泛的应用。随着信息时代的到来,数据的海量增长导致了同义词的迅速增加,人工抽取将耗费大量的时间和人力。因此,设计实现一个自动同义词抽取系统将会极大地促进同义信息的获取。目前,国内外研究人员已经针对英文同义关系做出了大量研究,提出了包括基于模式匹配、分布相似度、统计学等多种方法。中文同义词作为中文语料的基础资源,也遵循着类似的规则。国内现已获得许多中文同义词资源,如《同义词词林》、《同义词词林扩展版》、中文WordNet等。然而无论是这些资源,还是从词典、网页重定向、搜索引擎提取出的同义词库,其所包含的同义信息都是有限的,更多同义词存在于非结构化文本中,亟待挖掘。本专利技术设计并实现了一个基于模式学习的中文同义词迭代抽取方法。该方法以百度百科词条的非结构化文本作为语料库,通过对同义模式的学习和种子词对的扩充,致力于抽取出尽可能多的中文同义词实体对。
技术实现思路
本专利技术为了解决海量非结构化文本中同义信息难以获取的问题,提出了一种基于模式学习的中文同义词迭代抽取方法,能够有效抽取出大量精确度较高的中文同义词实体。本专利技术解决其技术问题采用的技术方案如下:一种基于模式学习的中文同义词迭代抽取方法,包括以下步骤:1)语料预处理:对爬取的百度百科网页进行解析,获得词条正文文本;经过词条去冗和标点归一化后,将语料信息存储到Lucene索引文件中;从百度百科重定向链接中获取同义词对;对百度百科实体进行分词,统计词性规则并排序,选取排序靠前且包含了80%实体的词性规则构建实体词性规则库,每条词性规则的频率为该词性规则涵盖的实体数;2)模式学习:从百度百科重定向获取的同义词对中随机选取若干种子词对,以每个种子词对作为查询关键词,从Lucene索引中检索出包含该种子词对的语句;对检索出的语句进行分词,抽取出种子词对间的文本作为候选模式,并过滤候选模式中的噪声;对过滤后的所有候选模式进行聚类,统计支持每个模式组的种子词对数,保留其中支持数超过设定阈值的模式组作为候选模式组;对每个候选模式进行模式扩展,即统计语料文本中候选模式前后出现的高频且非专有名词的词语,作为该候选模式的无效词;3)同义词抽取:用步骤2)中获得的候选模式组的每个候选模式作为查询关键词,从Lucene索引中检索出包含该候选模式的语句,过滤其中不满足长度要求的语句,并通过计算句子间的Jaccard相似度进行去冗;对过滤后的候选语句进行分词,找到候选模式在候选语句中的位置,对候选模式前后相邻的词语进行判断,若为该候选模式的无效词,则删除该候选语句;反之,用步骤1)中构建的实体词性规则库中的每条词性规则进行匹配,抽取出候选模式前后的实体对作为候选同义词对;每个候选语句可能匹配若干条词性规则、获得若干个候选实体,保留所有候选实体,并计算每个候选实体对应词性规则的频率与所有匹配的词性规则频率之和的比重,作为该候选实体在该候选语句中的实体权重;同时采用短语优化、并列短语的实体优化方法抽取候选实体,优化方法获得的候选实体权重为1;4)模式评分:用步骤3)中获得的候选同义词对,对步骤2)中获得的候选模式组进行评估;考虑每个候选模式组抽取出的所有候选同义词对的支持信息,计算候选同义词对间语义相似度,相似度大于阈值则作为正例,小于阈值则作为负例;在正负例基础上,同时考虑三种权重:a)基础权重wb:用以区分种子同义词和其他候选同义词对的可靠性,种子同义词的基础权重设为1,候选同义词对的基础权重设为0.5;b)实体权重we:实体在所有候选语句中的权重平均值;c)支持权重ws:每个模式组的支持种子数及候选语句数与最大支持数的比重;结合正负例和权重,候选模式组的评分公式为:其中,a、b为先验参数,用于缓解偶然出现的候选同义词对评分p的较大影响;∑s=(i,j)∈P(wbs·wei·wej)和∑s=(i,j)∈N(wbs·wei·wej)分别计算正、负例权重,P、N为正、负例集,s为候选同义词对,i、j为候选同义词对中的两个实体,wei、wei为两个实体在候选语句中的实体权重,wbs为候选同义词对在候选语句中的基础权重;权重范围都为(0,1];根据评分p对候选模式组进行排序,设置模式评分阈值为0.5以过滤低分候选模式组;5)同义词评分:利用步骤4)计算得到的模式评分对步骤3)抽取的候选同义词对进行评分;统计支持每个候选同义词对的模式组及对应频数,所述支持模式组为抽取出该候选同义词对的候选模式组,同时结合候选同义词对的实体权重计算候选同义词对的评分s,评分公式为:其中,pn为第n个支持模式,nn为pn的频数,in为缓解同一支持模式多次作用的衰减系数,we1、we2分别为候选同义词对中两个实体的实体平均权重,即候选实体在所有候选语句中实体权重的平均值;根据评分s对候选同义词对进行排序,高于同义词评分阈值的候选同义词对则为抽取的正确同义词;6)迭代计算:利用步骤5)中获得的未曾作为种子的正确同义词对作为新种子,重复迭代步骤2)至步骤5),直至达到设定的最大迭代次数。进一步地,所述的步骤1)中,标点归一化指将语料文本中错误的英文标点统一为中文标点。进一步地,所述的步骤2)中,对语句分词进行优化,具体为:a)利用标点进行匹配,分别将书名号、方括号以及顿号间的短语标记为一个整体;b)将词性组合为“形容词+名词”的短语标注为一个实体。进一步地,所述的步骤2)中,过滤候选模式中的噪声包括以下方式:a)过滤模式距离大于阈值的候选模式,所述模式距离为经过分词的候选语句中,种子同义词对之间的词数,模式距离阈值设置为5;b)通过正则表达式匹配过滤包含阿拉伯数字、英文字母的候选模式;c)过滤包含专有名词的候选模式,专有名词包括人名、地名、组织名;d)过滤只包含标点的候选模式。进一步地,所述的步骤2)中,对候选模式进行聚类,具体为:通过计算所有候选模式的Jaccard相似度进行聚类,将相似候选模式归为一组,从而提高正确候选模式组的支持频数。进一步地,所述的步骤3)中,实体优化方法包括:a)短语优化:书名号、方括号中的短语当作一个整体;模式中包含引号时,考虑引号内短语为一个整体;b)并列短语:满足由顿号或并列连词(或/和/及)间隔,由“等”、“等等”或标点结尾规则的并列短语,作为候选实体。进一步地,所述的步骤4)中,候选同义词对间语义相似度是指,通过word2vec将两个实体分别转化为词向量,词向量的余弦相似度即为词对相似度,相似度公式为:其中,A和B分别为两个实体的词向量,n为词向量维数400。本专利技术方法与现有技术相比具有的有益效果:1.该方法提出了一种应用于大规模语料的中文同义词抽取模型,该模型无需耗费较大的人工工作量即能从海量无结构数据中自动抽取出精确度较高的同义词对,具有极大的应用意义;2.该方法在模式学习基础上,综本文档来自技高网...

【技术保护点】
1.一种基于模式学习的中文同义词迭代抽取方法,其特征在于,包括以下步骤:1)语料预处理:对爬取的百度百科网页进行解析,获得词条正文文本;经过词条去冗和标点归一化后,将语料信息存储到Lucene索引文件中;从百度百科重定向链接中获取同义词对;对百度百科实体进行分词,统计词性规则并排序,选取排序靠前且包含了80%实体的词性规则构建实体词性规则库,每条词性规则的频率为该词性规则涵盖的实体数;2)模式学习:从百度百科重定向获取的同义词对中随机选取若干种子词对,以每个种子词对作为查询关键词,从Lucene索引中检索出包含该种子词对的语句;对检索出的语句进行分词,抽取出种子词对间的文本作为候选模式,并过滤候选模式中的噪声;对过滤后的所有候选模式进行聚类,统计支持每个模式组的种子词对数,保留其中支持数超过设定阈值的模式组作为候选模式组;对每个候选模式进行模式扩展,即统计语料文本中候选模式前后出现的高频且非专有名词的词语,作为该候选模式的无效词;3)同义词抽取:用步骤2)中获得的候选模式组的每个候选模式作为查询关键词,从Lucene索引中检索出包含该候选模式的语句,过滤其中不满足长度要求的语句,并通过计算句子间的Jaccard相似度进行去冗;对过滤后的候选语句进行分词,找到候选模式在候选语句中的位置,对候选模式前后相邻的词语进行判断,若为该候选模式的无效词,则删除该候选语句;反之,用步骤1)中构建的实体词性规则库中的每条词性规则进行匹配,抽取出候选模式前后的实体对作为候选同义词对;每个候选语句可能匹配若干条词性规则、获得若干个候选实体,保留所有候选实体,并计算每个候选实体对应词性规则的频率与所有匹配的词性规则频率之和的比重,作为该候选实体在该候选语句中的实体权重;同时采用短语优化、并列短语的实体优化方法抽取候选实体,优化方法获得的候选实体权重为1;4)模式评分:用步骤3)中获得的候选同义词对,对步骤2)中获得的候选模式组进行评估;考虑每个候选模式组抽取出的所有候选同义词对的支持信息,计算候选同义词对间语义相似度,相似度大于阈值则作为正例,小于阈值则作为负例;在正负例基础上,同时考虑三种权重:a)基础权重wb:用以区分种子同义词和其他候选同义词对的可靠性,种子同义词的基础权重设为1,候选同义词对的基础权重设为0.5;b)实体权重we:实体在所有候选语句中的权重平均值;c)支持权重ws:每个模式组的支持种子数及候选语句数与最大支持数的比重;结合正负例和权重,候选模式组的评分公式为:...

【技术特征摘要】
1.一种基于模式学习的中文同义词迭代抽取方法,其特征在于,包括以下步骤:1)语料预处理:对爬取的百度百科网页进行解析,获得词条正文文本;经过词条去冗和标点归一化后,将语料信息存储到Lucene索引文件中;从百度百科重定向链接中获取同义词对;对百度百科实体进行分词,统计词性规则并排序,选取排序靠前且包含了80%实体的词性规则构建实体词性规则库,每条词性规则的频率为该词性规则涵盖的实体数;2)模式学习:从百度百科重定向获取的同义词对中随机选取若干种子词对,以每个种子词对作为查询关键词,从Lucene索引中检索出包含该种子词对的语句;对检索出的语句进行分词,抽取出种子词对间的文本作为候选模式,并过滤候选模式中的噪声;对过滤后的所有候选模式进行聚类,统计支持每个模式组的种子词对数,保留其中支持数超过设定阈值的模式组作为候选模式组;对每个候选模式进行模式扩展,即统计语料文本中候选模式前后出现的高频且非专有名词的词语,作为该候选模式的无效词;3)同义词抽取:用步骤2)中获得的候选模式组的每个候选模式作为查询关键词,从Lucene索引中检索出包含该候选模式的语句,过滤其中不满足长度要求的语句,并通过计算句子间的Jaccard相似度进行去冗;对过滤后的候选语句进行分词,找到候选模式在候选语句中的位置,对候选模式前后相邻的词语进行判断,若为该候选模式的无效词,则删除该候选语句;反之,用步骤1)中构建的实体词性规则库中的每条词性规则进行匹配,抽取出候选模式前后的实体对作为候选同义词对;每个候选语句可能匹配若干条词性规则、获得若干个候选实体,保留所有候选实体,并计算每个候选实体对应词性规则的频率与所有匹配的词性规则频率之和的比重,作为该候选实体在该候选语句中的实体权重;同时采用短语优化、并列短语的实体优化方法抽取候选实体,优化方法获得的候选实体权重为1;4)模式评分:用步骤3)中获得的候选同义词对,对步骤2)中获得的候选模式组进行评估;考虑每个候选模式组抽取出的所有候选同义词对的支持信息,计算候选同义词对间语义相似度,相似度大于阈值则作为正例,小于阈值则作为负例;在正负例基础上,同时考虑三种权重:a)基础权重wb:用以区分种子同义词和其他候选同义词对的可靠性,种子同义词的基础权重设为1,候选同义词对的基础权重设为0.5;b)实体权重we:实体在所有候选语句中的权重平均值;c)支持权重ws:每个模式组的支持种子数及候选语句数与最大支持数的比重;结合正负例和权重,候选模式组的评分公式为:其中,a、b为先验参数,用于缓解偶然出现的候选同义词对评分p的较大影响;∑s=(i,j)∈P(wbs·wei·wej)和∑s=(i,j)∈N(wbs·wei·wej)分别计算正、负例权重,P、N分别为正、负例集,s为候选同义词对,i、j为候选同义词对中的两个实体,wei、wej分别为两个实体在候选语句中的实体权...

【专利技术属性】
技术研发人员:鲁伟明俞家乐吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1