基于模式学习的中文同义词迭代抽取方法技术

技术编号：20681241 阅读：45 留言：0更新日期：2019-03-27 18:59

本发明专利技术公开了一种基于模式学习的中文同义词迭代抽取方法：以百科词条的非结构化数据作为语料库，利用重定向获得的种子同义词对与语料文本进行匹配，获得词对间的文本作为候选模式；通过候选模式匹配，抽取出文本语句中模式前后的实体对作为候选同义词对；利用word2vec计算实体对间的语义相似度，评估词对相近程度；统计候选模式支持的种子数，并通过其抽取的词对质量计算候选模式的评分；接着利用模式评分、实体置信度、词对相似度对候选同义词进行评分，筛选出有效同义词实体对；利用抽取的高质量同义词作为新种子不断迭代，获得更多中文同义词对。本发明专利技术提出的方法成功从千万百科词条文本中抽取出了大量精确度较高的中文同义词实体，对于利用海量非结构化文本提取同义信息具有较大的应用意义。

全部详细技术资料下载

【技术实现步骤摘要】
基于模式学习的中文同义词迭代抽取方法
本专利技术涉及基于模式学习的中文同义词迭代抽取方法，特别是涉及一种开放式同义词迭代抽取方法。
技术介绍
同义词是指一组具有相同或几乎相同含义、表达同一概念的词语或词组。同义关系作为一种典型的语义关系，有利于更好地理解丰富多变的语言文字、挖掘出文本中的重要信息。同义关系作为信息处理领域的一种基础资源，在信息检索、自然语言处理、文本挖掘、知识图谱构建等方面都具有广泛的应用。随着信息时代的到来，数据的海量增长导致了同义词的迅速增加，人工抽取将耗费大量的时间和人力。因此，设计实现一个自动同义词抽取系统将会极大地促进同义信息的获取。目前，国内外研究人员已经针对英文同义关系做出了大量研究，提出了包括基于模式匹配、分布相似度、统计学等多种方法。中文同义词作为中文语料的基础资源，也遵循着类似的规则。国内现已获得许多中文同义词资源，如《同义词词林》、《同义词词林扩展版》、中文WordNet等。然而无论是这些资源，还是从词典、网页重定向、搜索引擎提取出的同义词库，其所包含的同义信息都是有限的，更多同义词存在于非结构化文本中，亟待挖掘。本专利技术设计并实现了一个基于模式学习的中文同义词迭代抽取方法。该方法以百度百科词条的非结构化文本作为语料库，通过对同义模式的学习和种子词对的扩充，致力于抽取出尽可能多的中文同义词实体对。
技术实现思路
本专利技术为了解决海量非结构化文本中同义信息难以获取的问题，提出了一种基于模式学习的中文同义词迭代抽取方法，能够有效抽取出大量精确度较高的中文同义词实体。本专利技术解决其技术问题采用的技术方案如下：一种基于模式学...

【技术保护点】
1.一种基于模式学习的中文同义词迭代抽取方法，其特征在于，包括以下步骤：1)语料预处理：对爬取的百度百科网页进行解析，获得词条正文文本；经过词条去冗和标点归一化后，将语料信息存储到Lucene索引文件中；从百度百科重定向链接中获取同义词对；对百度百科实体进行分词，统计词性规则并排序，选取排序靠前且包含了80％实体的词性规则构建实体词性规则库，每条词性规则的频率为该词性规则涵盖的实体数；2)模式学习：从百度百科重定向获取的同义词对中随机选取若干种子词对，以每个种子词对作为查询关键词，从Lucene索引中检索出包含该种子词对的语句；对检索出的语句进行分词，抽取出种子词对间的文本作为候选模式，并过滤候选模式中的噪声；对过滤后的所有候选模式进行聚类，统计支持每个模式组的种子词对数，保留其中支持数超过设定阈值的模式组作为候选模式组；对每个候选模式进行模式扩展，即统计语料文本中候选模式前后出现的高频且非专有名词的词语，作为该候选模式的无效词；3)同义词抽取：用步骤2)中获得的候选模式组的每个候选模式作为查询关键词，从Lucene索引中检索出包含该候选模式的语句，过滤其中不满足长度要求的语句，并通过...

【技术特征摘要】
1.一种基于模式学习的中文同义词迭代抽取方法，其特征在于，包括以下步骤：1)语料预处理：对爬取的百度百科网页进行解析，获得词条正文文本；经过词条去冗和标点归一化后，将语料信息存储到Lucene索引文件中；从百度百科重定向链接中获取同义词对；对百度百科实体进行分词，统计词性规则并排序，选取排序靠前且包含了80％实体的词性规则构建实体词性规则库，每条词性规则的频率为该词性规则涵盖的实体数；2)模式学习：从百度百科重定向获取的同义词对中随机选取若干种子词对，以每个种子词对作为查询关键词，从Lucene索引中检索出包含该种子词对的语句；对检索出的语句进行分词，抽取出种子词对间的文本作为候选模式，并过滤候选模式中的噪声；对过滤后的所有候选模式进行聚类，统计支持每个模式组的种子词对数，保留其中支持数超过设定阈值的模式组作为候选模式组；对每个候选模式进行模式扩展，即统计语料文本中候选模式前后出现的高频且非专有名词的词语，作为该候选模式的无效词；3)同义词抽取：用步骤2)中获得的候选模式组的每个候选模式作为查询关键词，从Lucene索引中检索出包含该候选模式的语句，过滤其中不满足长度要求的语句，并通过计算句子间的Jaccard相似度进行去冗；对过滤后的候选语句进行分词，找到候选模式在候选语句中的位置，对候选模式前后相邻的词语进行判断，若为该候选模式的无效词，则删除该候选语句；反之，用步骤1)中构建的实体词性规则库中的每条词性规则进行匹配，抽取出候选模式前后的实体对作为候选同义词对；每个候选语句可能匹配若干条词性规则、获得若干个候选实体，保留所有候选实体，并计算每个候选实体对应词性规则的频率与所有匹配的词性规则频率之和的比重，作为该候选实体在该候选语句中的实体权重；同时采用短语优化、并列短语的实体优化方法抽取候选实体，优化方法获得的候选实体权重为1；4)模式评分：用步骤3)中获得的候选同义词对，对步骤2)中获得的候选模式组进行评估；考虑每个候选模式组抽取出的所有候选同义词对的支持信息，计算候选同义词对间语义相似度，相似度大于阈值则作为正例，小于阈值则作为负例；在正负例基础上，同时考虑三种权重：a)基础权重wb：用以区分种子同义词和其他候选同义词对的可靠性，种子同义词的基础权重设为1，候选同义词对的基础权重设为0.5；b)实体权重we：实体在所有候选语句中的权重平均值；c)支持权重ws：每个模式组的支持种子数及候选语句数与最大支持数的比重；结合正负例和权重，候选模式组的评分公式为：其中，a、b为先验参数，用于缓解偶然出现的候选同义词对评分p的较大影响；∑s＝(i,j)∈P(wbs·wei·wej)和∑s＝(i,j)∈N(wbs·wei·wej)分别计算正、负例权重，P、N分别为正、负例集，s为候选同义词对，i、j为候选同义词对中的两个实体，wei、wej分别为两个实体在候选语句中的实体权...

【专利技术属性】
技术研发人员：鲁伟明，俞家乐，吴飞，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人