一种基于远程监督的同义词提取方法技术

技术编号:21090106 阅读:24 留言:0更新日期:2019-05-11 10:09
本发明专利技术公开了一种基于远程监督的同义词提取方法,属于自然语言处理技术领域。该方法包括:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用领域词条进行训练,得到同义词发现的句子序列标注集;根据标注集,将语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。本发明专利技术通过利用基于百科知识库词条特性、结合领域同义词的相应词汇‑句法模式、通过远程监督学习和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低精度的情况下,大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。

A Synonym Extraction Method Based on Remote Monitoring

【技术实现步骤摘要】
一种基于远程监督的同义词提取方法
本专利技术涉及自然语言处理
,具体涉及一种基于远程监督的同义词提取方法。
技术介绍
当前各种网络知识信息极大丰富,在文本知识机器理解方面,现有的字典词典是为人类学习和使用提供辅助,只是传统词典包含许多同义词,但这些词典是为人类搜索而编写的,很难被机器读取。为了获得机器可读的同义词数据库,当前已建立了一些同义词词典,如Princeton大学的心理学家创建的WordNet项目,它总共包含超过117,000个同义词,其中单词之间的主要关系是同义词。在某些领域,如电力和医药,还有许多手工建立的域名同义词词典或百科全书。对于手动构建的同义词数据库,准确性很好,但限制也很明显,其覆盖范围太窄,封闭性又强,知识老化快速跟不上发展;而且它们需要大量的手工工作,人力成本高,效率低下。因此,大量的研究工作致力于从文本、词典、维基百科、搜索引擎等渠道自动提取同义词。根据Turney.P的定义,识别同义词的任务是“给定一个问题词和一组替代词,选择与问题词最相似的替代词组”。目前的大多数研究都是围绕这个定义进行研究,因此以封闭的方式工作。给定问题单词和目标单词,这些方法只能确定它们之间的同义关系,并且不能主动发现新的同义单词。
技术实现思路
专利技术目的:本专利技术要解决的技术问题是从领域中数百万个单词中选择发现同义词,从非结构化文本中模拟同义词提取问题,在没有任何先验知识的情况下在候选实体之间指示同义词,提供开放同义词提取的解决方法。技术方案:为了解决上述技术问题,本专利技术采用以下技术方案:一种基于远程监督的同义词提取方法,包括以下步骤:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。优选地,所述同义词的词汇句法模式包括:X又称(alsonamedas)Y;X即(alsocalledas)YX简称(abbreviatedas)YX别名(alsonamedas)YX俗称(commonlycalledas)YX原名(alsocalledas)YX外文名(Y)。优选地,所述神经网络学习模型包括6层结构,具体如下:1-2层为词向量处理层,用于对输入的句子进行分词,构建领域同义词的候选实体的向量;3-5层为LSTM层,用于对候选实体向量进行训练,得到每个实体属于某个模式的可能性;6层为CRF层,用于实现句子序列的标注。优选地,所述词向量处理层的处理过程如下:使用NLP分词和POS词性标注方法对输入的句子进行分词,将分词后的含有N个字的句子即实体序列记作x:x=(x1,x2,...,xn)以全部收集到的词汇集为词典,xi的数值表示第i个实体在字典中的id值,从而得到句子的one-hot向量,之后利用预训练或随机的embedding矩阵将句子中的值从one-hot向量映射到低维稠密的文字向量,从而得到一个低维度的embedding序列M。优选地,所述LSTM层的处理过程如下:第三、四层采用双向循环LSTM层,将词向量处理层得到的候选实体向量序列作为双向LSTM各个时间的输入,得到了正向与反向的两个序列;在对应位置进行拼接得到完整的隐状态序列H;然后在第五层LSTM输出层将隐状态序列进行映射转换,得到每个实体属于某种模式的可能性。优选地,所述CRF层的处理过程如下:首先设置词法、句法规则约束,然后在标注集k增加start和end两个值,再基于规则构建一个(k+2)*(k+2)的得分矩阵K,矩阵每一个值代表了标注结果转换的概率或者得分,整个序列的最终打分由LSTM层和CRF层共同组成,假设一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么对于句子x的标签序列为y的打分为:最后根据得分,通过softmax方法或者直接对得分结果进行操作,得到最后的标注结果,从而确认同义词的候选实体组合。优选地,所述CRF层得到的句子序列标注集中标记及释义如下:标记释义ENT候选实体对B_DT同义词关系的起始C_DT同义词关系的中心词E_DT同义词关系的结束O不表达同义词关系的词。有益效果:1、本专利技术通过利用基于百科知识库词条特性、结合能源同义词的相应词汇-句法模式、通过远程监督学习和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低精度的情况下,大幅降低人工成本。2、本专利技术提出了一种开放式的领域同义词提取框架,对现有词条的持续学习过程中,直接导入本方法,可以自动发现隐藏或新的同义词。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。附图说明图1是本专利技术的同义词提取方法流程图;图2是根据本专利技术实施例的远程监督模型的结构图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。参照图1,本专利技术使用长短期记忆网络(LongShort-TermMemory,LSTM)和条件随机场(ConditionalRandomField,CRF)远程监督的方式发现同义词,并提出一个基于远程监督的同义词提取框架。该方法利用开放同义词提取方法在从网络规模的语料库中提取尽可能多的同义词,根据语义主动利用同义词,通过开放同义词提取方法提取语言的所有同义词。在一个实施例中,以寻找能源标准字典中语义同义词的方法为例,描述具体实现过程如下。S10、建立能源领域中同义词的词汇句法模式模型,模式以下表为例,能源领域常见的同义词句法模型定义为下述几种模式:表1能源同义词的相应词汇-句法模式S20、构建神经网络学习模型并使用领域词条进行训练,得到同义词发现的句子序列标注集。将从百度百科下载的能源领域词条数据库的词条含义作为想要提取的目标数据源,然后使用这些示例自动生成远程监督机器学习训练数据。应当理解,这里以百度百科能源词条的语义描述仅是为了例示的目的,而不是限制本专利技术的词条来源仅限于百度百科,在其他实施例中可以根据需要选择或建立相应的领域词条数据库。这里采用基于中文语言的LSTM+CRF模型方法来实现标签序列标注,采用基于分词的CRF序列构建标注集。参照图2,远程监督机器学习模型共包括6层,在第一层输入句子,在第6层输出句子序列的标注,具体过程描述如下:词向量处理层(1~2):模型的前两层目标是构建能源领域同义词的候选实体的向量,这里可以采用任意分词工具和标注方法,需要注意的是分词需要考虑能源领域基础名词短语的特征,建议采用轻量级的NLP分词和POS词性标注方法,将分词后的含有N个字或词的句子(实体序列)记作x:x=(x1,x2,...,xn)以全部收集到的词汇集为词典,xi的数值表示第i个实体在字典中的id值,从而得到句子的one-hot向量,之后利用预训练或随机的embedding矩阵将句子从one-hot向量映射到低维稠密的文字向量,从而得到一个低维度的embedding序列M。LSTM层(3~5):模型中间层是双向循环LSTM处理方法,其中第三、四层是双向的LSTM层,这里通过将上一层的embedding序列作为双向LSTM各个时间的输入,得到了正向与反向的两个序列,在对本文档来自技高网...

【技术保护点】
1.一种基于远程监督的同义词提取方法,其特征在于,包括以下步骤:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。

【技术特征摘要】
2018.12.11 CN 20181151158811.一种基于远程监督的同义词提取方法,其特征在于,包括以下步骤:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。2.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述同义词的词汇句法模式包括:X又称(alsonamedas)Y;X即(alsocalledas)YX简称(abbreviatedas)YX别名(alsonamedas)YX俗称(commonlycalledas)YX原名(alsocalledas)YX外文名(Y)。3.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述神经网络学习模型包括6层结构,具体如下:1-2层为词向量处理层,用于对输入的句子进行分词,构建领域同义词的候选实体的向量;3-5层为LSTM层,用于对候选实体向量进行训练,得到每个实体属于某个模式的可能性;6层为CRF层,用于实现句子序列的标注。4.根据权利要求3所述的基于远程监督的同义词提取方法,其特征在于,所述词向量处理层的处理过程如下:使用NLP分词和POS词性标注方法对输入的句子进行分词,将分词后的含有N个字的句子即实体序列记作x:x=(x1,x2,...,xn)以全部收集到的词汇集为词典,xi...

【专利技术属性】
技术研发人员:张涛刘前卫盛兴聂庆谢秋学贺芳雍志娟孙金吴培培常秀张楠商莹楠滕家雨赵生传张婷婷田书然
申请(专利权)人:英大传媒投资集团有限公司国家电网有限公司南瑞集团有限公司国网山东省电力公司烟台供电公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1