一种基于远程监督的同义词提取方法技术

技术编号：21090106 阅读：38 留言：0更新日期：2019-05-11 10:09

本发明专利技术公开了一种基于远程监督的同义词提取方法，属于自然语言处理技术领域。该方法包括：建立领域中同义词的词汇句法模式模型；构建基于LSTM和CRF的远程监督神经网络学习模型，并使用领域词条进行训练，得到同义词发现的句子序列标注集；根据标注集，将语料库中的语句中的候选实体进行标注及配对，抽取实体后得到同义词。本发明专利技术通过利用基于百科知识库词条特性、结合领域同义词的相应词汇‑句法模式、通过远程监督学习和机器自主学习，获取领域同义词，该方法以机器处理为主，人工处理为辅，提高同义词获取的效率，在不降低精度的情况下，大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。

A Synonym Extraction Method Based on Remote Monitoring

全部详细技术资料下载

【技术实现步骤摘要】
一种基于远程监督的同义词提取方法
本专利技术涉及自然语言处理
，具体涉及一种基于远程监督的同义词提取方法。
技术介绍
当前各种网络知识信息极大丰富，在文本知识机器理解方面，现有的字典词典是为人类学习和使用提供辅助，只是传统词典包含许多同义词，但这些词典是为人类搜索而编写的，很难被机器读取。为了获得机器可读的同义词数据库，当前已建立了一些同义词词典，如Princeton大学的心理学家创建的WordNet项目，它总共包含超过117,000个同义词，其中单词之间的主要关系是同义词。在某些领域，如电力和医药，还有许多手工建立的域名同义词词典或百科全书。对于手动构建的同义词数据库，准确性很好，但限制也很明显，其覆盖范围太窄，封闭性又强，知识老化快速跟不上发展；而且它们需要大量的手工工作，人力成本高，效率低下。因此，大量的研究工作致力于从文本、词典、维基百科、搜索引擎等渠道自动提取同义词。根据Turney.P的定义，识别同义词的任务是“给定一个问题词和一组替代词，选择与问题词最相似的替代词组”。目前的大多数研究都是围绕这个定义进行研究，因此以封闭的方式工作。给定问题单词...

【技术保护点】
1.一种基于远程监督的同义词提取方法，其特征在于，包括以下步骤：建立领域中同义词的词汇句法模式模型；构建基于LSTM和CRF的远程监督神经网络学习模型，并使用收集的领域词条进行训练，得到同义词发现的句子序列标注集；基于上述神经网络处理方法与得到的标注集，将待处理语料库中的语句中的候选实体进行标注及配对，抽取实体后得到同义词。

【技术特征摘要】
2018.12.11 CN 20181151158811.一种基于远程监督的同义词提取方法，其特征在于，包括以下步骤：建立领域中同义词的词汇句法模式模型；构建基于LSTM和CRF的远程监督神经网络学习模型，并使用收集的领域词条进行训练，得到同义词发现的句子序列标注集；基于上述神经网络处理方法与得到的标注集，将待处理语料库中的语句中的候选实体进行标注及配对，抽取实体后得到同义词。2.根据权利要求1所述的基于远程监督的同义词提取方法，其特征在于，所述同义词的词汇句法模式包括：X又称(alsonamedas)Y；X即(alsocalledas)YX简称(abbreviatedas)YX别名(alsonamedas)YX俗称(commonlycalledas)YX原名(alsocalledas)YX外文名(Y)。3.根据权利要求1所述的基于远程监督的同义词提取方法，其特征在于，所述神经网络学习模型包括6层结构，具体如下：1-2层为词向量处理层，用于对输入的句子进行分词，构建领域同义词的候选实体的向量；3-5层为LSTM层，用于对候选实体向量进行训练，得到每个实体属于某个模式的可能性；6层为CRF层，用于实现句子序列的标注。4.根据权利要求3所述的基于远程监督的同义词提取方法，其特征在于，所述词向量处理层的处理过程如下：使用NLP分词和POS词性标注方法对输入的句子进行分词，将分词后的含有N个字的句子即实体序列记作x：x＝(x1,x2,...,xn)以全部收集到的词汇集为词典，xi...

【专利技术属性】
技术研发人员：张涛，刘前卫，盛兴，聂庆，谢秋学，贺芳，雍志娟，孙金，吴培培，常秀，张楠，商莹楠，滕家雨，赵生传，张婷婷，田书然，
申请(专利权)人：英大传媒投资集团有限公司，国家电网有限公司，南瑞集团有限公司，国网山东省电力公司烟台供电公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人