【技术实现步骤摘要】
一种基于远程监督的同义词提取方法
本专利技术涉及自然语言处理
,具体涉及一种基于远程监督的同义词提取方法。
技术介绍
当前各种网络知识信息极大丰富,在文本知识机器理解方面,现有的字典词典是为人类学习和使用提供辅助,只是传统词典包含许多同义词,但这些词典是为人类搜索而编写的,很难被机器读取。为了获得机器可读的同义词数据库,当前已建立了一些同义词词典,如Princeton大学的心理学家创建的WordNet项目,它总共包含超过117,000个同义词,其中单词之间的主要关系是同义词。在某些领域,如电力和医药,还有许多手工建立的域名同义词词典或百科全书。对于手动构建的同义词数据库,准确性很好,但限制也很明显,其覆盖范围太窄,封闭性又强,知识老化快速跟不上发展;而且它们需要大量的手工工作,人力成本高,效率低下。因此,大量的研究工作致力于从文本、词典、维基百科、搜索引擎等渠道自动提取同义词。根据Turney.P的定义,识别同义词的任务是“给定一个问题词和一组替代词,选择与问题词最相似的替代词组”。目前的大多数研究都是围绕这个定义进行研究,因此以封闭的方式工作。给定问题单词 ...
【技术保护点】
1.一种基于远程监督的同义词提取方法,其特征在于,包括以下步骤:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。
【技术特征摘要】
2018.12.11 CN 20181151158811.一种基于远程监督的同义词提取方法,其特征在于,包括以下步骤:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。2.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述同义词的词汇句法模式包括:X又称(alsonamedas)Y;X即(alsocalledas)YX简称(abbreviatedas)YX别名(alsonamedas)YX俗称(commonlycalledas)YX原名(alsocalledas)YX外文名(Y)。3.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述神经网络学习模型包括6层结构,具体如下:1-2层为词向量处理层,用于对输入的句子进行分词,构建领域同义词的候选实体的向量;3-5层为LSTM层,用于对候选实体向量进行训练,得到每个实体属于某个模式的可能性;6层为CRF层,用于实现句子序列的标注。4.根据权利要求3所述的基于远程监督的同义词提取方法,其特征在于,所述词向量处理层的处理过程如下:使用NLP分词和POS词性标注方法对输入的句子进行分词,将分词后的含有N个字的句子即实体序列记作x:x=(x1,x2,...,xn)以全部收集到的词汇集为词典,xi...
【专利技术属性】
技术研发人员:张涛,刘前卫,盛兴,聂庆,谢秋学,贺芳,雍志娟,孙金,吴培培,常秀,张楠,商莹楠,滕家雨,赵生传,张婷婷,田书然,
申请(专利权)人:英大传媒投资集团有限公司,国家电网有限公司,南瑞集团有限公司,国网山东省电力公司烟台供电公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。