一种实体关系抽取方法技术

技术编号：26478739 阅读：16 留言：0更新日期：2020-11-25 19:22

本发明专利技术提出了一种实体关系抽取方法，属于实体关系抽取领域，本发明专利技术的方法为：构建语料库；选取语料库的数据进行标注得到标注数据集；并根据语料库构建正则模板，再通过正则模板对语料库的数据进行标注得到扩充数据集；将标注数据集和扩充数据集分为训练集和测试集；利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；利用正则模板对测试集进行匹配得到分类结果；根据关系分类结果和匹配分类结果得到最终关系抽取结果。本发明专利技术克服了现有技术中仅使用神经网络模型进行实体关系抽取，抽取时标注数据量较少且抽取效果不佳的不足，本发明专利技术通过利用正则模板可以扩充标注数据量，并且可提高实体关系抽取的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体关系抽取方法
本专利技术属于实体关系抽取领域，具体地说，涉及一种实体关系抽取方法。
技术介绍
实体关系抽取的任务是对文本中的实体对进行语义识别，根据其在文本和语句中的含义，判断他们之间是否具有关系或者属于什么类型的关系。目前主流的技术有基于依存分析和基于模板匹配的方式，由于在英文语句中，文本成分间相互依存和被依存的现象普遍存在，并且词的词性较为明确，可以准确挖掘出依存分析的核心谓词，所以依存分析的关系抽取适用于英文文本，单纯的模板匹配则需要大量专家的参与，并且人工成本很大，并且在将抽取规则应用于别的领域时候，往往受到限制，具有很强的专业性和局限性。随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破。机器学习的方法在实体关系抽取中应用非常广泛，无监督、弱监督和有监督的机器学习方法都在实体关系抽取中得到了相应的研究，基于无监督、弱监督的学习方法不需要太多的人工标注好的样本数据，在训练学习中减少了对样本数据标签的依赖，但是训练过程容易被噪声干扰，降低实体关系抽取性能。除了无监督和弱监督的实体关系抽取方法，基于有监督学习的抽取方法在多个领域得到了研究和应用，也取得较好的抽取效果。有监督学习的实体关系抽取方法相对需要更多的精力投入，抽取模型会依赖于较多的已经标注好的数据集，需要充分的标注数据才能使实体关系抽取模型的训练过程顺利进行，而得到这些标注数据较为费时费力，所以有监督学习的一般前提是要有足够的人工劳动量的投入。现有技术中一般是采用神经网络对实体关系进行抽取，例如专利技术创造名...

【技术保护点】
1.一种实体关系抽取方法，其特征在于，包括/n构建语料库；/n选取语料库的数据进行标注得到标注数据集；并根据语料库构建正则模板，再通过正则模板对语料库的数据进行标注得到扩充数据集；/n将标注数据集和扩充数据集分为训练集和测试集；/n利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；/n利用正则模板对测试集进行匹配得到分类结果；/n根据关系分类结果和匹配分类结果得到最终关系抽取结果。/n

【技术特征摘要】
1.一种实体关系抽取方法，其特征在于，包括
构建语料库；
选取语料库的数据进行标注得到标注数据集；并根据语料库构建正则模板，再通过正则模板对语料库的数据进行标注得到扩充数据集；
将标注数据集和扩充数据集分为训练集和测试集；
利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；
利用正则模板对测试集进行匹配得到分类结果；
根据关系分类结果和匹配分类结果得到最终关系抽取结果。

2.根据权利要求1所述的一种实体关系抽取方法，其特征在于，根据语料库构建正则模板的具体过程为：
步骤2-1：从语料库中随机抽取若干篇文本，根据若干篇文本构建正则模板；
步骤2-2：通过标注数据集对正则模板进行测试得到测试结果，测试结果包括准确率和召回率；根据测试结果中的召回率补充对应的正则模板；
步骤2-3：重复步骤2-2，直至测试结果的准确率和召回率达到阈值，得到构建完毕的正则模板。

3.根据权利要求1所述的一种实体关系抽取方法，其特征在于，获取关系分类结果的具体过程为：
将训练集导入神经网络模型；
神经网络模型根据训练集获取实体特征和文本特征；
根据实体特征和文本特征对测试集进行处理获取关系分类结果。

4.根据权利要求1所述的一种实体关系抽取方法，其特征在于，根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为：
若关系分类结果和匹配分类结果相同，则将关系分类结果和匹配分类结果作为最...

【专利技术属性】
技术研发人员：张雨豪，吴刚，
申请(专利权)人：南京柯基数据科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人