基于远监督技术的新闻文本实体关系抽取样本标注方法技术

技术编号:35281742 阅读:20 留言:0更新日期:2022-10-22 12:24
本发明专利技术公开了基于远监督技术的新闻文本实体关系抽取样本标注方法,包括以下步骤:S1、根据分类后的新闻文本类别选择预先制定好的远监督模板;S2、使用所述远监督模板对待标注样本进行标注;S3、对标注完成的样本进行词频分析,并提取关系关键词;S4、利用提取的所述关系关键词制定关系关键词模板;S5、利用所述关系关键词模板结合开源命名实体识别工具对全量样本进行二次标注;S6、当全量样本二次标注完成后,则实现新闻文本实体关系的标注。有益效果:不仅可以通过远监督的方式对新闻文本数据进行实体关系标注,而且还可以通过人工方式制作远监督模板,从而可以在保证一定准确率的同时实现大批量样本的快速全自动化标注。同时实现大批量样本的快速全自动化标注。同时实现大批量样本的快速全自动化标注。

【技术实现步骤摘要】
基于远监督技术的新闻文本实体关系抽取样本标注方法


[0001]本专利技术涉及自然语言处理
,具体来说,涉及基于远监督技术的新闻文本实体关系抽取样本标注方法。

技术介绍

[0002]实体关系抽取是自然语言处理领域的热门话题之一。具体来说,给定一个句子和其中出现的实体,实体关系抽取模型需要根据句子语义信息推测实体间的关系。例如,给定句子:「清华大学坐落于北京近邻」以及实体「清华大学」与「北京」,模型可以通过语义得到「位于」的关系,并最终抽取出(清华大学,位于,北京)的知识三元组。实体关系抽取是一个经典任务,在过去的20多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。
[0003]神经网络模型虽然对模型的准确率和泛用性的提升显著,但对训练数据的量级和标签质量也有较高要求。样本标注是模型训练前的重要步骤,通过样本标注获得有标签的样本,使有监督学习成为可能。然而,面对高量级的样本数量,人工样本标注费时费力,机器自动标注往往准确率过低,如何通过较小成本获得质量较高的标注样本成为机器学习领域热门的研究课题。
[0004]目前,对于文本的标注一般包括人工文本标注和机器学习文本标注两种,其中,人工文本标注主要是通过人工对文本样本进行精确标注,实现极高的标注准确率,但是,人工标注人力成本高,标注效率很低;而机器学习文本标注主要是通过无监督或半监督的方式对样本进行机器学习训练,根据训练结果对文本进行自动化标注,虽然机器学习标注效率高但准确率很低。
[0005]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]针对相关技术中的问题,本专利技术提出基于远监督技术的新闻文本实体关系抽取样本标注方法,以克服现有相关技术所存在的上述技术问题。
[0007]为此,本专利技术采用的具体技术方案如下:
[0008]基于远监督技术的新闻文本实体关系抽取样本标注方法,该样本标注方法包括以下步骤:
[0009]S1、根据分类后的新闻文本类别选择预先制定好的远监督模板;
[0010]S2、使用所述远监督模板对待标注样本进行标注;
[0011]S3、对标注完成的样本进行词频分析,并提取关系关键词;
[0012]S4、利用提取的所述关系关键词制定关系关键词模板;
[0013]S5、利用所述关系关键词模板结合开源命名实体识别工具对全量样本进行二次标注;
[0014]S6、当全量样本二次标注完成后,则实现新闻文本实体关系的标注。
[0015]进一步的,所述S1中根据分类后的新闻文本类别选择预先制定好的远监督模板之前还包括以下步骤:依据新闻样本主题对待标注样本进行分类处理。
[0016]进一步的,所述S1中根据分类后的新闻文本类别选择预先指定好的远监督模板还包括以下步骤:若样本集未经过分类处理则使用全量远监督模板。
[0017]进一步的,所述远监督模板的制作包括以下步骤:
[0018]指定关系标签:根据业务目标之间的关系确定关系标签;
[0019]实体选择:针对每个关系,选择拥有该关系且具有高置信度的两个实体;
[0020]实体对选择:针对每个关系,选择拥有该关系的多个实体对作为该关系的远监督模板。
[0021]进一步的,所述S2中使用所述远监督模板对待标注样本进行标注具体包括以下步骤:
[0022]当所述待标注样本中出现所述远监督模板中的实体对时,则依据所述远监督模板直接标注实体对之间的关系。
[0023]进一步的,所述S4中利用提取的所述关系关键词制定关系关键词模板具体包括以下步骤:
[0024]S41、将使用所述远监督模板标注后的数据按关系进行分类;
[0025]S42、对分类后的各类数据进行分词处理;
[0026]S43、统计并记录各类关系中词频的预设名次;
[0027]S44、依据预设名次的词频制作关系关键词模板。
[0028]进一步的,所述S5中二次标注具体包括以下步骤:
[0029]按照所述关系关键词模板对样本进行标注,当样本中出现任意一个关键词,则直接将样本标注成对应的关系。
[0030]进一步的,所述S5中二次标注还包括以下步骤:
[0031]若第二标注的标签与第一次标注的标签不一致,则采用第一次标注的标签。
[0032]本专利技术的有益效果为:
[0033]1)、本专利技术不仅可以通过远监督的方式对新闻文本数据进行实体关系标注,而且还可以通过人工方式制作远监督模板,从而可以在保证一定准确率的同时实现大批量样本的快速全自动化标注;
[0034]2)、本专利技术通过人工制定远监督模板,并进行词频分析,大幅度提高了文本实体自动标注的准确率,且人工部分仅限于人工制定远监督模板,实现难度低,标注效率高;
[0035]3)、本专利技术通过可以进行大规模新闻文本的实体关系标注,为后续自然语言处理和深度学习建模提供数据集支持。
附图说明
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是根据本专利技术实施例的基于远监督技术的新闻文本实体关系抽取样本标注方法的流程图。
具体实施方式
[0038]为进一步说明各实施例,本专利技术提供有附图,这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0039]根据本专利技术的实施例,提供了基于远监督技术的新闻文本实体关系抽取样本标注方法。
[0040]现结合附图和具体实施方式对本专利技术进一步说明,如图1所示,根据本专利技术实施例的基于远监督技术的新闻文本实体关系抽取样本标注方法,该样本标注方法包括以下步骤:
[0041]S1、根据分类后的新闻文本类别选择预先制定好的远监督模板;若样本集未经过分类处理则使用全量远监督模板。
[0042]其中,所述S1中根据分类后的新闻文本类别选择预先制定好的远监督模板之前还包括以下步骤:依据新闻样本主题对待标注样本进行分类处理。
[0043]其中,所述远监督模板的制作包括以下步骤:
[0044]指定关系标签:根据业务目标之间的关系确定关系标签;例如需要制作企业关系图谱,可归纳总结常见的企业/企业之间或企业/人之间的关系作为关系标签,例如:竞争、合作、并购、创始人等。
[0045]实体选择:针对每个关系,选择拥有该关系且具有高置信度的两个实体;例如“创始人”关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于远监督技术的新闻文本实体关系抽取样本标注方法,其特征在于,该样本标注方法包括以下步骤:S1、根据分类后的新闻文本类别选择预先制定好的远监督模板;S2、使用所述远监督模板对待标注样本进行标注;S3、对标注完成的样本进行词频分析,并提取关系关键词;S4、利用提取的所述关系关键词制定关系关键词模板;S5、利用所述关系关键词模板结合开源命名实体识别工具对全量样本进行二次标注;S6、当全量样本二次标注完成后,则实现新闻文本实体关系的标注。2.根据权利要求1所述的基于远监督技术的新闻文本实体关系抽取样本标注方法,其特征在于,所述S1中根据分类后的新闻文本类别选择预先制定好的远监督模板之前还包括以下步骤:依据新闻样本主题对待标注样本进行分类处理。3.根据权利要求2所述的基于远监督技术的新闻文本实体关系抽取样本标注方法,其特征在于,所述S1中根据分类后的新闻文本类别选择预先指定好的远监督模板还包括以下步骤:若样本集未经过分类处理则使用全量远监督模板。4.根据权利要求1所述的基于远监督技术的新闻文本实体关系抽取样本标注方法,其特征在于,所述远监督模板的制作包括以下步骤:指定关系标签:根据业务目标之间的关系确定关系标签;实体选择:针对每个关系,选择拥有该关系且具有高置信度的两个实体...

【专利技术属性】
技术研发人员:杨博雅汪德嘉徐文强
申请(专利权)人:北京通付盾人工智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1