一种用于新闻稿件标注的事件分割方法及系统技术方案

技术编号:36348548 阅读:14 留言:0更新日期:2023-01-14 18:03
本发明专利技术提供了一种用于新闻稿件标注的事件分割方法及系统,应用于新闻稿件标注技术领域,该方法包括:通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。人力资源的技术问题。人力资源的技术问题。

【技术实现步骤摘要】
一种用于新闻稿件标注的事件分割方法及系统


[0001]本专利技术涉及新闻稿件标注
,具体涉及一种用于新闻稿件标注的事件分割方法及系统。

技术介绍

[0002]新闻稿件用于体现新闻的客观事实,一般由题目、引言、主题、背景和结论五个部分组成。在完成新闻稿件后,需要通过计算机根据标注内容生成知识图谱,对稿件中的主旨部分进行标注,使得计算机可以清楚快速的获知稿件的主旨内容。在现有技术中,新闻稿件的标注多为工作人员按照标注经验进行新闻稿件的标注,标注效率较低且需要耗费大量的时间和人力资源。
[0003]因此,在现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低,且需要耗费大量的时间和人力资源的技术问题。

技术实现思路

[0004]本申请提供一种用于新闻稿件标注的事件分割方法及系统,用于针对解决现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
[0005]鉴于上述问题,本申请提供了一种用于新闻稿件标注的事件分割方法及系统。
[0006]本申请的第一个方面,提供了一种用于新闻稿件标注的事件分割方法,所述方法包括:采集获得新闻稿件数据;构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;通过所述新闻稿件数据的拆分前排布构建层级关联关系;对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
[0007]本申请的第二个方面,提供了一种用于新闻稿件标注的事件分割系统,所述系统包括:新闻稿件数据采集模块,用于采集获得新闻稿件数据;初始层级拆分模块,用于构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;层级关联关系构建模块,用于通过所述新闻稿件数据的拆分前排布构建层级关联关系;层级特征词标识集合获取模块,用于对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;关联评价结果获取模块,用于基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;关联度评价模块,用于通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;标注结果反馈模块,用于通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
[0008]本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0009]本申请实施例提供的方法通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
[0010]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0011]图1为本申请提供的一种用于新闻稿件标注的事件分割方法流程示意图;
[0012]图2为本申请提供的一种用于新闻稿件标注的事件分割方法中获取结构化特征的流程示意图;
[0013]图3为本申请提供的一种用于新闻稿件标注的事件分割方法中获取事件划分聚合标注结果的流程示意图;
[0014]图4为本申请提供了一种用于新闻稿件标注的事件分割系统结构示意图。
[0015]附图标记说明:新闻稿件数据采集模块11,初始层级拆分模块12,层级关联关系构建模块13,层级特征词标识集合获取模块14,关联评价结果获取模块15,关联度评价模块16,标注结果反馈模块17。
具体实施方式
[0016]本申请提供一种用于新闻稿件标注的事件分割方法及系统,用于针对解决现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
[0017]下面将参考附图对本申请中的技术方案进行清楚、完整地描述。所描述的实施内容例仅为本申请所能实现的部分内容,而不是本申请的全部内容。
[0018]实施例一
[0019]如图1所示,本申请提供了一种用于新闻稿件标注的事件分割方法,所述方法包括:
[0020]步骤100:采集获得新闻稿件数据;
[0021]步骤200:构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
[0022]步骤300:通过所述新闻稿件数据的拆分前排布构建层级关联关系;
[0023]具体的,采集获取新闻稿件数据,构建初始分级特征,其中初始分级特征用于对新
闻稿件数据根据文稿章节或其他标识新闻稿件层级顺序的方式,进行层级划分。根据初始分级特征对新闻稿件数据进行识别划分,将新闻稿件数据根据初始分级特征拆分为多个层级。通过新闻稿件数据的拆分前排布构建层级关联关系,其中层级关联关系,为各层级之间的关联关系,如包含、并列、顺序等层级之间的关联关系,即根据新闻稿件数据拆分前排布顺序获取各层级之间的关联关系。由于稿件撰写完成后计算机并不能直接识别层级之间的关系,因此需要通过初始分级特征对稿件进行初步拆分,并获取拆分结果之间的关联关系,便于后续对稿件进行进一步标注。
[0024]步骤400:对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
[0025]步骤500:基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;
[0026]步骤600:通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
[0027]步骤700:通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
[0028]具体的,对初始层级拆分结果进行逐层级特征词识别,即根据初始层级拆分结果逐级对拆分结果进行特征词识别,识别其中包含该层级主旨的特征词,在进行特征词识别时可以通过文本关键词提取算法进行特征词提取,根据提取结果生成层级特征词标识集合。随后基于结构化特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于新闻稿件标注的事件分割方法,其特征在于,所述方法包括:采集获得新闻稿件数据;构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;通过所述新闻稿件数据的拆分前排布构建层级关联关系;对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。2.如权利要求1所述的方法,其特征在于,所述方法还包括:构建结构化特征分类标签,其中,所述结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签;通过大数据进行所述结构化特征分类标签的数据特征填充,生成初始特征填充结果;对所述初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征。3.如权利要求1所述的方法,其特征在于,所述方法还包括:构建事件关键词特征;通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,获得初始聚合结果;对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,获得匹配结果;通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件划分聚合标注结果。4.如权利要求1所述的方法,其特征在于,所述方法还包括:对所述初始层级拆分结果进行句用识别,生成句用分类识别结果;基于所述句用分类识别结果进行所述初始层级拆分结果的句用标识;将句用标识结果添加至所述事件划分聚合标注结果中。5.如权利要求4所述的方法,其特...

【专利技术属性】
技术研发人员:宋永生王楠
申请(专利权)人:文灵科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1