一种面向对话文本的事件抽取方法及系统技术方案

技术编号:28500650 阅读:40 留言:0更新日期:2021-05-19 22:43
本发明专利技术涉及一种面向对话文本的事件抽取方法及系统,其方法包括:步骤S1:周期性获取对话文本集;步骤S2:对对话文本集进行两次过滤,得到事件相关对话文本集;步骤S3:创建事件模板,在事件相关对话文本集中,根据事件模板,并通过事件模板中的触发词进行事件类别划分,得到候选事件;对候选事件进行事件元素进行识别,实现从对话文本集的事件抽取。本发明专利技术提供的一种面向对话文本的事件抽取方法及系统,基于模式识别与机器学习方法相结合进行事件抽取,节约事件模板编制成本,降低数据稀疏性,提高事件抽取准确率。高事件抽取准确率。高事件抽取准确率。

【技术实现步骤摘要】
一种面向对话文本的事件抽取方法及系统


[0001]本专利技术属于文本识别与机器学习领域,特别涉及了一种面向对话文本的事件抽取方法及系统。

技术介绍

[0002]事件抽取即从非结构化文本中抽取事件信息,具体抽取事件触发词、人物、地点等在内的事件组成要素等,并最终呈现为结构化文本。事件抽取作为信息抽取领域的重要研究方向之一,在舆情分析、信息检索等领域被广泛应用。
[0003]事件抽取常采用以下两种方法:基于模式识别的事件抽取方法及基于机器学习的事件抽取方法。基于模式识别的事件抽取方法是利用模式匹配算法对句子和模板进行匹配,实现事件的识别和抽取。模式匹配由模式获取和事件抽取两部分组成,其中,专家学者长期以来致力于研究模式获取算法,并推出PALKA、AutoSlog

TS、TIMES等模式学习系统。该方法事件抽取的准确率较高,但其弊端在于对特定语言、领域以及文本格式依赖程度高,可移植性差,编制过程耗时长。
[0004]基于机器学习的事件抽取方法核心在于对文本进行特征选择及构造二元或者多元分类器,通过分类的方式识别事件类别及事件元素。根据不同数据源驱动将事件抽取分为事件元素驱动、触发词驱动以及事件实例驱动。事件元素驱动引入最大熵分类器,实现事件元素的识别工作;触发词驱动旨在判断句子中包含的词语是否为触发词,利用多分类器对实例进行训练;事件实例驱动分别对事件实例以及非事件实例的特征进行分析,构造二元分类器将文本中的非事件句子剔除,并采用多知识融合表示候选事件实例。该方法的弊端在于会受语料库规模的影响,数据稀疏问题比较严重,和模式匹配相比准确率较低。
[0005]目前,大多数事件抽取的研究工作集中在如何从新闻类等相对有规律的文本中进行事件抽取,针对对话类文本的事件抽取的研究工作相对较少。其中,对话文本是指面向社交互动的非结构化数据,如聊天记录、贴吧等。现有的事件抽取方法在针对对话文本进行事件抽取在以下方面存在限制:
[0006]1、对话文本上下文逻辑连贯性弱,且对话文本表述方式更口语化、语言混乱复杂、文本长度不固定、事件要素分散于不同时间片中,进行事件抽取更为困难;
[0007]2、传统的基于模式识别的事件抽取方法,模板定义死板,抽取对象大多为新闻文本,对于对话文本的事件抽取自适应性及可移植性差;
[0008]3、传统的基于机器学习的事件抽取方法,数据稀疏问题严重,且准确率不高。
[0009]因此,如何能节约事件模板编制成本,降低数据稀疏性,提高事件抽取准确率,成为一个亟待解决的问题。

技术实现思路

[0010]为了解决上述技术问题,本专利技术提供一种面向对话文本的事件抽取方法及系统。
[0011]本专利技术技术解决方案为:一种面向对话文本的事件抽取方法,包括:
[0012]步骤S1:周期性获取对话文本集;
[0013]步骤S2:对所述对话文本集进行两次过滤,得到事件相关的对话文本集;
[0014]步骤S3:创建事件模板,在所述事件相关的对话文本集中,根据所述事件模板,并通过所述事件模板中的触发词进行事件类别划分,得到候选事件;对所述候选事件进行事件元素进行识别,实现从所述对话文本集的事件抽取。
[0015]本专利技术与现有技术相比,具有以下优点:
[0016]本专利技术提供的一种面向对话文本的事件抽取方法及系统,基于模式识别与机器学习方法相结合进行事件抽取,节约事件模板编制成本,降低数据稀疏性,提高事件抽取准确率。
附图说明
[0017]图1为本专利技术实施例中一种面向对话文本的事件抽取方法的流程图;
[0018]图2为本专利技术实施例中一种面向对话文本的事件抽取方法中步骤S2:对对话文本集进行两次过滤,得到事件相关对话文本集的流程图;
[0019]图3为本专利技术实施例中一种面向对话文本的事件抽取方法中步骤S21:对对话文本集进行第一次过滤,并将其中字符数小于预设字符数的文本删除,得到初滤对话文本集的流程图;
[0020]图4为本专利技术实施例中一种面向对话文本的事件抽取方法中步骤S22:基于SVM二分类模型,对初滤对话文本集进行第二次过滤,删除事件不相关对话文本,得到事件相关的对话文本集的流程图;
[0021]图5为本专利技术实施例中对话文本集进行两次过滤的流程示意图;
[0022]图6为本专利技术实施例中一种面向对话文本的事件抽取方法中步骤S3:创建事件模板,在事件相关的对话文本集中,根据事件模板,并通过事件模板中的触发词进行事件类别划分,得到候选事件;对候选事件进行事件元素进行识别,实现从对话文本集的事件抽取的流程图;
[0023]图7为本专利技术实施例中一种面向对话文本的事件抽取系统的结构框图。
具体实施方式
[0024]本专利技术提供了一种面向对话文本的事件抽取方法及系统,基于模式识别与机器学习方法相结合进行事件抽取,节约事件模板编制成本,降低数据稀疏性,提高事件抽取准确率。
[0025]为了使本专利技术的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本专利技术进一步详细说明。
[0026]实施例一
[0027]如图1所示,本专利技术实施例提供了一种面向对话文本的事件抽取方法,包括如下步骤:
[0028]步骤S1:周期性获取对话文本集;
[0029]步骤S2:对对话文本集进行两次过滤,得到事件相关对话文本集;
[0030]步骤S3:创建事件模板,在事件相关对话文本集中,根据事件模板,并通过事件模
板中的触发词进行事件类别划分,得到候选事件;对候选事件进行事件元素进行识别,实现从对话文本集的事件抽取。
[0031]本专利技术提出了一种面向对话文本的事件抽取方法,该方法基于无意义文本库、经验规则以及SVM二分类模型过滤事件无关的对话文本。针对对话文本建立5大事件类型模板,根据对话文本模板确定候选事件,采用机器学习识别事件类别及该类别中包含的事件元素,从而实现从对话文本中抽取事件。
[0032]在一个实施例中,上述步骤S1:周期性获取对话文本集,包括:周期性地从各个开放社区互动平台,获取对话文本集。
[0033]在本步骤中,从开放社区互动平台,周期性地从不同渠道获取对话文本,将对话文本集合表示为D={d
i
|i为整数1≤i≤n},其中n为对话文本总数。
[0034]如图2所示,在一个实施例中,上述步骤S2:对对话文本集进行两次过滤,得到事件相关对话文本集,包括:
[0035]步骤S21:对对话文本集进行第一次过滤,将其中字符数小于预设字符数的文本删除,得到初滤对话文本集;
[0036]在本步骤中,对D中的对话文本d
i
进行第一次过滤,首先基于无意义对话文本库,过滤广告帖、水军帖、以及字数不超过5个字符的短文本帖,得到初滤对话文本集D

={d
i
|i为整数1≤i≤m},其中m为对话文本总数,且m≤n;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向对话文本的事件抽取方法,其特征在于,包括:步骤S1:周期性获取对话文本集;步骤S2:对所述对话文本集进行两次过滤,得到事件相关的对话文本集;步骤S3:创建事件模板,在所述事件相关的对话文本集中,根据所述事件模板,并通过所述事件模板中的触发词进行事件类别划分,得到候选事件;对所述候选事件进行事件元素进行识别,实现从所述对话文本集的事件抽取。2.根据权利要求1所述的一种面向对话文本的事件抽取方法,其特征在于,所述步骤S1:周期性获取对话文本集,包括:周期性地从各个开放社区互动平台,获取所述对话文本集。3.根据权利要求1所述的一种面向对话文本的事件抽取方法,其特征在于,所述步骤S2:对所述对话文本集进行两次过滤,得到事件相关的对话文本集,包括:步骤S21:对所述对话文本集进行第一次过滤,并将其中字符数小于预设字符数的文本删除,得到初滤对话文本集;步骤S22:基于SVM二分类模型,对所述初滤对话文本集进行第二次过滤,删除事件不相关对话文本,得到事件相关的对话文本集。4.根据权利要求3所述的一种面向对话文本的事件抽取方法,其特征在于,所述步骤S21:对所述对话文本集进行第一次过滤,并将其中字符数小于预设字符数的文本删除,得到初滤对话文本集,包括:步骤S211:建立无意义对话文本库;步骤S212:根据所述无意义对话文本库,将所述对话文本集中字符数小于预设字符数的所述对话文本删除,得到所述初滤对话文本集。5.根据权利要求3所述的一种面向对话文本的事件抽取方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:林海伦刘璐刘建坤周永彬
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1