事件触发词的识别方法、装置、电子设备制造方法及图纸

技术编号:21952755 阅读:52 留言:0更新日期:2019-08-24 17:50
本发明专利技术涉及计算机技术领域,提供了一种事件触发词的识别方法、装置及电子设备,该事件触发词的识别方法包括:获取多个文本,对所述文本进行分词以形成词序列,并根据所述文本的事件类型确定所述文本的主题;基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇‑主题分布矩阵,其中所述词汇为所述词序列中的词汇,所述主题与所述事件类型相对应;根据所述词汇‑主题分布矩阵确定目标文本中的事件触发词。本发明专利技术能够降低事件标注的成本,提高事件触发词的识别准确率和识别效率。

Recognition Method, Device and Electronic Equipment of Event Trigger Words

【技术实现步骤摘要】
事件触发词的识别方法、装置、电子设备
本专利技术涉及计算机领域,特别涉及一种事件触发词的识别方法、事件触发词的识别装置、及电子设备。
技术介绍
随着计算机技术的飞速发展,越来越多的人愿意在互联网上分享经验、知识,互联网上堆积了大量的文本信息,而这些信息往往是以无边界半结构化的形式存在,想从海量的数据中发现直观的感兴趣的知识难度很大,因此人们需要将事件和事件关系抽取出来,组成直观、有效的知识。事件抽取属于信息抽取的重要组成部分,ACE(AutomaticContextExtraction)评测会议中对事件给出的定义为:事件是发生在某个特定时间(时间段)和某个特定地域范围内,由一个或多个角色参与的,由一个或多个动作构成的事情或状态的改变。事件触发词是事件的核心,直接表明事件的发生,是决定事件类别的最主要特征。目前识别事件触发词的方法主要有有监督的方法和无监督的方法,但是有监督的方法依赖标注数据,需要标注出事件类型和触发词,标注成本高昂且可扩展性受限;无监督的方法不需要标注数据,但是只能处理开放领域的事件抽取,无法处理预定义类型的事件抽取。鉴于此,本领域亟需开发一种新的事件触发词的识别方法。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种事件触发词的识别方法、事件触发词的识别装置及电子设备,进而至少在一定程度上提高事件触发词的识别精度和效率,降低事件标注的成本,提高用户体验。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面,提供一种事件触发词的识别方法,其特征在于,包括:获取多个文本,对所述文本进行分词以形成词序列,并根据所述文本的事件类型确定所述文本的主题;基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,其中所述词汇为所述词序列中的词汇,所述主题与所述事件类型相对应;根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。根据本专利技术实施例的一个方面,提供了一种事件触发词的识别装置,其特征在于,包括:主题设定模块,用于获取多个文本,对所述文本进行分词以形成词序列,并根据所述文本的事件类型确定所述文本的主题;模型处理模块,用于基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,其中所述词汇为所述词序列中的词汇,并且所述主题与所述事件类型相对应;第一触发词确定模块,用于根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。根据本专利技术实施例的一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的事件触发词的识别方法。由上述技术方案可知,本专利技术示例性实施例中的事件触发词的识别方法及装置、电子设备至少具备以下优点和积极效果:本专利技术通过对文本进行分词并确定主题后,通过文本主题生成模型对文本中的词汇在各个主题上的分布进行推理,获取词汇-主题分布矩阵;然后根据词汇-主题分布矩阵确定目标文本中的事件触发词。本专利技术一方面能够基于标注的事件类型识别出文本中的事件触发词,降低了事件标注的成本,提高了识别准确率;另一方面,在对文本进行分词后还可以对分词形成的词汇进行词性标注,识别命名实体并进行匿名操作,模型根据匿名了命名实体的文本能够更准确地学习到正确的特征,提高事件触发词的识别准确率;再一方面,获取事件触发词后,可以根据事件触发词的置信度对事件触发词进行筛选,进一步提高了识别的准确度。本专利技术应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了可以应用本专利技术实施例的事件触发词的识别方法及装置的示例性系统架构的示意图;图2示出了适于用来实现本专利技术实施例的电子设备的计算机系统的结构示意图;图3示意性示出了根据本专利技术的一实施例的事件触发词的识别方法的流程示意图;图4示意性示出了根据本专利技术的一实施例的LabeledLDA在事件触发词的识别中的生成过程示意图;图5示意性示出了根据本专利技术的一实施例的确定事件触发词的流程示意图;图6示意性示出了根据本专利技术的一实施例的识别事件触发词的流程示意图;图7示意性示出了根据本专利技术的一实施例的筛选事件触发词的流程示意图;图8示意性示出了根据本专利技术的一实施例的事件触发词的识别装置的结构示意图;图9示意性示出了根据本专利技术的一实施例的事件触发词的识别装置的结构示意图;图10示意性示出了根据本专利技术的一实施例的事件触发词的识别装置的结构示意图;图11示意性示出了根据本专利技术的一实施例的事件触发词的识别装置的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本专利技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本专利技术的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。图1示出了可以应用本专利技术实施例的事件触发词的识别方法、事件触发词的识别装置的示例性系统架构100的示意图。如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。应该理解,图1中的终端设备101、网络102和服务器103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、逻辑服务器、存储服务器等。比如服务器103可以是多个服务器组成的服务器集群等。用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送信息等。终端设备101可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。服务器103可以是提供各种服务的代理服本文档来自技高网...

【技术保护点】
1.一种事件触发词的识别方法,其特征在于,包括:获取多个文本,对所述文本进行分词以形成词序列,并根据所述文本的事件类型确定所述文本的主题;基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇‑主题分布矩阵,其中所述词汇为所述词序列中的词汇,所述主题与所述事件类型相对应;根据所述词汇‑主题分布矩阵确定目标文本中的事件触发词。

【技术特征摘要】
1.一种事件触发词的识别方法,其特征在于,包括:获取多个文本,对所述文本进行分词以形成词序列,并根据所述文本的事件类型确定所述文本的主题;基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,其中所述词汇为所述词序列中的词汇,所述主题与所述事件类型相对应;根据所述词汇-主题分布矩阵确定目标文本中的事件触发词。2.根据权利要求1所述的事件触发词的识别方法,其特征在于,对所述文本进行分词以形成词序列,包括:对所述文本进行分词以获取词汇,并对所述词汇进行词性标注,以获取标有词性信息的词序列。3.根据权利要求1所述的事件触发词的识别方法,其特征在于,所述主题包括第一主题和第二主题,所述第一主题为与所述文本中目标事件的触发相关的主题,所述第二主题为与所述目标事件的触发不相关的主题。4.根据权利要求2所述的事件触发词的识别方法,其特征在于,对所述文本进行分词以形成词序列,包括:获取所述词序列中的命名实体;将所述命名实体进行匿名操作,仅保留所述命名实体的类型信息。5.根据权利要求1所述的事件触发词的识别方法,其特征在于,基于所述主题,通过文本主题生成模型对所述文本进行处理以获得词汇-主题分布矩阵,包括:将所述文本中的词汇所对应的主题分布限定于所述主题上;通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵。6.根据权利要求5所述的事件触发词的识别方法,其特征在于,通过所述文本主题生成模型对所述文本进行处理以获得所述词汇-主题分布矩阵,包括通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题;根据所述目标主题,通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇,其中所述目标主题的分布和所述目标词汇的分布均服从多项式分布;根据所述目标主题和所述目标词汇确定所述词汇-主题分布矩阵。7.根据权利要求6所述的事件触发词的识别方法,其特征在于,根据所述目标主题,通过所述文本主题生成模型为所述文本的各词汇位置生成目标词汇,包括:获取所述文本的事件类型的数量,并对所述文本的事件类型进行编号;根据所述文本中的词汇量确定第一超参数;根据所述第一超参数确定第一参数,所述第一参数为目标主题-目标词汇的分布的参数;根据所述目标主题和所述第一参数确定所述目标词汇。8.根据权利要求6或7所述的事件触发词的识别方法,其特征在于,通过所述文本主题生成模型为所述文本的各词汇位置生成目标主题,包...

【专利技术属性】
技术研发人员:刘树林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1