基于文本的事件识别方法和装置制造方法及图纸

技术编号:19009141 阅读:39 留言:0更新日期:2018-09-22 09:00
本发明专利技术提出一种基于文本的事件识别方法和装置,其中,方法包括:获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。该方法能够实现利用预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,提升事件识别的实时性及准确性。

Text based event recognition method and device

The invention provides a text-based event recognition method and device, wherein the method includes: acquiring the text to be recognized; querying the pre-established event probability model according to the text to be recognized, and obtaining the event probability of each word contained in the text to be recognized; and the event probability model is used to indicate the words in the event dictionary. Event probability, the event probability of words used as indicators to describe the probability of events; according to the event probability of the words contained in the text to be identified, the characteristics of the text to be identified are generated; the features of the text to be identified are input into the pre-trained event classification model to treat the recognition text according to the output value of the event classification model. Line event recognition. This method can make use of the pre-established event probability model and the pre-trained event classification model to recognize the text to be recognized, so as to improve the real-time and accuracy of event recognition.

【技术实现步骤摘要】
基于文本的事件识别方法和装置
本专利技术涉及信息处理
,尤其涉及一种基于文本的事件识别方法和装置。
技术介绍
随着互联网技术的不断发展,互联网的信息呈现爆发式的增长,可能发生信息过载的问题。例如,当用户想要关注某个人物或者公司时,用户可以通过搜索引擎,输入该人物或公司的名称,而后,可以在搜索引擎的显示页面获取搜索结果。实际应用时,可以发现,用户通过互联网获取的是大量未经整理的新闻文本。如果能够将互联网中大量的新闻文本以“事件”为粒度进行组织,并呈现给用户,就能够大大减少用户获取新闻文本的时间成本,使用户以最少的时间了解到相关人物的最新进展。现有技术中,采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于文本的事件识别方法,以实现利用预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,用于解决现有采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。本专利技术的第二个目的在于提出一种基于文本的事件识别装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于文本的事件识别方法,包括:获取待识别文本;根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。本专利技术实施例的基于文本的事件识别方法,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,解决现有技术中采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。为达上述目的,本专利技术第二方面实施例提出了一种基于文本的事件识别装置,包括:获取模块,用于获取待识别文本;查询模块,用于根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;生成模块,用于根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;识别模块,用于将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。本专利技术实施例的基于文本的事件识别装置,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,解决现有技术中采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本专利技术第一方面实施例所述的基于文本的事件识别方法。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本专利技术第一方面实施例所述的基于文本的事件识别方法。为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如本专利技术第一方面实施例所述的基于文本的事件识别方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种基于文本的事件识别方法的流程示意图;图2为本专利技术实施例所提供的另一种基于文本的事件识别方法的流程示意图;图3为本专利技术实施例所提供的一种基于文本的事件识别装置的结构示意图;图4为本专利技术实施例所提供的另一种基于文本的事件识别装置的结构示意图;以及图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。针对现有采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此将导致针对待识别文本的事件识别的时效性较低的技术问题,本专利技术实施例通过预先建立事件概率模型,以及预先训练事件分类模型,当获取待识别文本后,根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率,根据待识别文本中所含各词的事件概率,生成待识别文本的特征,而后将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别,能够提升时间识别的准确性和实时性。下面参考附图描述本专利技术实施例的基于文本的事件识别方法和装置。图1为本专利技术实施例所提供的一种基于文本的事件识别方法的流程示意图。该基于文本的事件识别方法可以应用于电子设备的搜索引擎中,其中,搜索引擎是指从互联网搜集信息提供给用户进行查询的系统,电子设备例如为个人电脑(PersonalComputer,PC),云端设备或者移动设备,移动设备例如智能手机,或者平板电脑等。如图1所示,该基于文本的事件识别方法包括以下步骤:步骤101,获取待识别文本。本专利技术实施例中,可以提供用户手动输入检索词的文本框,以供用户在文本框中输入或者检索词,或者,提供用本文档来自技高网...
基于文本的事件识别方法和装置

【技术保护点】
1.一种基于文本的事件识别方法,其特征在于,包括以下步骤:获取待识别文本;根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。

【技术特征摘要】
1.一种基于文本的事件识别方法,其特征在于,包括以下步骤:获取待识别文本;根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。2.根据权利要求1所述的事件识别方法,其特征在于,所述根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率之前,还包括:根据新闻文本生成训练样本;对每一个训练样本进行分词,根据分词得到的各词生成所述事件词典;针对所述事件词典中每一个词进行统计,以确定包含所述词的训练样本数;根据每一个词对应的训练样本数,生成每一个词的事件概率。3.根据权利要求2所述的事件识别方法,其特征在于,所述根据每一个词对应的训练样本数,生成每一个词的事件概率,包括:将包含词w的训练样本数Nw代入到公式f(w)=Nw/Nt,得到词w的事件概率f(w);其中,Nt为训练样本总数。4.根据权利要求2所述的事件识别方法,其特征在于,所述根据新闻文本生成训练样本,包括:根据所述新闻文本的标题,生成所述训练样本。5.根据权利要求1-4任一项所述的事件识别方法,其特征在于,所述根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征,包括:确定所述待识别文本中所含各词的事件概率的最大值;将所述最大值作为所述待识别文本的一个特征。6.根据权利要求5所述的事件识别方法,其特征在于,所述待识别文本的特征还包括:所述待识别文本的长度和/或所述待识别文本是否具有疑问语气。7.根据权利要求1-4任一项所述的事件识别方法,其特征在于,所述将所述待识别文本的特征输入预先训练的事件...

【专利技术属性】
技术研发人员:陈奇石沈剑平陈玉光赵斌文陈伟娜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1