The invention provides a text-based event recognition method and device, wherein the method includes: acquiring the text to be recognized; querying the pre-established event probability model according to the text to be recognized, and obtaining the event probability of each word contained in the text to be recognized; and the event probability model is used to indicate the words in the event dictionary. Event probability, the event probability of words used as indicators to describe the probability of events; according to the event probability of the words contained in the text to be identified, the characteristics of the text to be identified are generated; the features of the text to be identified are input into the pre-trained event classification model to treat the recognition text according to the output value of the event classification model. Line event recognition. This method can make use of the pre-established event probability model and the pre-trained event classification model to recognize the text to be recognized, so as to improve the real-time and accuracy of event recognition.
【技术实现步骤摘要】
基于文本的事件识别方法和装置
本专利技术涉及信息处理
,尤其涉及一种基于文本的事件识别方法和装置。
技术介绍
随着互联网技术的不断发展,互联网的信息呈现爆发式的增长,可能发生信息过载的问题。例如,当用户想要关注某个人物或者公司时,用户可以通过搜索引擎,输入该人物或公司的名称,而后,可以在搜索引擎的显示页面获取搜索结果。实际应用时,可以发现,用户通过互联网获取的是大量未经整理的新闻文本。如果能够将互联网中大量的新闻文本以“事件”为粒度进行组织,并呈现给用户,就能够大大减少用户获取新闻文本的时间成本,使用户以最少的时间了解到相关人物的最新进展。现有技术中,采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于文本的事件识别方法,以实现利用预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,用于解决现有采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。本专利技术的第二个目的在于提出一种基于文本的事件识别装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于文 ...
【技术保护点】
1.一种基于文本的事件识别方法,其特征在于,包括以下步骤:获取待识别文本;根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。
【技术特征摘要】
1.一种基于文本的事件识别方法,其特征在于,包括以下步骤:获取待识别文本;根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。2.根据权利要求1所述的事件识别方法,其特征在于,所述根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率之前,还包括:根据新闻文本生成训练样本;对每一个训练样本进行分词,根据分词得到的各词生成所述事件词典;针对所述事件词典中每一个词进行统计,以确定包含所述词的训练样本数;根据每一个词对应的训练样本数,生成每一个词的事件概率。3.根据权利要求2所述的事件识别方法,其特征在于,所述根据每一个词对应的训练样本数,生成每一个词的事件概率,包括:将包含词w的训练样本数Nw代入到公式f(w)=Nw/Nt,得到词w的事件概率f(w);其中,Nt为训练样本总数。4.根据权利要求2所述的事件识别方法,其特征在于,所述根据新闻文本生成训练样本,包括:根据所述新闻文本的标题,生成所述训练样本。5.根据权利要求1-4任一项所述的事件识别方法,其特征在于,所述根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征,包括:确定所述待识别文本中所含各词的事件概率的最大值;将所述最大值作为所述待识别文本的一个特征。6.根据权利要求5所述的事件识别方法,其特征在于,所述待识别文本的特征还包括:所述待识别文本的长度和/或所述待识别文本是否具有疑问语气。7.根据权利要求1-4任一项所述的事件识别方法,其特征在于,所述将所述待识别文本的特征输入预先训练的事件...
【专利技术属性】
技术研发人员:陈奇石,沈剑平,陈玉光,赵斌文,陈伟娜,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。