新闻事件的识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:21200231 阅读:27 留言:0更新日期:2019-05-25 01:21
本申请实施例提供了一种新闻事件的识别方法、装置、设备及可读存储介质。该方法包括:采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据句子上下文特征,事件主体特征及用户搜索行为特征采用优化的深度学习模型对目标新闻资讯文本进行是否为新闻事件的识别,由于在进行目标新闻资讯文本的识别时,获取了是否包含事件关键特征,将这些特征采用优化的深度学习模型进行特征学习和识别,优化的深度学习模型能够将特征学习融入到模型训练中,自动从数据中学习合适的特征,减少了特征学习的时间,提高了识别的效率,并且提高了新闻事件识别的准确率。

Recognition Method, Device, Equipment and Readable Storage Media of News Events

The embodiment of the application provides a method, device, device and readable storage medium for identifying news events. The method includes: extracting sentence context features of target news information text by using optimized in-depth learning model; acquiring event subject characteristics and user search behavior characteristics of target news information text; using optimized in-depth learning model to determine whether target news information text is news or not according to sentence context characteristics, event subject characteristics and user search behavior characteristics. In the recognition of target news information text, the key features of events are acquired. The optimized deep learning model is used for feature learning and recognition. The optimized deep learning model can integrate feature learning into model training, automatically learn appropriate features from data, reduce the time of feature learning, and improve the performance of feature learning. The efficiency of recognition and the accuracy of news event recognition are improved.

【技术实现步骤摘要】
新闻事件的识别方法、装置、设备及可读存储介质
本申请实施例涉及数据处理
,尤其涉及一种新闻事件的识别方法、装置、设备及可读存储介质。
技术介绍
随着互联网的快速普及,网络信息呈爆炸式增长,每个人需要花费大量的精力去对信息进行筛选。当用户想要了解近期发生的事情,或者关注某个人、某个组织时,需要从大量未经过筛选整理的新闻资讯中,挑选出重要的信息。如果能够自动的从资讯中将非事件(比如广告、健康知识等)去掉,仅将包含事件的资讯呈现给用户,就能够大大减少用户信息筛选的成本,能够以最快的速度了解外界发生的变化。现有技术中利用文本内容和时间戳这两个信息识别新闻资讯是否为新闻事件。具体地,事件可以表示为{参与者,地点,关键词,时间戳}的集合,对参与者、地点、关键词、时间戳单独建立概率模型,采用概率模型对文本内容进行特征提取,通过朴素贝叶斯分类器识别新闻资讯中是否为新闻事件。现有的新闻事件的识别方法,由于提取文本中的参与者,地点,关键词,时间戳的构成的事件因素建立概率模型,会引入大量的噪声信息。并且现有技术中并没有考虑文本中是否包括事件的一个重要特征是文本中潜在的实体和动作之间是否有关联,导致了现有技术中的识别准确率较低,并且现有技术中采用传统的机器学习方法训练模型,需要做非常多的特征工程,特征工程是一个非常耗时耗力且目前难以找到合适分类的特征,导致识别的时间较长,准确率较低。
技术实现思路
本申请实施例提供一种新闻事件的识别方法、装置、设备及可读存储介质。解决了现有技术中的新闻事件的识别方法中识别的时间较长,准确率较低的技术问题。本申请实施例第一方面提供一种新闻事件的识别方法,包括:采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取所述目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。本申请实施例第二方面提供一种新闻事件的识别装置,包括:句子上下文特征提取模块,用于采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;事件主体特征获取模块,用于获取所述目标新闻资讯文本的事件主体特征;用户搜索行为特征获取模块,用于获取所述目标新闻资讯文本的用户搜索行为特征;新闻事件识别模块,用于根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。本申请实施例第三方面提供一种电子设备,存储器,处理器以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行如上述第一方面所述的方法。基于以上各方面,本申请实施例通过采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据句子上下文特征,事件主体特征及用户搜索行为特征采用优化的深度学习模型对目标新闻资讯文本进行是否为新闻事件的识别,由于在进行目标新闻资讯文本的识别时,获取了是否包含事件的关键特征:事件主体特征和句子上下文特征,并且用户搜索行为特征也反映是否包含事件的特征,将这些特征采用优化的深度学习模型进行特征学习和识别,优化的深度学习模型能够将特征学习融入到模型训练中,自动从数据中学习合适的特征,减少了特征学习的时间,提高了识别的效率,并且提高了新闻事件识别的准确率。应当理解,上述
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。附图说明图1为本申请实施例提供的新闻事件的识别方法的一种应用场景图;图2为本申请实施例一提供的新闻事件的识别方法的流程图;图3为本申请实施例二提供的新闻事件的识别方法的流程图;图4为本申请实施例二中采用优化的卷积神经网络模型进行识别的流程示意图;图5为本申请实施例二提供的新闻事件的识别方法中步骤305的流程图;图6为本申请实施例二提供的新闻事件的识别方法中步骤305b的流程图;图7为本申请实施例二提供的新闻事件的识别方法中步骤305b2的流程图;图8为本申请实施例二提供的新闻事件的识别方法中步骤305b3的流程图;图9为本申请实施例二提供的新闻事件的识别方法中步骤306的流程图;图10为本申请实施例二提供的新闻事件的识别方法中步骤307的流程图;图11为本申请实施例二提供的新闻事件的识别方法中步骤308的流程图;图12为本申请实施例三提供的新闻事件的识别装置的结构示意图;图13为本申请实施例四提供的新闻事件的识别装置的结构示意图;图14为本申请实施例五提供的电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了清楚理解本申请的技术方案,下面对本申请中涉及的算法进行解释:深度学习模型:深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。下面对本申请实施例提供的新闻事件的识别方法的应用场景进行介绍。图1为本申请实施例提供的新闻事件的识别方法的一种应用场景图,如图1所示,用户在浏览新闻资讯时,经常会出现广告,健康知识等非事件类新闻资讯。用户需要从未经筛选的新闻资讯中,剔除掉非事件类新闻资讯。本实施例中,在将新闻资讯通过终端设备展示给用户前,均作为目标新闻资讯文本,通过优化的深度学习模型对每个目标新闻资讯文本进行是否为事件新闻资讯的识别,被识别出的非事件新闻资讯被删除,被识别出的事件新闻资讯展示在用户终端设备上,便于用户对新闻资讯的浏览,提高用户浏览新闻资讯的体验,并且采用深度学习模型能够对目标新闻资讯文本是否为事件新闻资讯进行有效的识别。以下将参照附图来具体描述本申请的实施例。实施例一图2为本申请实施例一提供的新闻事件的识别方法的流程图,如图2所示,本申请实施例的执行主体为新闻本文档来自技高网
...

【技术保护点】
1.一种新闻事件的识别方法,其特征在于,包括:采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取所述目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。

【技术特征摘要】
1.一种新闻事件的识别方法,其特征在于,包括:采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取所述目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。2.根据权利要求1所述的方法,其特征在于,所述优化的深度学习模型为优化的卷积神经网络模型,所述优化的卷积神经网络模型包括:输入层和卷积层;所述句子上下文特征为句子上下文向量;所述采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征,具体包括:所述输入层将所述目标新闻资讯文本进行分词处理,以获取所述目标新闻资讯文本的每个词语;所述输入层对每个词语进行向量化处理,获得每个词语的总向量,所述总向量由词向量,位置向量及词性向量拼接而成;所述卷积层对每个词语的总向量进行卷积处理,以提取每个词语的局部特征向量;所述卷积层对每个词语的局部特征向量进行池化处理,以获得每个词语的最优特征值;所述卷积层对所有词语的最优特征值进行非线性变换,获得所述句子上下文向量。3.根据权利要求2所述的方法,其特征在于,所述输入层对每个词语进行向量化处理,获得每个词语的总向量,具体包括:所述输入层对每个词语进行词向量化处理,以获得每个词语的词向量;所述输入层对每个词语进行位置向量化处理,以获得每个词语的位置向量;所述输入层对每个词语进行词性向量化处理,以获得每个词语的词性向量。4.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行词向量化处理,以获得每个词语的词向量,具体为:所述输入层中的词向量模型对每个词语进行词向量识别,输出每个词语的词向量;其中,所述词向量模型是通过新闻资讯文本中的语料训练获得的。5.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行位置向量化处理,以获得每个词语的位置向量,具体包括:所述输入层识别所述目标新闻资讯文本中的第一预设个数的实体和第二预设个数的动词;所述输入层计算每个词语与所述实体和所述动词的相对位置;所述输入层将所述相对位置映射到正态分布向量上,形成每个词语的位置向量。6.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行词性向量化处理,以获得每个词语的词性向量,具体包括:所述输入层确定每个词语的词性;所述输入层将每个词语的词性映射为对应的词性向量。7.根据权利要求2所述的方法,其特征在于,所述卷积层对所有词语的最优特征值进行非线性变换,获得所述句子上下文向量,具体为:所述卷积层对所有词语的最优特征值进行双曲正切变换,获得所述句子上下文向量。8.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:潘禄陈玉光彭卫华罗雨陈亮陈文浩周辉郑宇宏陈伟娜韩翠云
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1