The embodiment of the application provides a method, device, device and readable storage medium for identifying news events. The method includes: extracting sentence context features of target news information text by using optimized in-depth learning model; acquiring event subject characteristics and user search behavior characteristics of target news information text; using optimized in-depth learning model to determine whether target news information text is news or not according to sentence context characteristics, event subject characteristics and user search behavior characteristics. In the recognition of target news information text, the key features of events are acquired. The optimized deep learning model is used for feature learning and recognition. The optimized deep learning model can integrate feature learning into model training, automatically learn appropriate features from data, reduce the time of feature learning, and improve the performance of feature learning. The efficiency of recognition and the accuracy of news event recognition are improved.
【技术实现步骤摘要】
新闻事件的识别方法、装置、设备及可读存储介质
本申请实施例涉及数据处理
,尤其涉及一种新闻事件的识别方法、装置、设备及可读存储介质。
技术介绍
随着互联网的快速普及,网络信息呈爆炸式增长,每个人需要花费大量的精力去对信息进行筛选。当用户想要了解近期发生的事情,或者关注某个人、某个组织时,需要从大量未经过筛选整理的新闻资讯中,挑选出重要的信息。如果能够自动的从资讯中将非事件(比如广告、健康知识等)去掉,仅将包含事件的资讯呈现给用户,就能够大大减少用户信息筛选的成本,能够以最快的速度了解外界发生的变化。现有技术中利用文本内容和时间戳这两个信息识别新闻资讯是否为新闻事件。具体地,事件可以表示为{参与者,地点,关键词,时间戳}的集合,对参与者、地点、关键词、时间戳单独建立概率模型,采用概率模型对文本内容进行特征提取,通过朴素贝叶斯分类器识别新闻资讯中是否为新闻事件。现有的新闻事件的识别方法,由于提取文本中的参与者,地点,关键词,时间戳的构成的事件因素建立概率模型,会引入大量的噪声信息。并且现有技术中并没有考虑文本中是否包括事件的一个重要特征是文本中潜在的实体和动作之间是否有关联,导致了现有技术中的识别准确率较低,并且现有技术中采用传统的机器学习方法训练模型,需要做非常多的特征工程,特征工程是一个非常耗时耗力且目前难以找到合适分类的特征,导致识别的时间较长,准确率较低。
技术实现思路
本申请实施例提供一种新闻事件的识别方法、装置、设备及可读存储介质。解决了现有技术中的新闻事件的识别方法中识别的时间较长,准确率较低的技术问题。本申请实施例第一方面提供一种新闻事件的识 ...
【技术保护点】
1.一种新闻事件的识别方法,其特征在于,包括:采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取所述目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。
【技术特征摘要】
1.一种新闻事件的识别方法,其特征在于,包括:采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;获取所述目标新闻资讯文本的事件主体特征及用户搜索行为特征;根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。2.根据权利要求1所述的方法,其特征在于,所述优化的深度学习模型为优化的卷积神经网络模型,所述优化的卷积神经网络模型包括:输入层和卷积层;所述句子上下文特征为句子上下文向量;所述采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征,具体包括:所述输入层将所述目标新闻资讯文本进行分词处理,以获取所述目标新闻资讯文本的每个词语;所述输入层对每个词语进行向量化处理,获得每个词语的总向量,所述总向量由词向量,位置向量及词性向量拼接而成;所述卷积层对每个词语的总向量进行卷积处理,以提取每个词语的局部特征向量;所述卷积层对每个词语的局部特征向量进行池化处理,以获得每个词语的最优特征值;所述卷积层对所有词语的最优特征值进行非线性变换,获得所述句子上下文向量。3.根据权利要求2所述的方法,其特征在于,所述输入层对每个词语进行向量化处理,获得每个词语的总向量,具体包括:所述输入层对每个词语进行词向量化处理,以获得每个词语的词向量;所述输入层对每个词语进行位置向量化处理,以获得每个词语的位置向量;所述输入层对每个词语进行词性向量化处理,以获得每个词语的词性向量。4.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行词向量化处理,以获得每个词语的词向量,具体为:所述输入层中的词向量模型对每个词语进行词向量识别,输出每个词语的词向量;其中,所述词向量模型是通过新闻资讯文本中的语料训练获得的。5.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行位置向量化处理,以获得每个词语的位置向量,具体包括:所述输入层识别所述目标新闻资讯文本中的第一预设个数的实体和第二预设个数的动词;所述输入层计算每个词语与所述实体和所述动词的相对位置;所述输入层将所述相对位置映射到正态分布向量上,形成每个词语的位置向量。6.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行词性向量化处理,以获得每个词语的词性向量,具体包括:所述输入层确定每个词语的词性;所述输入层将每个词语的词性映射为对应的词性向量。7.根据权利要求2所述的方法,其特征在于,所述卷积层对所有词语的最优特征值进行非线性变换,获得所述句子上下文向量,具体为:所述卷积层对所有词语的最优特征值进行双曲正切变换,获得所述句子上下文向量。8.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:潘禄,陈玉光,彭卫华,罗雨,陈亮,陈文浩,周辉,郑宇宏,陈伟娜,韩翠云,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。