【技术实现步骤摘要】
时效性文本的识别方法、装置、设备及存储介质
本申请实施例涉及数据处理技术中的智能搜索
,尤其涉及一种时效性文本的识别方法、装置、设备及存储介质。
技术介绍
现有技术中,在判断某一文本是否为时效性文本时,通常是爬虫、搜索、或者人工等方式确定。但是,采用爬虫或者搜索的方式,在时间上比较滞后,会失去时效性特征;采用人工的方式,虽然延迟几乎可以忽略,但需要有文本敏感度的运营人员手工添加,时效性文本的获取效率较低,并且人工成本太高。因此,在确定某一文本是否为时效性文本时,如何在兼顾时效性的条件下,提高判断结果的获取效率是本领域技术人员亟待解决的问题。
技术实现思路
本申请实施例提供了一种时效性文本的识别方法、装置、设备及存储介质,在确定某一文本是否为时效性文本时,实现在兼顾时效性的条件下,提高判断结果的获取效率。第一方面,本申请实施例提供了一种时效性文本的识别方法,该时效性文本的识别方法可以包括:对待识别文本进行处理,得到所述待识别文本对应的多个有效分词。在所述有效分词 ...
【技术保护点】
1.一种时效性文本的识别方法,包括:/n对待识别文本进行处理,得到所述待识别文本对应的多个有效分词;/n在所述有效分词的数量大于或等于第一阈值时,分别计算所述多个有效分词中,各有效分词对应的时效权重;/n根据各有效分词对应的时效权重,确定所述待识别文本的识别结果;所述识别结果包括所述待识别文本为时效性文本,或者,所述待识别文本为非时效性文本。/n
【技术特征摘要】
1.一种时效性文本的识别方法,包括:
对待识别文本进行处理,得到所述待识别文本对应的多个有效分词;
在所述有效分词的数量大于或等于第一阈值时,分别计算所述多个有效分词中,各有效分词对应的时效权重;
根据各有效分词对应的时效权重,确定所述待识别文本的识别结果;所述识别结果包括所述待识别文本为时效性文本,或者,所述待识别文本为非时效性文本。
2.根据权利要求1所述的方法,所述根据各有效分词对应的时效权重,确定所述待识别文本的识别结果,包括:
根据所述各有效分词对应的时效权重的和,确定所述待识别文本对应的时效权重;
根据所述待识别文本对应的时效权重,确定所述待识别文本的识别结果。
3.根据权利要求2所述的方法,所述根据所述待识别文本对应的时效权重,确定所述待识别文本的识别结果,包括:
若所述待识别文本的时效权重大于或等于第二阈值,则确定所述待识别文本为时效性文本;
若所述待识别文本的时效权重小于第二阈值,则确定所述待识别文本为非时效性文本。
4.根据权利要求1-3任一项所述的方法,所述分别计算所述多个有效分词中,各有效分词对应的时效权重,包括:
针对任意一个有效分词,计算所述有效分词在所述待识别文本中出现的频率,以及所述有效分词在当前文本集合中出现的逆文本频率;所述当前文本集合中包括所述待识别文本;
根据所述有效分词在所述待识别文本中出现的频率和所述有效分词在当前文本集合中出现的逆文本频率,确定所述有效分词对应的时效权重。
5.根据权利要求4所述的方法,计算所述有效分词在当前文本集合中出现的逆文本频率,包括:
分别确定所述当前文本集合中包括的文本的数量,以及所述当前文本集合中出现所述有效分词的文本的数量;
根据所述当前文本集合中包括的文本的数量,以及所述当前文本集合中出现所述有效分词的文本的数量,计算所述有效分词在当前文本集合中出现的逆文本频率。
6.根据权利要求5所述的方法,所述根据所述当前文本集合中包括的文本的数量,以及所述当前文本集合中出现所述有效分词的文本的数量,计算所述有效分词在当前文本集合中出现的逆文本频率,包括:
根据所述当前文本集合中包括的文本的数量与所述当前文本集合中出现所述有效分词的文本的数量的比值,计算所述有效分词在当前文本集合中出现的逆文本频率。
7.一种时效性文本的识别装置,包括:
处理模块,用于对待识别文本进行处理...
【专利技术属性】
技术研发人员:肖锋,王全想,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。