【技术实现步骤摘要】
文本类型的检测方法及装置
[0001]本公开涉及数据处理
,尤其涉及自然语言处理,具体涉及一种文本类型的检测方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]互联网中存在大量的文本信息,这些文本信息可能包括多种类型,例如有的文本可能是和体育相关的,有的可能是和生活相关的。在互联网向用户进行文本的推送服务时,需要针对用户的偏好推送相关类型的文本。因此,目前互联网要求进行推送的相关服务器能够快速、有效地识别文本的类型,以便于后续的推送服务。但是,现有存在的文本类型的检测方法大多是针对短文本的,目前还没有针对长文本的文本类型的检测方法。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0004]本公开提供了一种文本类型的检测方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种文本类型的检测方法,包括:对待检测文本进行初步检验;响应于待检测文本被初步检验为疑似预设类型的文本,将待检测文本进行分句,以得到包含多个语句的语句集合;针对语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量,其中,关键词与预设类型相关联;根据语句集合中的多个语句包含的关键词的数量,从多个语句中选择多个目标语句;分别确定多个目 ...
【技术保护点】
【技术特征摘要】
1.一种文本类型的检测方法,包括:对待检测文本进行初步检验;响应于所述待检测文本被初步检验为疑似预设类型的文本,将所述待检测文本进行分句,以得到包含多个语句的语句集合;针对所述语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量,其中,所述关键词与所述预设类型相关联;根据所述语句集合中的多个语句包含的关键词的数量,从所述多个语句中选择多个目标语句;分别确定所述多个目标语句中的每个目标语句是否为标识语句;以及响应于确定所述标识语句的数量满足预设条件,确定所述待检测文本为预设类型的文本。2.根据权利要求1所述的方法,其中,所述根据所述语句集合中的多个语句包含的关键词的数量,从所述多个语句中选择多个目标语句包括:根据所述多个语句各自包含的关键词的数量,按照关键词的数量由多到少的顺序对所述多个语句进行排序;以及将排序结果中排序在前的预设比例的多个语句确定为所述多个目标语句。3.根据权利要求1所述的方法,其中,所述分别确定所述多个目标语句中的每个目标语句是否为标识语句包括:将每个目标语句分别输入到预训练albert模型中,基于模型的预测结果确定该目标语句是否为标识语句。4.根据权利要求1
‑
3中任一项所述的方法,还包括:对所述待检测文本进行预处理操作,其中,所述预处理操作包括以下操作中的一种或多种:文字类型的转换、将连续数字替换为预设字符以及去除非文字符号。5.根据权利要求1
‑
3中任一项所述的方法,其中,所述对待检测文本进行初步检验包括:将所述待检测文本输入到文本分类模型中,根据所述文本分类模型的预测结果确定所述待检测文本是否为疑似预设类型的文本。6.根据权利要求5所述的方法,其中,所述文本分类模型的训练过程包括:同时使用正样本和负样本对所述文本分类模型进行训练,其中,所述正样本的样本输入为包含至少一个关键词的疑似预设类型的文本,所述负样本的样本输入为包含至少一个关键词的非疑似预设类型的文本。7.根据权利要求1
‑
6中任一项所述的方法,其中,所述关键词的确定过程包括:从历史数据中检测到的多个预设类型的文本中确定多个关键词。8.根据权利要求7所述的方法,其中,所述从历史数据中检测到的多个预设类型的文本中确定多个关键词包括:对所述多个预设类型的文本进行分词,得到多个候选关键词;确定所述多个候选关键词中的每个候选关键词的逆文本频率,其中,所述逆文本频率根据所述多个预设类型的文本的数量以及所述多个预设类型的文本中包含该候选关键词的预设类型的文本的数量进行确定;以及
根据所述多个候选关键词的逆文本频率,从所述多个候选关键词中确定所述多个关键词。9.根据权利要求1
‑
6中任一项所述的方法,其中,所述将所述待检测文本进行分句包括:每间隔预设字符数对所述待检测文本进行分句,以得到多个语句;以及删除所述多个语句中的非完整语句。10.一种文本类型的检测装置,包括:检验单元,配置成对待检测文本进行初步检验;分句单元,配置成响应于所述待...
【专利技术属性】
技术研发人员:高亨德,石东升,李瑞锋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。