文本类型的检测方法及装置制造方法及图纸

技术编号:36967775 阅读:54 留言:0更新日期:2023-03-22 19:28
本公开提供了一种文本类型的检测方法及装置,涉及数据处理技术领域,尤其涉及自然语言处理。实现方案为:对待检测文本进行初步检验;响应于待检测文本被初步检验为疑似预设类型的文本,将待检测文本进行分句,以得到包含多个语句的语句集合;针对语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量;根据语句集合中的多个语句包含的关键词的数量,从多个语句中选择多个目标语句;分别确定多个目标语句中的每个目标语句是否为标识语句;以及响应于标识语句的数量满足预设条件,确定待检测文本为预设类型的文本。确定待检测文本为预设类型的文本。确定待检测文本为预设类型的文本。

【技术实现步骤摘要】
文本类型的检测方法及装置


[0001]本公开涉及数据处理
,尤其涉及自然语言处理,具体涉及一种文本类型的检测方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]互联网中存在大量的文本信息,这些文本信息可能包括多种类型,例如有的文本可能是和体育相关的,有的可能是和生活相关的。在互联网向用户进行文本的推送服务时,需要针对用户的偏好推送相关类型的文本。因此,目前互联网要求进行推送的相关服务器能够快速、有效地识别文本的类型,以便于后续的推送服务。但是,现有存在的文本类型的检测方法大多是针对短文本的,目前还没有针对长文本的文本类型的检测方法。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种文本类型的检测方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种文本类型的检测方法,包括:对待检测文本进行初步检验;响应于待检测文本被初步检验为疑似预设类型的文本,将待检测文本进行分句,以得到包含多个语句的语句集合;针对语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量,其中,关键词与预设类型相关联;根据语句集合中的多个语句包含的关键词的数量,从多个语句中选择多个目标语句;分别确定多个目标语句中的每个目标语句是否为标识语句;以及响应于确定标识语句的数量满足预设条件,确定待检测文本为预设类型的文本。
[0006]根据本公开的另一方面,提供了一种文本类型的检测装置,包括:检验单元,配置成对待检测文本进行初步检验;分句单元,配置成响应于待检测文本被初步检验为疑似预设类型的文本,将待检测文本进行分句,以得到包含多个语句的语句集合;第一确定单元,配置成针对语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量,其中,关键词与预设类型相关联;选择单元,配置成根据语句集合中的多个语句包含的关键词的数量,从多个语句中选择多个目标语句;第二确定单元,配置成分别确定多个目标语句中的每个目标语句是否为标识语句;以及第三确定单元,配置成响应于确定标识语句的数量满足预设条件,确定待检测文本为预设类型的文本。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的方法。
[0008]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,计算机指令用于使计算机执行上述的方法。
[0009]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述的方法。
[0010]根据本公开的一个或多个实施例,可以将待检测文本分割为多个语句,从多个语句中选择大概率为标识语句的部分目标语句进行检验,从而避免对整个文本进行检测,简化了检测过程,同时提高了检测的准确性。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0013]图1示出了根据本公开的实施例的文本类型的检测方法的流程图;
[0014]图2示出了根据本公开的实施例的从多个语句中选择目标语句的方法的流程图;
[0015]图3示出了根据本公开的实施例的从历史数据中检测到的多个预设类型的文本中确定关键词的方法的流程图;
[0016]图4示出了根据本公开的实施例的将待检测文本进行分句的方法的流程图;
[0017]图5示出了根据本公开的实施例的预设类型的文本的检测装置的结构框图;
[0018]图6示出了根据本公开另一实施例的预设类型的文本的检测装置的结构框图;
[0019]图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0022]在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0023]下面将结合附图详细描述本公开的实施例。图1示出了根据本公开实施例的文本类型的检测方法100的流程图。该检测方法100可以用于与处理文本相关服务器,这些服务器可以是用于接收用户上传文档的服务器,例如用于网盘的服务器、与用于文章发表的网站相关的服务器等等。这些服务器还可以是用于向相关用户提供文本推送服务的服务器,
例如与社交媒体、广告推广或云厂商相关的服务器等等。上述预设类型的文本包括但不限于包括体育类型的文本、音乐类型的文本等等。
[0024]如图1所示,该方法100包括:
[0025]步骤110,对待检测文本进行初步检验;
[0026]步骤120,响应于待检测文本被初步检验为疑似预设类型的文本,将待检测文本进行分句,以得到包含多个语句的语句集合;
[0027]步骤130,针对语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量,其中,关键词与预设类型相关联;
[0028]步骤140,根据语句集合中的多个语句包含的关键词的数量,从多个语句中选择多个目标语句;
[0029]步骤150,分别确定多个目标语句中的每个目标语句是否为标识语句;以及
[0030]步骤160,响应于确定标识语句的数量满足预设条件,确定待检测文本为预设类型的文本。
[0031]本公开一个或多个实施例的检测方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本类型的检测方法,包括:对待检测文本进行初步检验;响应于所述待检测文本被初步检验为疑似预设类型的文本,将所述待检测文本进行分句,以得到包含多个语句的语句集合;针对所述语句集合中的每个语句,确定该语句包含的预先确定的关键词的数量,其中,所述关键词与所述预设类型相关联;根据所述语句集合中的多个语句包含的关键词的数量,从所述多个语句中选择多个目标语句;分别确定所述多个目标语句中的每个目标语句是否为标识语句;以及响应于确定所述标识语句的数量满足预设条件,确定所述待检测文本为预设类型的文本。2.根据权利要求1所述的方法,其中,所述根据所述语句集合中的多个语句包含的关键词的数量,从所述多个语句中选择多个目标语句包括:根据所述多个语句各自包含的关键词的数量,按照关键词的数量由多到少的顺序对所述多个语句进行排序;以及将排序结果中排序在前的预设比例的多个语句确定为所述多个目标语句。3.根据权利要求1所述的方法,其中,所述分别确定所述多个目标语句中的每个目标语句是否为标识语句包括:将每个目标语句分别输入到预训练albert模型中,基于模型的预测结果确定该目标语句是否为标识语句。4.根据权利要求1

3中任一项所述的方法,还包括:对所述待检测文本进行预处理操作,其中,所述预处理操作包括以下操作中的一种或多种:文字类型的转换、将连续数字替换为预设字符以及去除非文字符号。5.根据权利要求1

3中任一项所述的方法,其中,所述对待检测文本进行初步检验包括:将所述待检测文本输入到文本分类模型中,根据所述文本分类模型的预测结果确定所述待检测文本是否为疑似预设类型的文本。6.根据权利要求5所述的方法,其中,所述文本分类模型的训练过程包括:同时使用正样本和负样本对所述文本分类模型进行训练,其中,所述正样本的样本输入为包含至少一个关键词的疑似预设类型的文本,所述负样本的样本输入为包含至少一个关键词的非疑似预设类型的文本。7.根据权利要求1

6中任一项所述的方法,其中,所述关键词的确定过程包括:从历史数据中检测到的多个预设类型的文本中确定多个关键词。8.根据权利要求7所述的方法,其中,所述从历史数据中检测到的多个预设类型的文本中确定多个关键词包括:对所述多个预设类型的文本进行分词,得到多个候选关键词;确定所述多个候选关键词中的每个候选关键词的逆文本频率,其中,所述逆文本频率根据所述多个预设类型的文本的数量以及所述多个预设类型的文本中包含该候选关键词的预设类型的文本的数量进行确定;以及
根据所述多个候选关键词的逆文本频率,从所述多个候选关键词中确定所述多个关键词。9.根据权利要求1

6中任一项所述的方法,其中,所述将所述待检测文本进行分句包括:每间隔预设字符数对所述待检测文本进行分句,以得到多个语句;以及删除所述多个语句中的非完整语句。10.一种文本类型的检测装置,包括:检验单元,配置成对待检测文本进行初步检验;分句单元,配置成响应于所述待...

【专利技术属性】
技术研发人员:高亨德石东升李瑞锋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1