文本对象检测的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28736785 阅读:24 留言:0更新日期:2021-06-06 11:45
本公开提供了一种文本对象的检测方法,涉及人工智能技术领域,尤其涉及自然语言处理和智能搜索技术。实现方案为:获取数据库;利用数据筛选策略,从数据库中提取待检测数据;以及将待检测数据输入到文本对象检测模型,以获取文本对象检测模型输出的检测结果,检测结果能够表征待检测数据是否包括文本对象。够表征待检测数据是否包括文本对象。够表征待检测数据是否包括文本对象。

【技术实现步骤摘要】
文本对象检测的方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理和智能搜索技术,具体涉及一种用于文本对象的检测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]文本对象的检测有助于实现各种应用,例如,在内容分发的场景下快速识别风险内容。在相关技术中,对文本对象检测的技术方案还有很大的提高空间。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种文本对象的检测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一个方面,提供了一种文本对象检测方法,包括:获取数据库;利用数据筛选策略,从数据库中提取待检测数据;以及将待检测数据输入到文本对象检测模型,以获取文本对象检测模型输出的检测结果,检测结果能够表征待检测数据是否包括文本对象。
[0007]根据本公开的另一方面,提供了一种文本对象检测装置,包括:第一获取单元,被配置为获取数据库;提取单元,被配置为利用数据筛选策略,从数据库中提取待检测数据;以及第二获取单元,被配置为将待检测数据输入到文本对象检测模型,以获取文本对象检测模型输出的检测结果,检测结果能够表征待检测数据是否包括文本对象。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:存储器、处理器以及存储在存储器上的计算机程序。处理器被配置为执行计算机程序以实现上述方法的步骤。
[0009]根据本公开的另一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序。计算机程序被处理器执行时实现上述方法的步骤。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序。计算机程序被处理器执行时实现上述方法的步骤。
[0011]本公开实施例提供的技术方案带来的有益技术效果至少包括:
[0012]根据本公开的一个或多个实施例,可以实现通过投入少量人力而快速获得风险控
制模型,从而能够实现对高危风险内容的及时响应。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0015]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了相关技术中的文本对象检测方法的整体流程的示意图;
[0017]图3示出了根据本公开的实施例的文本对象检测方法的流程图;
[0018]图4示出了根据本公开的实施例的生成数据筛选策略方法的流程图;
[0019]图5示出了根据本公开的实施例的在图4的方法中提取高频词汇的示例操作的流程图;
[0020]图6示出了根据本公开的实施例的在图4的方法中生成筛选策略的示例操作的流程图;
[0021]图7示出了根据本公开的实施例的策略评估和调整方法的流程图;
[0022]图8示出了根据本公开的实施例的生成数据筛选策略方法的流程图;
[0023]图9示出了根据本公开的实施例的得到文本对象检测模型的方法的流程图;
[0024]图10示出了根据本公开的实施例的文本对象检测方法的流程的示意图;
[0025]图11示出了根据本公开实施例的文本对象检测装置的结构框图;
[0026]图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0029]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0030]在相关技术中,对样本数据的提取是通过人工海量标注完成。由于人工标注效率低,产出的样本集比例不均衡,正样本过少,容易导致后续模型训练的欠拟合。另一方面,相
关技术中根据所关注对象的文本内容特点,对正样本进行人工拼接,然而人工拼接样本方式极易导致后续模型训练的过拟合。此外,人工标注和拼接耗费人力资源较大,费时费力,并且全程手动操作,无法感知样本数据提取进度。
[0031]在相关技术中,对所关注文本对象(例如高危内容)的提取是使用传统的人工提取样本对模型进行训练并上线。由于高危内容具有量极小、影响大和需要快速处理的特性,通过人工海量标注得到样本训练模型的方式无法满足对高危内容及时响应的需求。
[0032]为解决上述相关技术中的问题,本公开的实施例通过引入数据筛选策略的思想,半自动提取符合模型训练要求的样本以快速生成文本对象检测模型,提供了以下对文本对象检测的技术方案。
[0033]下面将结合附图详细描述本公开的实施例。
[0034]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本对象的检测方法,包括:获取数据库;利用数据筛选策略,从所述数据库中提取待检测数据;以及将所述待检测数据输入到文本对象检测模型,以获取所述文本对象检测模型输出的检测结果,所述检测结果能够表征所述待检测数据是否包括所述文本对象。2.如权利要求1所述的方法,其中,所述数据筛选策略通过执行包括以下各项的操作生成:获取第一正负样本集,其中,所述第一正负样本集包括至少一个正样本,所述至少一个正样本为从样本数据库中确定的表示所述文本对象的数据;从所述第一正负样本集中提取至少一个高频词汇;以及基于所述至少一个高频词汇生成所述数据筛选策略,所述数据筛选策略包括所述至少一个高频词汇中的能够表示所述文本对象的特征的高频词汇。3.如权利要求2所述的方法,其中,对于每个高频词汇,所述第一正负样本集中包含该高频词汇的样本的数目大于或等于第一阈值。4.如权利要求2所述的方法,其中,所述从所述第一正负样本集中提取至少一个高频词汇包括:对所述第一正负样本集中的各个样本进行分词;从经分词后的所述各个样本中提取至少一个关键词;确定所述至少一个关键词的子集,所述各个样本中包含所述子集中的关键词的样本的数目大于或等于所述第一阈值;基于通用文本策略对所述至少一个关键词的所述子集进行过滤;以及将经过滤后的所述至少一个关键词的所述子集作为所述至少一个高频词汇。5.如权利要求2所述的方法,其中,所述基于所述至少一个高频词汇生成所述数据筛选策略包括:基于所述至少一个高频词汇,生成正则表达式;基于N

gram语言模型,计算所述正则表达式中的所述至少一个高频词汇之间的N

gram距离;以及基于所述N

gram距离,优化所述正则表达式,其中所述数据筛选策略还包括经优化后的正则表达式。6.如权利要求2所述的方法,其中,所述获取第一正负样本集包括:将所述样本数据库中命中初级筛选策略的数据提取出来,作为第一数据集;以及对所述第一数据集进行标注以得到所述第一正负样本集,其中,所述第一数据集中包括所述文本对象的数据被标注为所述第一正负样本集中的所述至少一个正样本。7.如权利要求6所述的方法,其中,所述操作进一步包括以下步骤:将所述样本数据库中命中所述数据筛选策略的数据提取出来,以作为样本数据集;对所述样本数据集进行标注以得到第二正负样本集,所述第二正负样本集包括至少一个正样本,所述至少一个正样本为所述样本数据集中表示所述文本对象的数据;响应于确定所述第二正负样本集中的所述至少一个正样本在所述样本数据集中的比例小于第二阈值,调整所述数据筛选策略;
根据经调整后的数据筛选策略,从所述样本数据库中提取数据并将提取的数据作为所述样本数据集;以及重复所述步骤直到所述比例大于或等于所述第二阈值。8.如权利要求7所述的方法,其中,所述操作进一步包括:响应于确定所述重复的次数大于第三阈值,调整所述初级筛选策略。9.如权利要求4所述的方法,其中,所述基于通用文本策略对所述至少一个关键词的所述子集进行过滤包括:将所述至少一个关键词的子集中的一个或多个关键词进行泛化。10.如权利要求1至9中任一项所述的方法,其中,所述文本对象检测模型通过执行包括以下各项的操作得到:获取ERNIE模型;获取基础检测模型;基于所述样本数据集,对ERNIE模型进行训练激发;响应于确定所述样本数据集的准确率小于第四阈值或所述样本数据集的召回率小于第五阈值,调整所述样本数据集;使用经调整后的所述样本数据集,训练所述ERNIE模型;基于训练后的ERNIE模型,提取所述样本数据库中的数据;以及使用所提取的数据训练所述基础检测模型以得到所述文本对象检测模型。11.一种文本对象的检测装置,包括:第一获取单元,被配置为获取数据库;提取单元,被配置为利用数据筛选策略,从所述数据库中提取待检测数据,以及;第二获取单元,被配置为将所述待检测数据输入到文本对象检测模型,以获取所述文本对象检测模型输出的检测结果,所述检测结果能够表征所述待检测数据是否包括所述文本对象。12.如权利要求1...

【专利技术属性】
技术研发人员:郑璐璐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1