一种文本检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32354565 阅读:28 留言:0更新日期:2022-02-20 03:12
本公开提供了一种文本检测方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及自然语言处理领域。具体实现方案为:对待检测文本执行关键词匹配,得到匹配结果;响应于所述匹配结果表征所述待检测文本中不包括负向信息对应的关键词,对所述待检测文本进行预处理,得到候选待检测文本;基于所述待检测文本对应的知识图谱,将所述候选待检测文本包括的实体替换为目标实体,得到至少一个目标检测文本;检测所述目标检测文本是否包括所述负向信息。应用本公开所述技术方案,能够提高负向信息检测的全面性和准确性。信息检测的全面性和准确性。信息检测的全面性和准确性。

【技术实现步骤摘要】
一种文本检测方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理领域的文本检测方法、装置、电子设备及存储介质。

技术介绍

[0002]在信息时代中,各类信息通过不同的渠道渗透入社会的各个方面。在一些场景中,通常需要对信息进行检测,以避免违反社会法律和法规的负向信息,以及其他能够产生负面影响的负向信息的广泛传播。因此,全面、准确地检测负向信息是自然语言处理领域一直追求的目标。

技术实现思路

[0003]本公开提供了一种文本检测方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面,提供了一种文本检测方法,包括:
[0005]对待检测文本执行关键词匹配,得到匹配结果;
[0006]响应于所述匹配结果表征所述待检测文本中不包括负向信息对应的关键词,对所述待检测文本进行预处理,得到候选待检测文本;
[0007]基于所述待检测文本对应的知识图谱,将所述候选待检测文本包括的实体替换为目标实体,得到至少一个目标检测文本;
[0008]检测所述目标检测文本是否包括所述负向信息。
[0009]根据本公开的第二方面,提供了一种文本检测装置,包括:
[0010]关键词匹配模块,用于对待检测文本执行关键词匹配,得到匹配结果;
[0011]预处理模块,用于响应于所述匹配结果表征所述待检测文本中不包括负向信息对应的关键词,对所述待检测文本进行预处理,得到候选待检测文本;
[0012]替换模块,用于基于所述待检测文本对应的知识图谱,将所述候选待检测文本包括的实体替换为目标实体,得到至少一个目标检测文本;
[0013]检测模块,用于检测所述目标检测文本是否包括负向信息。
[0014]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
[0015]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文本检测方法。
[0016]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的文本检测方法。
[0017]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的文本检测方法。
[0018]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1为本公开提供的文本检测方法的一种可选处理流程示意图;
[0021]图2为本公开基于所确定的模式串构建的trie树的示意图;
[0022]图3为本公开提供的一种自动机匹配的流程示意图;
[0023]图4为本公开提供的一种表示知识图谱的多关系图;
[0024]图5为本公开提供的社交网络的知识图谱的示意图;
[0025]图6为本公开提供的文本检测方法的一种详细处理流程示意图;
[0026]图7为实施本公开提供的文本检测方法的网络架构图;
[0027]图8为针对图6所示的处理流程示意图中各操作对应的处理结果示意图;
[0028]图9是本公开提供的文本检测装置的一种可选组成结构示意图;
[0029]图10是本公开提供的文本检测系统的架构示意图;
[0030]图11为用来实现本公开实施例的文本检测方法的设备的框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0033]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
[0034]除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
[0035]对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。
[0036](1)人工智能(AI,Artificial Intelligence),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
[0037](2)自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,自然语言处理领域的眼镜将设计自然语言,即人们日常使用的语言,所以自然语言处理与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
[0038](3)知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从文件级别降到数据级别,聚合大量知识,从而实现知识的快速响应和推理;知识图谱的基本单位,是“实体(Entity)
‑ꢀ
关系(Relationship)

实体(Entity)”构成的三元组。
[0039](4)实体,是指公认的概念集合、概念框架,如“人”、“事”、“物”等。
[0040]实体可以采用人工编辑的方式手动构建(借助实体编辑软件),也可以以数据驱动的自动化方式构建实体。
[0041]负向信息的传播可能会衍生出重大舆情或造成重大损失,因此,需要检测文本中是否包括负向信息,若包括负向信息,则对召回文本,避免包括负向信息的文本传播。相关技术中,针对包括负向信息的文本召回问题通常采用下述方案:
[0042]预先存储或维护包括负向信息的关键词集合,检测文本中是否存在与关键词集合中的任意一个关键词或多个关键词组合相同的内容,若存在,则召回文本;若不存在,则不召回文本。
[0043]但是,相关技术的上述方案仍然存在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,包括:对待检测文本执行关键词匹配,得到匹配结果;响应于所述匹配结果表征所述待检测文本中不包括负向信息对应的关键词,对所述待检测文本进行预处理,得到候选待检测文本;基于所述待检测文本对应的知识图谱,将所述候选待检测文本包括的实体替换为目标实体,得到至少一个目标检测文本;检测所述目标检测文本是否包括所述负向信息。2.根据权利要求1所述的方法,其中,所述对所述待检测文本进行预处理,包括:将所述待检测文本中的字符转换为预设格式的字符;和/或,将所述待检测文本中的文字转换为预设字体的文字。3.根据权利要求1或2所述的方法,其中,所述对所述待检测文本进行预处理,包括:识别所述待检测文本中的符号;删除所述待检测文本中的符号。4.根据权利要求3所述的方法,其中,所述删除所述待检测文本中的符号之后,所述对所述待检测文本进行预处理还包括:识别所述待检测文本中的文字;按照所述文字在所述待检测文本中的顺序拼接所述文字。5.根据权利要求1至4任一项所述的方法,其中,所述对所述待检测文本进行预处理,包括:识别所述待检测文本中包括的实体变形文本;将所述实体变形文本替换为实体本体文本。6.根据权利要求1至5任一项所述的方法,其中,所述对所述待检测文本进行预处理,包括:基于语义对所述待检测文本进行切词处理,得到词语列表;对所述词语列表中包括的每个词语标注对应的词性。7.根据权利要求1所述的方法,其中,所述基于所述待检测文本对应的知识图谱,将所述候选待检测文本包括的实体替换为目标实体,包括:在所述知识图谱中查找所述待检测文本包括的实体,确定所述实体对应的目标实体;利用所述目标实体替换所述待检测文本包括的实体,得到所述目标检测文本中的第一目标检测文本。8.根据权利要求1所述的方法,其中,所述基于所述待检测文本对应的...

【专利技术属性】
技术研发人员:郝岩铭马喆
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1