文本审核方法、装置、电子设备、存储介质及程序产品制造方法及图纸

技术编号:27936774 阅读:43 留言:0更新日期:2021-04-02 14:17
本申请公开了一种文本审核方法、装置、电子设备、存储介质及程序产品,涉及机器学习与自然语言处理等人工智能技术领域。具体实现方案为:获取待审核文本的待审核分句;基于待审核分句,从数据库中召回待审核分句对应的多个候选信息;基于多个候选信息,获取与待审核分句最相关的候选信息;基于最相关的候选信息,对待审核分句进行审核。本申请通过采用上述技术方案,可以自动地对待审核文本的各待审核分句进行审核,进而实现对待审核文本进行审核,避免人工对待审核文本的审核,能够有效地提高文本审核的准确性、以及文本审核效率。

【技术实现步骤摘要】
文本审核方法、装置、电子设备、存储介质及程序产品
本申请涉及计算机
,具体涉及机器学习与自然语言处理等人工智能
,尤其涉及一种文本审核方法、装置、电子设备、存储介质及程序产品。
技术介绍
每一门语言都是复杂的,经历了几百甚至上千年的长期发展和演变,积累形成了一套复杂的文法和句法规则。语言的运用对于使用者来说,提出了比较高的要求,一旦掌握不全或者粗心大意,很容易造成张冠李戴,差之毫厘谬以千里,特别是在比较重要的场合,即便是极小的语言错误,也会带来非常恶劣的影响。基于此,文本审核作为自然语言处理的一个传统的问题,变得尤为重要。近年来,随着媒体行业的高速发展,以及每天的信息爆炸,对于稿件的校稿需求急剧上升。特别是在传统的媒体行业,涉及比较重要的稿件,都需要进行严格的三审三校,要杜绝严重的错误。除了传统的媒体,新兴的自媒体从业人数也在逐年增加,他们更加缺乏人工校稿环节。而在为自媒体从业者提供服务的新媒体平台上,结合当前的整体环境,也是需要对重要的信息,进行严格的审校的。
技术实现思路
本申请提供了一种文本审核方法、装置、电子设备、存储介质及程序产品。根据本申请的一方面,提供了一种文本审核方法,其中,所述方法包括:获取待审核文本的待审核分句;基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;基于所述最相关的候选信息,对所述待审核分句进行审核。根据本申请的另一方面,提供了一种文本审核装置,其中,所述装置包括:分句获取模块,用于获取待审核文本的待审核分句;召回模块,用于基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;候选获取模块,用于基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;审核模块,用于基于所述最相关的候选信息,对所述待审核分句进行审核。根据本申请的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。根据本申请的再另一方面,提供了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上所述的方法。根据本申请的技术,通过获取待审核文本的待审核分句;基于待审核分句,从数据库中召回待审核分句对应的多个候选信息;基于多个候选信息,获取与待审核分句最相关的候选信息;基于最相关的候选信息,对待审核分句进行审核。本申请通过采用上述技术方案,可以自动地对待审核文本的各待审核分句进行审核,进而实现对待审核文本进行审核,避免人工对待审核文本的审核,能够有效地提高文本审核的准确性、以及文本审核效率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是根据本申请第二实施例的示意图;图3是根据本申请第三实施例的示意图;图4是根据本申请第四实施例的示意图;图5是用来实现本申请实施例的文本审核方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种文本审核方法,具体可以包括如下步骤:S101、获取待审核文本的待审核分句;S102、基于待审核分句,从数据库中召回待审核分句对应的多个候选信息;S103、基于多个候选信息,获取与待审核分句最相关的候选信息;S104、基于最相关的候选信息,对待审核分句进行审核。本实施例的文本审核方法的执行主体为文本审核装置,该文本审核装置具体可以为一电子实体,或者也可以为采用软件集成的应用。使用时,通过该文本审核装置能够对待审核文本中每个待审核分句进行审核。本实施例中的待审核文本可以为包括多个句子的文章或者文章中的段落等。审核时,先获取待审核文本中的待审核分句,具体可以依据待审核文本所使用的语言的撰写习惯,依次获取待审核文本中的每个待审核分句。如可以采用标点符号对待审核文本进行分句,得到每个待审核分句。本实施例的数据库可以为一个大数据库,或者也可以分为多个领域或者分类的数据库,如诗歌类的数据库、历史类数据库、实时新闻类数据库、法律类数据库等等;或者还可以根据数据库所应用的审核场景的需求,分为名人讲话语录数据库、经典数据库以及事实性数据库等等。其中名人讲话语录数据库中可以包括需要大家学习的名人的各次讲话内容。经典数据库中可以包括诗词、历史等等各种经典历史信息。事实性数据库中可以包括各种官方发布的事实性宣告信息等等。本实施例的数据库可以实时更新,如每天进行更新,以保证一些实时新闻类的数据库中存储的文档能够及时更新。本实施例的数据库中可以存储有每个文档的属性信息如文档的作者、作者的详细信息、发表时间等等;例如,对一些经常更新文档,如法条法规类的文档,还可以进一步包括每次更新时更新的内容以及更新时间等等。同时还要存储文档的标题(Title)以及文档的具体内容等等。若本实施例的数据库中包括多个领域或者多个分类的数据库时,步骤S102基于待审核分句,从数据库中召回待审核分句对应的多个候选信息时,需要依次分析所有的数据库,获取该待审核分句对应的所有候选信息。进一步地,本实施例中,还需要基于多个候选信息,获取与待审核分句最相关的候选信息,并基于最相关的候选信息,对待审核分句进行审核。例如,审核时,可以将最相关的候选信息和待审核分句进行详细对比,以检测待审核分句是否正确。可选地,若待审核分句不正确,还可以进一步标识出不正确的内容,或者进一步可选地,还可以对待审核分句不正确的内容进行分类,并标识不正确的类别,能够有效地向用户展示丰富的审核结果,便于用户准确了解不正确的内容和类别。本实施例的文本审核方法,通过采用上述技术方案,依次对待审核文本中的每个待审核分句进行审核,进而实现对待审核文本进行审核。本实施例的文本审核方法,通过获取待审核文本的待审核分句;基于待审核分句,从数据库中召回待审核分句对应的多个候选信息;基于多个候选信息,获取与待审核分句最相关的候选信息;基于最相本文档来自技高网...

【技术保护点】
1.一种文本审核方法,其中,所述方法包括:/n获取待审核文本的待审核分句;/n基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;/n基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;/n基于所述最相关的候选信息,对所述待审核分句进行审核。/n

【技术特征摘要】
1.一种文本审核方法,其中,所述方法包括:
获取待审核文本的待审核分句;
基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;
基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;
基于所述最相关的候选信息,对所述待审核分句进行审核。


2.根据权利要求1所述的方法,其中,基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息,包括如下至少一种:
基于所述待审核分句,采用搜索的方式,从所述数据库中召回多个候选文档信息;
基于trie树结构,从所述数据库中召回所述待审核分句的多个候选语句信息;和
基于simhash算法,从所述数据库中召回所述待审核分句的多个候选文档信息。


3.根据权利要求2所述的方法,其中,基于所述待审核分句,采用搜索的方式,从所述数据库中召回多个候选文档信息,包括:
采用弹性搜索的方式,从所述数据库中召回所述待审核分句的多个备选文档信息;
采用预先训练的语义表示模型,基于相似度,从所述数据库中召回所述待审核分句的多个备选文档信息;
基于所述待审核分句和各所述备选文档信息,分别提取召回的各所述备选文档信息对应的至少一个相关特征信息;
基于各所述备选文档信息对应的所述至少一个相关特征信息,采用预先训练的相关度打分模型,获取各所述备选文档信息与所述待审核分句的相关度;
基于各所述备选文档信息与所述待审核分句的相关度、以及预设的相关度阈值,从召回的所有所述备选文档信息中筛选所述多个候选文档信息。


4.根据权利要求1-3任一所述的方法,其中,基于所述多个候选信息,获取与所述待审核分句最相关的候选信息,包括:
对所述多个候选信息中各所述候选信息进行打分;
基于各所述候选信息的打分结果,从所述多个候选信息中获取与所述待审核分句最相关的候选信息。


5.根据权利要求4所述的方法,其中,对所述多个候选信息中各所述候选信息进行打分,包括:
基于各所述候选信息和所述待审核分句,获取各所述候选信息对应的特征信息;
基于各所述候选信息对应的所述特征信息和预先训练的打分模型,对各所述候选信息进行打分。


6.根据权利要求5所述的方法,其中,基于各所述候选信息和所述待审核分句,获取各所述候选信息对应的特征信息,包括如下至少一种:
基于各所述候选信息与所述待审核分句,获取最长公共子序列相关的特征;
获取召回的各所述候选信息与所述待审核分句的相似度;
基于各所述候选信息与所述待审核分句的时间信息,获取各所述候选信息的时效性分数;以及
获取各所述候选信息中的候选语句与所述待审核分句的语义相似度。


7.根据权利要求6所述的方法,其中,基于各所述候选信息与所述待审核分句,获取最长公共子序列相关的特征,包括:
基于各所述候选信息与所述待审核分句,获取最长公共子序列;
对于各所述候选信息,获取对应的所述最长公共子序列生成过程中的跳字个数与对应的所述最长公共子序列的比例、对应的所述最长公共子序列与所述待审核分句的长度的比例以及对应的所述最长公共子序列生成过程中的跳字个数与所述待审核分句的长度的比例。


8.根据权利要求1-3、以及4-7中任一所述的方法,其中,基于所述最相关的候选信息,对所述待审核分句进行审核,包括:
基于所述最相关的候选信息,采用预先训练的审核模型,对所述待审核分句进行审核。


9.一种文本审核装置,其中,所述装置包括:
分句获取模块,用于获取待审核文本的待审核分句;
召回模块,用于基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;
候选获取...

【专利技术属性】
技术研发人员:丁鑫哲王倩倩刘瑛刘凯李婷婷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1