【技术实现步骤摘要】
文本审核方法、装置、电子设备、存储介质及程序产品
本申请涉及计算机
,具体涉及机器学习与自然语言处理等人工智能
,尤其涉及一种文本审核方法、装置、电子设备、存储介质及程序产品。
技术介绍
每一门语言都是复杂的,经历了几百甚至上千年的长期发展和演变,积累形成了一套复杂的文法和句法规则。语言的运用对于使用者来说,提出了比较高的要求,一旦掌握不全或者粗心大意,很容易造成张冠李戴,差之毫厘谬以千里,特别是在比较重要的场合,即便是极小的语言错误,也会带来非常恶劣的影响。基于此,文本审核作为自然语言处理的一个传统的问题,变得尤为重要。近年来,随着媒体行业的高速发展,以及每天的信息爆炸,对于稿件的校稿需求急剧上升。特别是在传统的媒体行业,涉及比较重要的稿件,都需要进行严格的三审三校,要杜绝严重的错误。除了传统的媒体,新兴的自媒体从业人数也在逐年增加,他们更加缺乏人工校稿环节。而在为自媒体从业者提供服务的新媒体平台上,结合当前的整体环境,也是需要对重要的信息,进行严格的审校的。
技术实现思路
本申请提供了一种文本审核方法、装置、电子设备、存储介质及程序产品。根据本申请的一方面,提供了一种文本审核方法,其中,所述方法包括:获取待审核文本的待审核分句;基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;基于所述最相关的候选信息,对所述待审核分句进行审核。根据本申请的另一方面, ...
【技术保护点】
1.一种文本审核方法,其中,所述方法包括:/n获取待审核文本的待审核分句;/n基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;/n基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;/n基于所述最相关的候选信息,对所述待审核分句进行审核。/n
【技术特征摘要】
1.一种文本审核方法,其中,所述方法包括:
获取待审核文本的待审核分句;
基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;
基于所述多个候选信息,获取与所述待审核分句最相关的候选信息;
基于所述最相关的候选信息,对所述待审核分句进行审核。
2.根据权利要求1所述的方法,其中,基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息,包括如下至少一种:
基于所述待审核分句,采用搜索的方式,从所述数据库中召回多个候选文档信息;
基于trie树结构,从所述数据库中召回所述待审核分句的多个候选语句信息;和
基于simhash算法,从所述数据库中召回所述待审核分句的多个候选文档信息。
3.根据权利要求2所述的方法,其中,基于所述待审核分句,采用搜索的方式,从所述数据库中召回多个候选文档信息,包括:
采用弹性搜索的方式,从所述数据库中召回所述待审核分句的多个备选文档信息;
采用预先训练的语义表示模型,基于相似度,从所述数据库中召回所述待审核分句的多个备选文档信息;
基于所述待审核分句和各所述备选文档信息,分别提取召回的各所述备选文档信息对应的至少一个相关特征信息;
基于各所述备选文档信息对应的所述至少一个相关特征信息,采用预先训练的相关度打分模型,获取各所述备选文档信息与所述待审核分句的相关度;
基于各所述备选文档信息与所述待审核分句的相关度、以及预设的相关度阈值,从召回的所有所述备选文档信息中筛选所述多个候选文档信息。
4.根据权利要求1-3任一所述的方法,其中,基于所述多个候选信息,获取与所述待审核分句最相关的候选信息,包括:
对所述多个候选信息中各所述候选信息进行打分;
基于各所述候选信息的打分结果,从所述多个候选信息中获取与所述待审核分句最相关的候选信息。
5.根据权利要求4所述的方法,其中,对所述多个候选信息中各所述候选信息进行打分,包括:
基于各所述候选信息和所述待审核分句,获取各所述候选信息对应的特征信息;
基于各所述候选信息对应的所述特征信息和预先训练的打分模型,对各所述候选信息进行打分。
6.根据权利要求5所述的方法,其中,基于各所述候选信息和所述待审核分句,获取各所述候选信息对应的特征信息,包括如下至少一种:
基于各所述候选信息与所述待审核分句,获取最长公共子序列相关的特征;
获取召回的各所述候选信息与所述待审核分句的相似度;
基于各所述候选信息与所述待审核分句的时间信息,获取各所述候选信息的时效性分数;以及
获取各所述候选信息中的候选语句与所述待审核分句的语义相似度。
7.根据权利要求6所述的方法,其中,基于各所述候选信息与所述待审核分句,获取最长公共子序列相关的特征,包括:
基于各所述候选信息与所述待审核分句,获取最长公共子序列;
对于各所述候选信息,获取对应的所述最长公共子序列生成过程中的跳字个数与对应的所述最长公共子序列的比例、对应的所述最长公共子序列与所述待审核分句的长度的比例以及对应的所述最长公共子序列生成过程中的跳字个数与所述待审核分句的长度的比例。
8.根据权利要求1-3、以及4-7中任一所述的方法,其中,基于所述最相关的候选信息,对所述待审核分句进行审核,包括:
基于所述最相关的候选信息,采用预先训练的审核模型,对所述待审核分句进行审核。
9.一种文本审核装置,其中,所述装置包括:
分句获取模块,用于获取待审核文本的待审核分句;
召回模块,用于基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;
候选获取...
【专利技术属性】
技术研发人员:丁鑫哲,王倩倩,刘瑛,刘凯,李婷婷,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。