文本审核方法以及装置制造方法及图纸

技术编号:23086093 阅读:16 留言:0更新日期:2020-01-11 01:30
本说明书提供文本审核方法以及装置,其中所述文本审核方法包括:获取待审核文本,确定待审核文本的业务维度;基于业务维度对待审核文本中包含的关键词进行标注,获得与业务维度相关联的业务关键词集合;计算业务关键词集合中包含的业务关键词在待审核文本中的词优化参数;根据词优化参数对业务关键词集合中包含的业务关键词进行筛选,获得优选关键词集合;将优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得向量特征;将向量特征输入至审核模型,对待审核文本进行审核,获得审核模型输出的待审核文本的审核结果。通过文本审核方法,提高了对业务维度对应的待审核文本审核的准确性,并且提高了审核效率。

Text review method and device

【技术实现步骤摘要】
文本审核方法以及装置
本说明书涉及文本处理
,特别涉及一种文本审核方法。本说明书同时涉及一种文本审核装置,一种计算设备,以及一种计算机可读存储介质。
技术介绍
随着互联网技术的发展,信息的安全性对于很多人来说变得越来越重要,无论在何种业务当中,都存在对于业务本身很重要的信息,例如在医疗保险审核业务中,参保人的信息相对于提供医疗保险业务的一方就是重要的信息,需要进行风险防控,避免出现泄漏。现有技术中,在对重要的文本信息进行风险防控的过程中,通常需要通过人工审核的方式来判断文本信息中存在的重要信息的重要程度,并且在对文本信通过人工进行审核的过程中,还能够对文本信息的中存在的非正常信息进行排查,进而可以通过人工方式确定文本信息是否为重要信息,还可以避免文本信息中出现非正常信息的现象。然而,在通过人工方式对文本信息进行审核的过程中,需要根据不同的业务场景培养不同的人工对该业务维度的文本信息进行审核,这无疑是一笔很大的开销,并且人工审核的方式准确性不是很高,对人工审核人员的专业素养也是有一定要求的,因此,在传统业务维度的文本信息审核过程中,人工审核准确性低,效率不高,而且对于后续的二次审核过程工作量也是巨大的。
技术实现思路
有鉴于此,本说明书实施例提供了一种文本审核方法。本说明书同时涉及一种文本审核装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本说明书实施例的第一方面,提供了一种文本审核方法,包括:获取待审核文本,并确定所述待审核文本所属的业务维度;基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。可选的,所述基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合,包括:通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;提取所述业务关键词创建所述业务关键词集合。可选的,所述计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数,包括:确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。可选的,所述将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征,包括:通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;根据所述词向量生成所述每个业务关键词的向量特征。可选的,所述根据所述词向量生成所述每个业务关键词的向量特征,包括:确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。可选的,所述根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合,包括:将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。可选的,所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤执行之前,还包括:根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;基于所述初步审核结果对所述待审核文本进行二次审核,并执行所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤。可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;若所述初步风险标签和所述模型风险标签一致,则基于所述业务维度对所述待审核文本进行业务处理;若所述初步风险标签和所述模型风险标签不一致,则根据所述初步审核结果对所述审核模型进行优化。可选的,所述审核模型通过如下方式训练:采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。可选的,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:根据所述审核结果确定所述待审核文本的风险标签类型;在所述风险标签类型为风险标签的情况下,将所述待审核文本进行复审,并获得复审结果;根据所述复审结果以及所述业务维度确定所述待审核文本风险等级。根据本说明书实施例的第二方面,提供了一种文本审核装置,包括:获取文本模块,被配置为获取待审核文本,并确定所述待审核文本所属的业务维度;组成集合模块,被配置为基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;计算词优化参数模块,被配置为计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;筛选业务关键词模块,被配置为根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;向量化处理模块,被配置为将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;模型审核模块,被配置为将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。可选的,所述组成集合模块,包括:分词处理单元,被配置为通过对所述待审核文本进行分词处理,根据分词处理结本文档来自技高网...

【技术保护点】
1.一种文本审核方法,包括:/n获取待审核文本,并确定所述待审核文本所属的业务维度;/n基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;/n计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;/n根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;/n将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;/n将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。/n

【技术特征摘要】
1.一种文本审核方法,包括:
获取待审核文本,并确定所述待审核文本所属的业务维度;
基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合;
计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数;
根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合;
将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征;
将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果。


2.根据权利要求1所述的文本审核方法,所述基于所述业务维度对所述待审核文本中包含的关键词进行标注,获得与所述业务维度相关联的业务关键词组成的业务关键词集合,包括:
通过对所述待审核文本进行分词处理,根据分词处理结果获得所述待审核文本的关键词;
通过对所述关键词进行词性分析,获得与所述业务维度相关联的所述业务关键词;
提取所述业务关键词创建所述业务关键词集合。


3.根据权利要求1所述的文本审核方法,所述计算所述业务关键词集合中包含的每个业务关键词在所述待审核文本中的词优化参数,包括:
确定所述关键词集合中包含的每个业务关键词在所述待审核文本中的业务关键词频次,以及所述业务关键词集合中包含的业务关键词的关键词数目;
计算所述业务关键词频次与所述关键词数目二者的比值,作为所述词优化参数。


4.根据权利要求1所述的文本审核方法,所述将所述优选关键词集合中包含的每个业务关键词进行向量化处理,根据向量化处理结果获得所述每个业务关键词的向量特征,包括:
通过所述优选关键词集合中包含的每个业务关键词构建所述待审核文本的文本共现矩阵;
基于所述文本共现矩阵以及所述优选关键词集合中包含的业务关键词数目确定所述待审核文本的维数;
通过所述待审核文本的所述维数对所述文本共现矩阵进行转换,获得所述每个业务关键词的词向量;
根据所述词向量生成所述每个业务关键词的向量特征。


5.根据权利要求4所述的文本审核方法,所述根据所述词向量生成所述每个业务关键词的向量特征,包括:
确定所述优化关键词集合中包含的每个业务关键词在所述待审核文本中的特征权重;
基于所述特征权重以及所述词向量生成所述每个业务关键词的向量特征。


6.根据权利要求1所述的文本审核方法,所述根据所述词优化参数对所述业务关键词集合中包含的业务关键词进行筛选,获得所述待审核文本的优选关键词集合,包括:
将所述业务关键词结合中包含的每个业务关键词的所述词优化参数与预设参数阈值进行比较;
将所述词优化参数小于所述预设参数阈值的业务关键词从所述业务关键词集合中剔除,获得所述优选关键词集合。


7.根据权利要求1所述的文本审核方法,所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤执行之前,还包括:
根据所述业务维度对待审核文书进行初步审核,获得所述待审核文本的初步审核结果;
基于所述初步审核结果对所述待审核文本进行二次审核,并执行所述获取待审核文本,并确定所述待审核文本所属的业务维度步骤。


8.根据权利要求7所述的文本审核方法,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得所述审核模型输出的所述待审核文本的审核结果步骤执行之后,还包括:
通过对所述初步审核结果进行解析,获得所述待审核文本的初步风险标签,以及通过对所述审核结果进行解析,获得所述待审核文本的模型风险标签;
若所述初步风险标签和所述模型风险标签一致,则基于所述业务维度对所述待审核文本进行业务处理;
若所述初步风险标签和所述模型风险标签不一致,则根据所述初步审核结果对所述审核模型进行优化。


9.根据权利要求1所述的文本审核方法,所述审核模型通过如下方式训练:
采集与所述业务维度匹配的训练文本,以及所述训练文本的审核结果;
将所述训练文本以及与所述训练文本对应的审核结果输入至基于所述训练文本和所述训练文本对应的审核结果的关联关系构建的审核模型进行训练,获得所述审核模型。


10.根据权利要求1所述的文本审核方法,所述将所述向量特征输入至审核模型,对所述待审核文本进行审核,获得...

【专利技术属性】
技术研发人员:陈永环邹泊滔孙清清王鑫云王淑钰赵云梅树起
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1