一种文本校验方法、装置、设备及可读存储介质制造方法及图纸

技术编号:19343633 阅读:30 留言:0更新日期:2018-11-07 14:26
本申请实施例公开了一种文本校验方法、装置、设备及可读存储介质,本申请获取活动项目对应的待校验文本信息,其中,活动项目可以是司法案件审核等,进一步根据待校验文本信息,确定所需校验要素的要素值,该校验要素与活动项目相对应,最终根据所述校验要素的要素值,确定所述待校验文本信息是否合规。本申请实施例提供的方法,能够实现自动化的确定待校验文本信息是否合规,无需人工查阅文本信息,从而避免了结果受人为的干扰,且降低了人工成本。

Text checking method, device, device and readable storage medium

The embodiment of this application discloses a text verification method, device, device and readable storage medium. The application obtains the text information to be verified corresponding to the activity item. Among them, the activity item may be judicial case review, etc. Further, according to the text information to be verified, the essential value of the required verification element can be determined. The elements correspond to the activity items, and ultimately determine whether the text information to be checked conforms to the requirements according to the element values of the checking elements. The method provided in the embodiment of this application can automatically determine whether the text information to be checked is compliant or not without manual access to the text information, thus avoiding the interference of the result by human and reducing the labor cost.

【技术实现步骤摘要】
一种文本校验方法、装置、设备及可读存储介质
本申请涉及自然语言处理
,更具体地说,涉及一种文本校验方法、装置、设备及可读存储介质。
技术介绍
随着时代的发展,当前已经进入了数据时代,各行各业都会产生大量的文本数据,基于大量的数据可以实现多样化的功能。以司法案件审判场景为例,一个案件审核过程可能会涉及大量的证据,证据大多数情况下是以文本形式存在。这些证据文本在正式使用之前均需要对其合规性进行校验。合规性校验需要对证据文书的多种信息进行校验,如证据文书是否有盖章,具体文本内容是否包含所需的必要信息点等等。现有方法均是基于相关司法人员人工查阅证据文书,并基于自身经验给出证据文书是否合规的判定结论。而由于人与人之间判断差异度不同,因此给出的结论很容易受到人为干扰,并且查阅大量证据文书也会占用很大的人力成本。
技术实现思路
有鉴于此,本申请提供了一种文本校验方法、装置、设备及可读存储介质,用于解决现有通过人工查阅文本给出合规性判定结论的方式,容易受到人为干扰,且占用人力成本的问题。为了实现上述目的,现提出的方案如下:一种文本校验方法,包括:获取活动项目对应的待校验文本信息;根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;根据所述校验要素的要素值,确定所述待校验文本信息是否合规。优选地,所述获取活动项目对应的待检验文本信息,包括:对活动项目对应的实体待校验文书进行光学字符识别OCR处理,将OCR处理后的结果作为所述活动项目对应的待校验文本信息。优选地,所述校验要素包括文本类型;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值;所述分类模型为,预先以标注有文本类型取值的文本信息训练数据训练得到。优选地,所述根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值,包括:获取所述OCR处理后的结果中,文本区域的位置参数及包含的文本值;通过分类模型的输入层,输入所述位置参数及所述文本值;通过分类模型的卷积池化层,对所述位置参数及所述文本值进行卷积池化处理,得到文本特征;通过分类模型的注意力层,采用自注意力机制对所述文本特征进行处理,得到处理后文本特征;通过分类模型的全连接层,根据所述处理后文本特征,确定待校验文本信息的文本类型取值。优选地,所述校验要素包括信息点包含情况;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:获取所述OCR处理后的结果中,文本区域包含的文本值;将所述文本值输入预置的序列标注模型,得到序列标注模型输出的所述文本值包含的词所属的信息点的类型;所述序列标注模型为,预先以训练文本数据包含的词作为训练样本,以标注的所述词所属的信息点的类型为样本标签训练得到;根据所述序列标注模型输出的结果,获取所述待校验文本信息对各类型信息点的包含情况。优选地,所述校验要素还包括信息点取值;所述根据所述待校验文本信息,确定所需校验要素的要素值,还包括:根据所述序列标注模型输出的结果,将所述待校验文本信息中属于同一类型信息点的词,作为所述同一类型信息点的取值信息。优选地,还包括:针对所述待校验文本信息中每一类型信息点的取值信息,在预置的知识点库中,查找相同类型信息点的规整取值信息集合,所述知识点库中存储了每一类型信息点的规整取值信息集合,规整取值信息集合中包含至少一个规整取值信息;确定每一类型信息点的取值信息,与相同类型信息点的规整取值信息集合中,每一个规整取值信息的相似度;将相似度最高的规整取值信息,作为所述待校验文本信息中所述相同类型信息点的规整后取值信息。优选地,所述确定每一类型信息点的取值信息,与相同类型信息点的规整取值信息集合中,每一个规整取值信息的相似度,包括:将所述规整取值信息集合中每一规整取值信息分别与所述信息点的取值信息输入预置的相似度确定模型,得到相似度确定模型输出的所述信息点的取值信息与每一规整取值信息的相似度;所述相似度确定模型为,预先以所述信息点的取值训练数据及所述信息点的规整取值信息集合为训练样本,以所述规整取值信息集合中每一规整取值信息与所述取值训练数据的相似度标注结果为样本标签训练得到。优选地,所述校验要素包括指定对象包含情况;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:获取所述OCR处理后的结果中,非文本区域包含所述指定对象的数量。优选地,所述根据所述校验要素的要素值,确定所述待校验文本信息是否合规,包括:将所述校验要素的要素值输入预置的合规性判定模型,得到合规性判定模型输出的待校验文本信息的合规性判定结果;所述合规性判定模型为,预先以利用文本信息训练数据确定的校验要素的要素值为训练样本,以文本信息训练数据的合规性标注结果为样本标签训练得到。优选地,所述根据所述校验要素的要素值,确定所述待校验文本信息是否合规,包括:验证所述校验要素的要素值是否满足预置的验证规则,若满足,则确定所述待校验文本信息合规,否则,确定所述待校验文本信息不合规。一种文本校验装置,包括:信息获取单元,用于获取活动项目对应的待校验文本信息;要素值确定单元,用于根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;合规性确定单元,用于根据所述校验要素的要素值,确定所述待校验文本信息是否合规。一种文本校验设备,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现上述文本校验方法的各个步骤。一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述文本校验方法的各个步骤。从上述的技术方案可以看出,本申请实施例提供的文本校验方法,获取活动项目对应的待校验文本信息,其中,活动项目可以是司法案件审核等,进一步根据待校验文本信息,确定所需校验要素的要素值,该校验要素与活动项目相对应,最终根据所述校验要素的要素值,确定所述待校验文本信息是否合规。本申请实施例提供的方法,能够实现自动化的确定待校验文本信息是否合规,无需人工查阅文本信息,从而避免了结果受人为的干扰,且降低了人工成本。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例公开的一种文本校验方法流程图;图2示例了一种分类模型的架构;图3示例了一种相似度确定模型架构;图4示例了一种校验要素的要素值表达形式示意图;图5示例了一种合规性判定模型训练过程示意图;图6为本申请实施例公开的一种文本校验装置结构示意图;图7为本申请实施例公开的一种文本校验设备的硬件结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以活动项目为司法案件审核为例,对于证据文书的合规性,基本由法官自由裁量主观性本文档来自技高网...

【技术保护点】
1.一种文本校验方法,其特征在于,包括:获取活动项目对应的待校验文本信息;根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;根据所述校验要素的要素值,确定所述待校验文本信息是否合规。

【技术特征摘要】
1.一种文本校验方法,其特征在于,包括:获取活动项目对应的待校验文本信息;根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;根据所述校验要素的要素值,确定所述待校验文本信息是否合规。2.根据权利要求1所述的方法,其特征在于,所述获取活动项目对应的待检验文本信息,包括:对活动项目对应的实体待校验文书进行光学字符识别OCR处理,将OCR处理后的结果作为所述活动项目对应的待校验文本信息。3.根据权利要求2所述的方法,其特征在于,所述校验要素包括文本类型;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值;所述分类模型为,预先以标注有文本类型取值的文本信息训练数据训练得到。4.根据权利要求3所述的方法,其特征在于,所述根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值,包括:获取所述OCR处理后的结果中,文本区域的位置参数及包含的文本值;通过分类模型的输入层,输入所述位置参数及所述文本值;通过分类模型的卷积池化层,对所述位置参数及所述文本值进行卷积池化处理,得到文本特征;通过分类模型的注意力层,采用自注意力机制对所述文本特征进行处理,得到处理后文本特征;通过分类模型的全连接层,根据所述处理后文本特征,确定待校验文本信息的文本类型取值。5.根据权利要求2所述的方法,其特征在于,所述校验要素包括信息点包含情况;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:获取所述OCR处理后的结果中,文本区域包含的文本值;将所述文本值输入预置的序列标注模型,得到序列标注模型输出的所述文本值包含的词所属的信息点的类型;所述序列标注模型为,预先以训练文本数据包含的词作为训练样本,以标注的所述词所属的信息点的类型为样本标签训练得到;根据所述序列标注模型输出的结果,获取所述待校验文本信息对各类型信息点的包含情况。6.根据权利要求5所述的方法,其特征在于,所述校验要素还包括信息点取值;所述根据所述待校验文本信息,确定所需校验要素的要素值,还包括:根据所述序列标注模型输出的结果,将所述待校验文本信息中属于同一类型信息点的词,作为所述同一类型信息点的取值信息。7.根据权利要求6所述的方法,其特征在于,还包括:针对所述待校验文本信息中每一类型信息点的取值信息,在预置的知识点库中,查找相同类型信息点的规整取值信息集合,所述知识点库中存储了每一类型信息点的规整取值信息集合,规整...

【专利技术属性】
技术研发人员:陈翰卿胡加学符德祥
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1