The embodiment of this application discloses a text verification method, device, device and readable storage medium. The application obtains the text information to be verified corresponding to the activity item. Among them, the activity item may be judicial case review, etc. Further, according to the text information to be verified, the essential value of the required verification element can be determined. The elements correspond to the activity items, and ultimately determine whether the text information to be checked conforms to the requirements according to the element values of the checking elements. The method provided in the embodiment of this application can automatically determine whether the text information to be checked is compliant or not without manual access to the text information, thus avoiding the interference of the result by human and reducing the labor cost.
【技术实现步骤摘要】
一种文本校验方法、装置、设备及可读存储介质
本申请涉及自然语言处理
,更具体地说,涉及一种文本校验方法、装置、设备及可读存储介质。
技术介绍
随着时代的发展,当前已经进入了数据时代,各行各业都会产生大量的文本数据,基于大量的数据可以实现多样化的功能。以司法案件审判场景为例,一个案件审核过程可能会涉及大量的证据,证据大多数情况下是以文本形式存在。这些证据文本在正式使用之前均需要对其合规性进行校验。合规性校验需要对证据文书的多种信息进行校验,如证据文书是否有盖章,具体文本内容是否包含所需的必要信息点等等。现有方法均是基于相关司法人员人工查阅证据文书,并基于自身经验给出证据文书是否合规的判定结论。而由于人与人之间判断差异度不同,因此给出的结论很容易受到人为干扰,并且查阅大量证据文书也会占用很大的人力成本。
技术实现思路
有鉴于此,本申请提供了一种文本校验方法、装置、设备及可读存储介质,用于解决现有通过人工查阅文本给出合规性判定结论的方式,容易受到人为干扰,且占用人力成本的问题。为了实现上述目的,现提出的方案如下:一种文本校验方法,包括:获取活动项目对应的待校验文本信息;根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;根据所述校验要素的要素值,确定所述待校验文本信息是否合规。优选地,所述获取活动项目对应的待检验文本信息,包括:对活动项目对应的实体待校验文书进行光学字符识别OCR处理,将OCR处理后的结果作为所述活动项目对应的待校验文本信息。优选地,所述校验要素包括文本类型;所述根据所述待校验文本信息,确定所需校验要素的要素值, ...
【技术保护点】
1.一种文本校验方法,其特征在于,包括:获取活动项目对应的待校验文本信息;根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;根据所述校验要素的要素值,确定所述待校验文本信息是否合规。
【技术特征摘要】
1.一种文本校验方法,其特征在于,包括:获取活动项目对应的待校验文本信息;根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;根据所述校验要素的要素值,确定所述待校验文本信息是否合规。2.根据权利要求1所述的方法,其特征在于,所述获取活动项目对应的待检验文本信息,包括:对活动项目对应的实体待校验文书进行光学字符识别OCR处理,将OCR处理后的结果作为所述活动项目对应的待校验文本信息。3.根据权利要求2所述的方法,其特征在于,所述校验要素包括文本类型;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值;所述分类模型为,预先以标注有文本类型取值的文本信息训练数据训练得到。4.根据权利要求3所述的方法,其特征在于,所述根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值,包括:获取所述OCR处理后的结果中,文本区域的位置参数及包含的文本值;通过分类模型的输入层,输入所述位置参数及所述文本值;通过分类模型的卷积池化层,对所述位置参数及所述文本值进行卷积池化处理,得到文本特征;通过分类模型的注意力层,采用自注意力机制对所述文本特征进行处理,得到处理后文本特征;通过分类模型的全连接层,根据所述处理后文本特征,确定待校验文本信息的文本类型取值。5.根据权利要求2所述的方法,其特征在于,所述校验要素包括信息点包含情况;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:获取所述OCR处理后的结果中,文本区域包含的文本值;将所述文本值输入预置的序列标注模型,得到序列标注模型输出的所述文本值包含的词所属的信息点的类型;所述序列标注模型为,预先以训练文本数据包含的词作为训练样本,以标注的所述词所属的信息点的类型为样本标签训练得到;根据所述序列标注模型输出的结果,获取所述待校验文本信息对各类型信息点的包含情况。6.根据权利要求5所述的方法,其特征在于,所述校验要素还包括信息点取值;所述根据所述待校验文本信息,确定所需校验要素的要素值,还包括:根据所述序列标注模型输出的结果,将所述待校验文本信息中属于同一类型信息点的词,作为所述同一类型信息点的取值信息。7.根据权利要求6所述的方法,其特征在于,还包括:针对所述待校验文本信息中每一类型信息点的取值信息,在预置的知识点库中,查找相同类型信息点的规整取值信息集合,所述知识点库中存储了每一类型信息点的规整取值信息集合,规整...
【专利技术属性】
技术研发人员:陈翰卿,胡加学,符德祥,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。