资产信息识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23315195 阅读:16 留言:0更新日期:2020-02-11 17:50
本申请涉及数据处理领域,公开了一种资产信息识别方法、装置、计算机设备及存储介质,所述方法包括:获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。通过训练文本分类模型和实体识别模型,完成法律文书中资产信息的识别和提取,比传统的规则遍历法更有通用性,能够进行自动识别,并且提高信息识别的准确率。

Asset information identification method, device, computer equipment and storage medium

【技术实现步骤摘要】
资产信息识别方法、装置、计算机设备及存储介质
本申请涉及信息提取领域,尤其涉及一种资产信息识别方法、装置、计算机设备及存储介质。
技术介绍
目前,在法律文书中存在大量的资产线索,通过对法律文书中资产线索的分析,可以了解到公司或个人历史的资产纠纷,以及法院对于存在纠纷的资产的查明结果,这些线索在对公司进行不良资产清收、上市公司风险评级等方面都具有重要意义。现有的是在法律文书中利用规则遍历法,对法律文书全文进行资产线索的查找,但是规则遍历法在进行线索识别时,其准确率较低。因此,如何提高从法律文书中识别资产信息的准确率成为亟待解决的问题。
技术实现思路
本申请提供了一种资产信息识别方法、装置、设备及存储介质,以提高从法律文书中识别资产信息的准确率。第一方面,本申请提供了一种资产信息识别方法,所述方法包括:获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。第二方面,本申请还提供了一种资产信息识别装置,所述装置包括:文书解析模块,用于获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;诉讼信息模块,用于对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;指代消解模块,用于根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;信息提取模块,用于利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的资产信息识别方法。第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的资产信息识别方法。本申请公开了一种资产信息识别方法、装置、设备及存储介质,通过获取法律文书并对所述法律文书进行解析,得到包括诉讼参与人段落和事实段落的目标段落;对诉讼参与人段落进行信息提取,得到诉讼参与人信息;再根据诉讼参与人信息对事实段落进行指代消解,从而获得消解后的事实段落;最终利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以得到资产信息。通过训练文本分类模型和实体识别模型,完成法律文书中资产信息的识别和提取,比传统的规则遍历法更有通用性,能够进行自动识别,并且提高信息识别的准确率。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种文本分类模型的训练方法的步骤示意流程图;图2是本申请实施例提供的一种实体识别模型的训练方法的步骤示意流程图;图3是本申请的实施例提供的一种资产信息识别方法的步骤示意流程图;图4是图3中提供的一种资产信息识别方法的子步骤示意流程图;图5是对事实段落进行指代消解的步骤示意流程图;图6是图3中提供的一种资产信息识别方法的子步骤示意流程图;图7为本申请实施例提供的一种资产信息识别装置的示意性框图;图8为本申请一实施例提供的一种计算机设备的结构示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本申请的实施例提供了一种资产信息识别方法、装置、计算机设备及存储介质。资产信息识别方法可用于对文书中的资产信息进行识别和提取,提高信息识别的准确率。其中,文书是指具有特定格式的文书,以下以法律文书为例进行详细说明。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。请参阅图1,图1是本申请实施例提供的一种文本分类模型的训练方法的示意流程图。该文本分类模型的训练方法是基于卷积神经网络进行模型训练得到的,当然也可以通过其他网络进行训练得到。需要说明的是,在本实施例中,文本分类模型为TextCNN文本分类模型,TextCNN将卷积神经网络CNN应用到文本分类任务,利用多个不同尺寸的卷积核来抽取文本的局部特征,将文本转换成一个固定维度的特征向量,并基于此特征向量训练一个分类器。由于法律文书的表述模式比较明显,适合采用这种浅层文本分类模型。如图1所示,该文本分类模型的训练方法,具体包括:步骤S101至步骤S103。S101、获取第一资产关键句,所述第一资产关键句为包括资产关键词的句子。其中,第一资产关键句是指包括资产关键词的句子。其中,资产关键词可以是楼房、房产、房地产、房屋、住房、保证、债券、存款等。选取法律文书中包括资产关键词的句子,并将其作为第一资产关键句,用于训练文本分类模型。S102、根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,以构建样本数据。具体地,资产分类类别可以包括2大类,分别为资产类别和非资产类别,其中,资产类别又包括5个小类,具体为房产、土地、车辆、存款、借款、担保。在具体实施过程中,样本数据的数量可以为2万条,并且房产:土地:车辆:存款:借款:担保:非资产类别的比例可以为2:1:1:1:2:2:1。具体地,根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,对第一资产关键句按照类别进行分类,从而按照分类类别提取第一资产关键句构建样本数据。在具体实施过程中,可以按照资产类别和非资产类别的比例进行提取。S103、基于卷积本文档来自技高网...

【技术保护点】
1.一种资产信息识别方法,其特征在于,包括:/n获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;/n对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;/n根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;/n利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。/n

【技术特征摘要】
1.一种资产信息识别方法,其特征在于,包括:
获取法律文书并对所述法律文书进行解析,以获得目标段落,所述目标段落包括诉讼参与人段落和事实段落;
对所述诉讼参与人段落进行信息提取,以获取诉讼参与人信息;
根据所述诉讼参与人信息对所述事实段落进行指代消解,以获得消解后的事实段落;
利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息。


2.根据权利要求1所述的资产信息识别方法,其特征在于,所述利用预先训练的文本分类模型和实体识别模型对所述消解后的事实段落进行信息提取,以获得资产信息,包括:
根据资产关键词在所述消解后的事实段落中进行匹配,以获得与所述资产关键词相匹配的初始资产关键句;
利用预先训练的文本分类模型对所述初始资产关键句进行过滤,以获得目标资产关键句;
基于预先训练的实体识别模型对所述目标资产关键句进行资产信息的识别,以获得资产所有人、关联方和资产属性。


3.根据权利要求1所述的资产信息识别方法,其特征在于,还包括:
获取第一资产关键句,所述第一资产关键句为包括资产关键词的句子;
根据资产分类类别对应的类别标识对所述第一资产关键句进行标记,以构建样本数据;
基于卷积神经网络,根据所述样本数据进行模型训练和验证以得到文本分类模型,并将所述文本分类模型作为预先训练的文本分类模型。


4.根据权利要求1所述的资产信息识别方法,其特征在于,还包括:
获取第二资产关键句,所述第二资产关键句为包括资产关键词、资产属性和资产所有人的句子;
对所述资产关键词、资产属性和资产所有人分别进行标注,以构建样本数据;
基于长短期记忆网络,根据所述样本数据进行模型训练和验证以得到实体识别模型,并将所述实体识别模型作为预先训练的实体识别模型。


5.根据权利要求1所述的资产信息识别方法,其特征在于,所...

【专利技术属性】
技术研发人员:高舒徐冰陈晨李可汪伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1