一种法律文本存储方法、装置、可读存储介质及终端设备制造方法及图纸

技术编号:23288139 阅读:28 留言:0更新日期:2020-02-08 18:11
本发明专利技术属于计算机技术领域,尤其涉及一种法律文本存储方法、装置、计算机可读存储介质及终端设备。所述方法在接收到相关指令后,可以自动获取法律文本,并通过文本自动化分析的方式,自动从法律文本中选取出可以有效地表征法律文本核心内容的核心词子集,借助于词语向量的形式计算得到所述核心词子集与各个特征词集合之间的向量距离,将其作为确定法律文本所应存储的存储分区的依据,选取与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区作为优选存储分区,并将法律文本存储入优选存储分区中。当用户需要查询相关资料时,仅需在对应的存储分区中进行查找即可,节省了对于人力成本的耗费,大大提高了工作效率。

A legal text storage method, device, readable storage medium and terminal equipment

【技术实现步骤摘要】
一种法律文本存储方法、装置、可读存储介质及终端设备
本专利技术属于计算机
,尤其涉及一种法律文本存储方法、装置、计算机可读存储介质及终端设备。
技术介绍
法律从业人员在日常的法律工作中往往会积累大量的法律文本,现有技术中提供了多种对这些法律文本进行有序存储的方法,例如,可以按照时间、大小、名称等进行升序或降序的存储。这样的存储方法虽然可以使得这些法律文本看起来井然有序,但却并未考虑到这些法律文本内在的关联性,不便于用户进行查询,当用户需要从中查询相关的资料时,往往需要逐个进行查看,耗费大量的人力成本,效率极为低下。
技术实现思路
有鉴于此,本专利技术实施例提供了一种法律文本存储方法、装置、计算机可读存储介质及终端设备,以解决现有的法律文本存储不便于用户进行查询的问题。本专利技术实施例的第一方面提供了一种法律文本存储方法,可以包括:接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;从所述词语集合中选取核心本文档来自技高网...

【技术保护点】
1.一种法律文本存储方法,其特征在于,包括:/n接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;/n对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;/n从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;/n分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;/n根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心...

【技术特征摘要】
1.一种法律文本存储方法,其特征在于,包括:
接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;
根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;
将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。


2.根据权利要求1所述的法律文本存储方法,其特征在于,所述第一词语向量数据库的设置过程包括:
对预设的法律文本库中的各条法律文本进行分词处理,得到组成所述法律文本库的各个词语;
确定目标词语的各个关联词语,并分别计算所述目标词语与各个关联词语之间的第一关联度,所述目标词语为组成所述法律文本库的任意一个词语;
在预设的第二词语向量数据库中分别查询所述目标词语的词语向量,以及各个关联词语的词语向量;
根据所述目标词语与各个关联词语之间的第一关联度,以及各个关联词语的词语向量,对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量;
将所述目标词语的更新词语向量添加入所述第一词语向量数据库中。


3.根据权利要求2所述的法律文本存储方法,其特征在于,所述对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量包括:
根据下式分别计算所述目标词语与各个关联词语之间的第二关联度:



其中,c为所述目标词语的各个关联词语的序号,1≤c≤CN,CN为所述目标词语的关联词语的总数,d为词语向量的维度序号,1≤d≤DN,DN为词语向量的维度总数,TgtElmd为所述目标词语的词语向量在第d个维度上的取值,CntElmc,d为所述目标词语的第c个关联词语的词语向量在第d个维度上的取值,SdConnectc为所述目标词语与第c个关联词语之间的第二关联度;
根据下式分别计算所述目标词语与各个关联词语之间的关联度误差:
ErrElmc=SdConnectc—FtConnectc
其中,FtConnectc为所述目标词语与第c个关联词语之间的第一关联度,ErrElmc为所述目标词语与第c个关联词语之间的关联度误差;
根据下式对所述目标词语的词语向量进行更新计算:



其中,λ为预设的更新系数,NwTgtElmd为所述目标词语的更新词语向量在第d个维度上的取值。


4.根据权利要求1所述的法律文本存储方法,其特征在于,所述分别计算所述核心词子集与各个特征词集合之间的向量距离包括:
根据下式分别计算所述核心词子集与各个特征词集合之间的向量距离:



其中,k为所述核心词子集中的词语序号,1≤k≤KN,KN为所述核心词子集中的词语总数,t为各个存储分区的序号,1≤t≤TN,TN为存储分区的总数,e为各个特征词集合中的词语序号,1≤e≤ENt,ENt为第t个特征词集合中的词语总数,第t个特征词集合为与第t个存储分区对应的特征词集合,KeyElmk,d为所述核心词子集中的第k个词语的词语向量在第d个维度上的取值,EigElmt,e,d为第t个特征词集合中的第e个词语的词语向量在第d个维度上的取值,Dist为所述核心词子集与第t个特征词集合之间的向量距离。


5.根据权利要求1至4中任一项所述的法律文本存储方法,其特征在于,从所述词语集合中选取核心词子集包括:
根据下式分别计算所述词语集合中的各个词语的词条密度:



其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集...

【专利技术属性】
技术研发人员:周剀周萌
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1