一种法律文本归档方法、装置、可读存储介质及终端设备制造方法及图纸

技术编号:23238905 阅读:30 留言:0更新日期:2020-02-04 18:21
本发明专利技术属于计算机技术领域,尤其涉及一种法律文本归档方法、装置、计算机可读存储介质及终端设备。所述方法接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;从所述词语集合中选取核心词子集;根据所述核心词子集从预设的服务器群组中选取目标服务器;从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语;根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区;将所述法律文本归档入所述目标服务器中的所述目标分区。

A method, device, readable storage medium and terminal device for filing legal texts

【技术实现步骤摘要】
一种法律文本归档方法、装置、可读存储介质及终端设备
本专利技术属于计算机
,尤其涉及一种法律文本归档方法、装置、计算机可读存储介质及终端设备。
技术介绍
在法院、律所等机构中,往往需要对大量的法律文本及时进行归档处理,以便于后续查询。现有技术中提供了多种对这些法律文本进行归档的方法,例如,可以按照处理人、处理单位以及处理日期等进行归档。这样的归档方法虽然可以使得这些法律文本看起来井然有序,但却并未考虑到这些法律文本内在的关联性,不便于用户进行查询,当用户需要从中查询相关的资料时,往往需要逐个进行查看,耗费大量的人力成本,效率极为低下。
技术实现思路
有鉴于此,本专利技术实施例提供了一种法律文本归档方法、装置、计算机可读存储介质及终端设备,以解决现有的法律文本归档方法耗费大量的人力成本,效率极为低下的问题。本专利技术实施例的第一方面提供了一种法律文本归档方法,可以包括:接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;对所述法律文本进行分词处理,得到组成所本文档来自技高网...

【技术保护点】
1.一种法律文本归档方法,其特征在于,包括:/n接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;/n对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;/n从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;/n根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;/n从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所...

【技术特征摘要】
1.一种法律文本归档方法,其特征在于,包括:
接收法律文本归档指令,提取所述法律文本归档指令中的目标地址,并获取所述目标地址中的法律文本;
对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;
从所述词语集合中选取核心词子集,所述核心词子集中包括词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语;
根据所述核心词子集从预设的服务器群组中选取目标服务器,所述目标服务器为用于对所述法律文本归档的服务器;
从所述词语集合中选取辅助词子集,所述辅助词子集中包括第一词频与第二词频之比大于预设的第三阈值的各个词语,所述第一词频为在所述法律文本中出现的频率,所述第二词频为在与所述目标服务器对应的法律文本库中出现的频率;
根据所述辅助词子集确定所述法律文本在所述目标服务器中的目标分区,所述目标分区为用于对所述法律文本归档的磁盘分区;
将所述法律文本归档入所述目标服务器中的所述目标分区。


2.根据权利要求1所述的法律文本归档方法,其特征在于,所述从所述词语集合中选取核心词子集包括:
根据下式分别计算所述词语集合中的各个词语的词条密度:



其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;
将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;
根据下式分别计算所述词语集合中的各个词语的均匀度:



其中,f为所述法律文本的各个文本段落的序号,1≤f≤FN,Flagw,f为所述词语集合中的第w个词语在第f个文本段落中的出现情况的标志位,且WdEquw为所述词语集合中的第w个词语的均匀度;
从所述词语集合中选取词条密度大于所述第一阈值且均匀度大于所述第二阈值的各个词语组成所述核心词子集。


3.根据权利要求1所述的法律文本归档方法,其特征在于,所述根据所述核心词子集从预设的服务器群组中选取目标服务器包括:
在预设的第一词语列表中分别查询所述核心词子集中的各个词语的第一特征向量,其中,每个词语的第一特征向量均由T个维度的分量组成,每个维度均对应于一个服务器的特征值,T为大于1的整数;
根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值;
将概率值最大的服务器确定为所述目标服务器。


4.根据权利要求3所述的法律文本归档方法,其特征在于,所述根据所述核心词子集中的各个词语的第一特征向量分别计算所述法律文本归档入所述服务器群组中的各个服务器的概率值包括:
根据下式计算所述法律文本归档入所述服务器群组中的各个服务器的概率值:



其中,t为所述服务器群组中的各个服务器的序号,1≤t≤T,c为所述核心词子集中的各个词语的序号,1≤c≤CoreNum,CoreNum为所述核心词子集中的词语数目,EigValc,t为所述核心词子集中的第c个词语与第t个服务器对应的特征值,LawDomt为所述法律文本归档入第t个服务器的概率值。


5.根据权利要求1至4中任一项所述的法律文本归档方法,其特征在于,所述从所述词语集合中选取辅助词子集包括:
根据下式分别计算所述词语集合中的各个词语的第一词频:



其中,FstFrqw为所述词语集合中的第w个词语的第一词频;
根据下式分别计算所述词语集合中的各个词语的第二词频:



其中,LibWdNumw为所述词语集合中的第w个词语在与所述目标服务器对应的法律文本库中出现的次数,SndFrqw为所述词语集合中的第w个词语的第二词频;
从所述词语集合中选取第一词频与第二词频之比大于所述...

【专利技术属性】
技术研发人员:周剀文莉
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1