一种基于词频打分算法获取法律文书案件地点的方法技术

技术编号:31237731 阅读:21 留言:0更新日期:2021-12-08 10:23
本发明专利技术公开了一种基于词频打分算法获取法律文书案件地点的方法,先使用传统特征工程进行数据清洗和规则化,再通过TF

【技术实现步骤摘要】
一种基于词频打分算法获取法律文书案件地点的方法


[0001]本专利技术涉及数据处理
,具体涉及一种基于词频打分算法获取法律文书案件地点的方法。

技术介绍

[0002]NLP(Natural Language Processing)即自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
[0003]在我国司法公开的大背景下,对于法律文书的研究成为了学界业界十分重要的一个课题,而对于文书中提到的案件发生的地理位置也是一个十分重要的变量,其可以用来分析区域民事纠纷、犯罪地点的分布情况。但是由于自然语言规律比较庞杂,单纯使用传统的正则提取十分困难。

技术实现思路

[0004]针对现有技术的不足,本专利技术旨在提供一种基于词频打分算法获取法律文书案件地点的方法,使用词频融合的算法来来进行文本提取,解决信息提取不准确的问题。
[0005]为了实现上述目的,本专利技术采用如下技术方案:
[0006]一种基于词频打分算法获取法律文书案件地点本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于词频打分算法获取法律文书案件地点的方法,其特征在于,具体过程为:S1、将待处理的司法文书采用分类算法分成设定的各种文书类型;S2、将经过分类后的司法文书进行特征提取,获得待处理司法文书中包含地理位置的句子列表和受理法院名称的信息;S3、通过top10和top1的TF

IDF融合算法得到待处理司法文书的句子列表中每个句子的评分;具体过程为:S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本;S3.2、对每种文书类型,均将每份司法文书样本进行分句,然后将分句中的含有地理位置的句子筛选出来,再人工给这些句子打分;打分标准为:将地理位置从低到高分为省、市、区/县、街道、小区、楼宇信息、房间信息七个等级,等级越高,分数的权重越高,每个句子的分数为该句子中含有的地理位置中所有等级的分数总和;完成人工打分后,对每份司法文书均找出含有地理位置的分数最高的前10个句子和其中分数最高的句子;S3.3、对于每种文书类型,均将每份司法文书样本的最高分的10个句子进行分词,然后通过TF

IDF词频算法得到每个词语的分数;计算公式如下:TF词频公式为:IDF逆词频公式为:TF

IDF最终的公式为:tfidf
i,j
=tf
i,j
×
idf
i
;其中,n
i,j
是词语t
i
在文书d
j
中的出现次数,∑
k
n
k,j
是在文书d
j
中所有词语的出现次数之和;|D|为文书总数,|{j:t
i
∈d
j
}|为包含词语t
i
的文书数目;S3.4、对于每种文书类型,均对每份司法文书样本里面的最高分句子进行分词,也通过TF

IDF词频算法得到每个词语的分数;S3.5、形成每种文书类型的地理词库打分算法,每种文书类型的地理词库打分算法中,每个词语的分数由步骤S3.3中获得的该词语的分数和步骤S3.4中获得...

【专利技术属性】
技术研发人员:汪天翔张雨侠吴雨豪
申请(专利权)人:深圳市大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1