一种司法文本标签体系构建方法及系统技术方案

技术编号:20725190 阅读:32 留言:0更新日期:2019-03-30 17:45
本申请提供了一种司法文本标签体系构建方法及系统。通过分词工具获取司法词汇文本,根据词频统计构建初级标签体系,对初级标签体系中语义相近的标签进行合并,对生涩的标签进行扩展,获得扩展标签体系,利用文本测试集,统计扩展标签体系搜索文本的准确度,验证当前的扩展标签体系是否构建完成,否则进一步优化标签体系。实现对不同法律构建针对性的标签体系,大大提高了司法文本的搜索精度。

【技术实现步骤摘要】
一种司法文本标签体系构建方法及系统
本申请涉及自然语言处理领域,特别涉及一种司法文本标签体系构建方法及系统。
技术介绍
随着法律领域的公开和透明化,越来越多的裁判文书被置于公众的监督之下。据中国裁判文书网统计,当前已有5千多万文书上网,且以每天3万左右的规模递增。然而,法律文本资源的增长也带来一系列问题,例如存储容量越来越大,搜索速度越来越慢,搜索结果不是期望信息等问题。这些问题导致法律文本资源的使用效率降低。为了解决这些问题,要对法律文本进行处理。互联网海量数据处理常用方法是进行数据标签化,即向量空间模型技术(VectorSpaceModel)。数据被处理成一系列关键词(Term)或者标签,然后利用这些关键词生成索引码。法律文本处理同样使用这一模型,不同的是标签如何定义。在文本标签提取方面已有大量的工作。专利CN201510697001提出对已有的短信文本,通过编写正则表达式挖掘出通知类短信;将挖掘的XX作为短信文本的身份标签信息;对挖掘出的此种通知类短信文本身份,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息。并且此身份标签可在新短信到来时实时更新。专本文档来自技高网...

【技术保护点】
1.一种司法文本标签体系构建方法,其特征在于,包括:获取词汇文本,所述词汇文本指以词汇表征文本的形式;根据所述词汇文本词频和/或组合词频,选择候选标签,获得初级标签体系;根据所述初级标签体系中标签的相似度,合并和/或扩展标签,获得扩展标签体系;根据所述扩展标签体系搜索文本的准确度,确定最终标签体系构建完成。

【技术特征摘要】
1.一种司法文本标签体系构建方法,其特征在于,包括:获取词汇文本,所述词汇文本指以词汇表征文本的形式;根据所述词汇文本词频和/或组合词频,选择候选标签,获得初级标签体系;根据所述初级标签体系中标签的相似度,合并和/或扩展标签,获得扩展标签体系;根据所述扩展标签体系搜索文本的准确度,确定最终标签体系构建完成。2.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,所述获取词汇文本,包括:构建司法词汇表,将所述司法词汇表加入分词工具的自定义词典,将司法文本切分,获得词汇文本;其中,所述构建司法词汇表,包括:将法律词典和法律专业词库等的词汇加入预备词汇表;统计常规词的组合词频,将所述组合词频满足设定阈值I的常规词组合作为新词汇加入所述预备词汇表;复检,将未切分正确的专业词汇加入预备词汇表;获得所述司法词汇表。3.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,根据所述词汇文本词频和组合词频,选择候选标签,获得初级标签体系,包括:定义窗口长度K,使用窗口遍历的方法统计任意M个词汇组合出现的次数,将出现次数最高的N个组合中的词汇作为关键词,统计所述关键词中单个词汇的词频,将所述词频满足设定阈值II的词汇作为候选标签,加入所述初级标签体系。4.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,所述标签的相似度,其计算方法包括:设置基于字符的标签相似度权重p和基于语义的标签相似度权重q;获取标签W1、W2基于字符的标签相似度sim(W1,W2),其中,所述sim(W1,W2)=标签W1和标签W2中字符相同的数量/标签W1和标签W2的字符长度较大值;获取标签W1、W2基于语义的标签相似度score(W1,W2),其中所述score(W1,W2)为标签W1和标签W2的相关性值,所述相关性值从用司法文本作语料训练后的语义模型中获取;计算标签的相似度=p*sim(W1,W2)+q*score(W1,W2)。5.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,所述合并标签,具体为当两个标签的相似度满足设定阈值III,或所述两个标签的相似度在所述初级标签体系的标签相似度值前R位时,将两个标签合并,保留其中一个标签,将另一个标签从所述初级标签体系中去除;所述扩展标签,具体为当语义模型或者同义词典中若干词与标签词的相似度满足设定阈值IV时,将这些词作为此标签词的扩展词,将所述扩展词汇加入初级标签体系。6.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于:所述搜索文本的准确度,其计算方法包括:建立测试集,测试集包括样本集和搜索对象集,所述样本集每个样本包括一个问题以及与问题最相关的n个案情和最相关的m条法条,所述搜索对象集包括所有案情和法条集合;抽取样本集中的问题、案情和法条的文本标签,形成标签向量;使用向量匹配的方法将所述搜索对象集中的与问题相似的案情和适用的法条推荐出来,其中向量相似度使用欧拉距离计算;通过推荐案情、法条与所述样本集对应的案情、法条的对照,计算准确度,其中,准确度使用召回率和正确率的平均值表示,所述召回率又称查全率,所述召回率=查出来正确的样本数/数据集里全部正确的样本数;所述正确率又称查准率,所述正确率=...

【专利技术属性】
技术研发人员:丁锴李建元陈涛王开红
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1