一种通用的条款与文档匹配方法组成比例

技术编号:24331221 阅读:41 留言:0更新日期:2020-05-29 19:40
本发明专利技术公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明专利技术解决了条款与文档难以匹配的问题。

A general matching method of terms and documents

【技术实现步骤摘要】
一种通用的条款与文档匹配方法
本专利技术涉及一种通用的条款与文档匹配方法,适用于行政法规、司法解释、保密条款等多个应用领域的数据匹配处理,用以解决简明扼要的法律法规条款与复杂冗长的材料文档之间难以匹配的问题。
技术介绍
随着办公电子化的发展,诸如司法领域的裁判文书等文档呈现出数量巨大、文件冗长、描述形式多样化等特征,如何依据法律法规对文档中描述的核心点进行自动识别甚至是标注,对于提高法律法规鉴定的效率具有重要意义。现阶段工作方式通常采用人工检查标注,工作繁琐且易产生疏漏。对文本文档进行自动鉴定在技术上等价于进行文档与条款的自动匹配,即通过对文档主题内容进行分析,寻找和内容最相关的法律法规条款。业务人员依据这些条款可轻松高效的做出结论判定。在技术上实现文档与条款的自动匹配存在三大挑战:一是法律法规条款定义宏观,尤其是条款用词与文档材料用词显著不同;二是缺乏大量条款相关标注数据,直接应用基于统计的机器学习算法难以达到理想效果;三是条款领域非常多,目标希望能找到一种通用的处理手段进行条款建模及匹配。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种通用的条款与文档匹配方法,主要思想通过结合人工参与的半自动化数据收集工具以及自动化的条款计算模型,分析微观的文档材料内容,将材料与法律法规的宏观条款进行自动匹配,返回与文档材料最相关的条款,基于相关条款进行初步判定。本专利技术的技术方案为:一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一所选条款的多个查询语句;2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I,通过查询词扩展技术确定条款i中每个条款词w对应的文档词,作为条款词w的扩展词;计算每个扩展词的分布概率作为扩展词的权重,根据权重对扩展词排序获得前N个扩展词及其对应的权重,作为该条款i的条款主题模型;根据步骤1)处理得到的条款i的词块类型对标注数据集I中的每一文档标注其对应的文档类型,每一类型对应一标注数据子集,利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a的词项分布与每一条款的条款主题模型相似度,返回相似度大于设定阈值的条款;利用各条款的条款分类模型对该文档材料进行类别分类;5)根据返回的类别对返回的条款进行筛选;然后根据返回类别m的概率值和相似度S计算条款j的匹配概率值,返回匹配概率最高的条款;其中,相似度S为根据返回类别m筛选出的条款j与文档材料a的相似度。进一步的,步骤1)中,根据条款切割体系将条款分成三种词块:实体对象块、主题内容块和类型块;其中,实体对象块是条款中出现的实体对象词,主题内容块是指条款中出现的主题内容词,类型块是指条款的材料类型限定词。进一步的,根据条款i的每一所述查询语句从业务数据库、开源知识库和互联网上查询收集该条款i的相关文档数据。进一步的,使用KL距离算法计算文档材料a的词项分布与每一条款的条款主题模型相似度。进一步的,所述扩展词的权重为扩展词在tf-idf值。进一步的,所述条款为法律条款、行政法规或保密条款。一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述任一所述方法中各步骤的指令。一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行上述任一所述方法中各步骤的指令。本专利技术将材料文档与法律法规条款的自动匹配任务简称为“文档-条款”匹配任务。该任务利用计算机对文档(即特定领域材料)内容进行分析,判断其是否与该领域法律法规中的条款有关,并给出命中的相关条款。本文提出一种通用的法律法规条款建模框架及材料-条款匹配策略,该方法的输入为文本文档,输出为检测出的命中条款。整个方法的示意图如图1所示。具体步骤包括:(1)条款预处理。条款预处理步骤是根据条款切割体系对条款句子进行分词块操作,并对相应词块添加解释词和扩展词以便于组成针对该条款的多个查询语句,为后续面向不同词块进行数据收集以及条款建模做准备。(2)数据集构建。数据集构建步骤是根据查询词条实现条款相关文档数据的收集。由于目前标注数据少,系统设计的一个重要目标是能基于多个搜索引擎的元搜索生成可视为标注数据的训练语料的获取,考虑到直接人工获取数据耗时耗力,为此本专利技术提供了一套通过人工来配置扩展解释词的半自动化标注工具来简化标记流程、最小化数据标记量,减少人工工作量,达到对数据的快速定向获取。标注内容实质上,只需头尾两项内容,即给定文档对应的条款是什么,从而获得每一条款对应的标注数据集。(3)模型构建。模型构建步骤是基于步骤(1)处理得到的不同词块对步骤(2)返回的相关文档集进行计算,形成条款模型,主要有两个子模型构成:条款主题模型和条款类别模型。条款主题模型本质上对原始条款词进行扩充,对条款i对应的标注数据集合出现的所有词,使用信息检索中tf-idf计算得到每个词的权重,并排序获得TOPN个词;这样,每个条款都会得到一个topn的词和它对应的权重,形成了面向微观材料的更丰富的相关词表示,相关词同时包括词的权重,来反映与条款的相关概率;条款类别模型本质上是针对文本的材料类型从分类角度来处理文档-条款匹配问题。最终的条款模型是由条款主题模型和材料类别模型通过加权组合而成。(4)在线匹配。在线匹配服务是基于条款模型计算条款与鉴定材料的匹配程度,返回匹配度较高的条款。搭建在线匹配服务,将待鉴定文档输入步骤(3)构建的两个条款子模型进行条款匹配度计算,综合两个子模型返回的结果得到最终命中的条款。与现有技术相比,本专利技术的积极效果为:1)本专利技术针对某一条法律条款,基于其切割词块进行查询词扩展以及相关语料集的自动构建,尤其适用于没有训练数据的条款;2)本专利技术提出一种基于条款模型的材料和条款间的匹配方法,尤其适用于缺少特定领域训练语料,用以解决简明扼要的法律法规条款与复杂冗长的材料文档之间难以匹配的问题。附图说明图1为条款的匹配方法流程图;图2为条款预处理流程图;图3为数据收集方法流程图;图4为两个条款子模型生成方法图;图5为在线匹配方法流程图。具体实施方式具体系统框架构建流程是通过设计统一的条款切割框架,对不同的条款词块针对性收集数据并进行建模;对于文档材料分别由两个子模型计算匹配得分,综合给出最匹配的条款。具体流程如下:一、条款预处理条款作为整体直接匹配存在问题,条款预处理步骤主要是对条款进行统一规范化处理,并生成条款对应的查询词条用于数据收集模块检索相关数据。如图2所本文档来自技高网...

【技术保护点】
1.一种通用的条款与文档匹配方法,其步骤包括:/n1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一所选条款的多个查询语句;/n2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;/n3)对于每一条款i,根据条款i的标注数据集I,通过查询词扩展技术确定条款i中每个条款词w对应的文档词,作为条款词w的扩展词;计算每个扩展词的分布概率作为扩展词的权重,根据权重对扩展词排序获得前N个扩展词及其对应的权重,作为该条款i的条款主题模型;根据步骤1)处理得到的条款i的词块类型对标注数据集I中的每一文档标注其对应的文档类型,每一类型对应一标注数据子集,利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型;/n4)对于一待匹配条款的文档材料a,计算该文档材料a的词项分布与每一条款的条款主题模型相似度,返回相似度大于设定阈值的条款;利用各条款的条款分类模型对该文档材料进行类别分类;/n5)根据返回的类别对返回的条款进行筛选;然后根据返回类别m的概率值和相似度S计算条款j的匹配概率值,返回匹配概率最高的条款;其中,相似度S为根据返回类别m筛选出的条款j与文档材料a的相似度。/n...

【技术特征摘要】
1.一种通用的条款与文档匹配方法,其步骤包括:
1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一所选条款的多个查询语句;
2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;
3)对于每一条款i,根据条款i的标注数据集I,通过查询词扩展技术确定条款i中每个条款词w对应的文档词,作为条款词w的扩展词;计算每个扩展词的分布概率作为扩展词的权重,根据权重对扩展词排序获得前N个扩展词及其对应的权重,作为该条款i的条款主题模型;根据步骤1)处理得到的条款i的词块类型对标注数据集I中的每一文档标注其对应的文档类型,每一类型对应一标注数据子集,利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型;
4)对于一待匹配条款的文档材料a,计算该文档材料a的词项分布与每一条款的条款主题模型相似度,返回相似度大于设定阈值的条款;利用各条款的条款分类模型对该文档材料进行类别分类;
5)根据返回的类别对返回的条款进行筛选;然后根据返回类别m的概率值和相似度S计算条款j的匹配概率值,返回匹配概率最高的条款;其中,相似度S为根据返回类别m筛选出的条款j与文档材料a的相似...

【专利技术属性】
技术研发人员:张鹏周美林骆丹马路许洪波刘萍
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1