一种通用的条款与文档匹配方法组成比例

技术编号：24331221 阅读：60 留言：0更新日期：2020-05-29 19:40

本发明专利技术公开了一种通用的条款与文档匹配方法，其步骤包括：1)根据条款切割体系对所选每一条款句子进行分词块操作，并对相应词块添加解释词和扩展词，生成针对每一条款的多个查询语句；2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款，获得每一条款i对应的标注数据集；3)对于每一条款i，根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型；4)对于一待匹配条款的文档材料a，计算该文档材料a与每一条款的条款主题模型相似度和类别分类；5)根据返回的类别概率值和相似度计算各条款的匹配概率值，返回匹配概率最高的条款。本发明专利技术解决了条款与文档难以匹配的问题。

A general matching method of terms and documents

全部详细技术资料下载

【技术实现步骤摘要】
一种通用的条款与文档匹配方法
本专利技术涉及一种通用的条款与文档匹配方法，适用于行政法规、司法解释、保密条款等多个应用领域的数据匹配处理，用以解决简明扼要的法律法规条款与复杂冗长的材料文档之间难以匹配的问题。
技术介绍
随着办公电子化的发展，诸如司法领域的裁判文书等文档呈现出数量巨大、文件冗长、描述形式多样化等特征，如何依据法律法规对文档中描述的核心点进行自动识别甚至是标注，对于提高法律法规鉴定的效率具有重要意义。现阶段工作方式通常采用人工检查标注，工作繁琐且易产生疏漏。对文本文档进行自动鉴定在技术上等价于进行文档与条款的自动匹配，即通过对文档主题内容进行分析，寻找和内容最相关的法律法规条款。业务人员依据这些条款可轻松高效的做出结论判定。在技术上实现文档与条款的自动匹配存在三大挑战：一是法律法规条款定义宏观，尤其是条款用词与文档材料用词显著不同；二是缺乏大量条款相关标注数据，直接应用基于统计的机器学习算法难以达到理想效果；三是条款领域非常多，目标希望能找到一种通用的处理手段进行条款建模及匹配。...

【技术保护点】
1.一种通用的条款与文档匹配方法，其步骤包括：/n1)根据条款切割体系对所选每一条款句子进行分词块操作，并对相应词块添加解释词和扩展词，生成针对每一所选条款的多个查询语句；/n2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款，获得每一条款i对应的标注数据集；/n3)对于每一条款i，根据条款i的标注数据集I，通过查询词扩展技术确定条款i中每个条款词w对应的文档词，作为条款词w的扩展词；计算每个扩展词的分布概率作为扩展词的权重，根据权重对扩展词排序获得前N个扩展词及其对应的权重，作为该条款i的条款主题模型；根据步骤1)处理得到的条款i的词块类型对标注数...

【技术特征摘要】
1.一种通用的条款与文档匹配方法，其步骤包括：
1)根据条款切割体系对所选每一条款句子进行分词块操作，并对相应词块添加解释词和扩展词，生成针对每一所选条款的多个查询语句；
2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款，获得每一条款i对应的标注数据集；
3)对于每一条款i，根据条款i的标注数据集I，通过查询词扩展技术确定条款i中每个条款词w对应的文档词，作为条款词w的扩展词；计算每个扩展词的分布概率作为扩展词的权重，根据权重对扩展词排序获得前N个扩展词及其对应的权重，作为该条款i的条款主题模型；根据步骤1)处理得到的条款i的词块类型对标注数据集I中的每一文档标注其对应的文档类型，每一类型对应一标注数据子集，利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型；
4)对于一待匹配条款的文档材料a，计算该文档材料a的词项分布与每一条款的条款主题模型相似度，返回相似度大于设定阈值的条款；利用各条款的条款分类模型对该文档材料进行类别分类；
5)根据返回的类别对返回的条款进行筛选；然后根据返回类别m的概率值和相似度S计算条款j的匹配概率值，返回匹配概率最高的条款；其中，相似度S为根据返回类别m筛选出的条款j与文档材料a的相似...

【专利技术属性】
技术研发人员：张鹏，周美林，骆丹，马路，许洪波，刘萍，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人