文档匹配方法及系统技术方案

技术编号:38105089 阅读:9 留言:0更新日期:2023-07-06 09:26
本发明专利技术提供一种文档匹配方法及系统,包括:获取政策文档,形成政策文档集合P;划分所述政策文档,分类存储于文件管理库T中;拆解所述文件管理库T中政策文档的标题、段落,得到标题和段落集合K;分类所述标题和段落集合K,得到候选政策指标段落L;抽取所述候选政策指标段落L中的指标知识点,得到政策文档的指标详情W;对齐所述指标详情W,根据对齐后的结果与企业资质进行对比,得到企业和政策文档指标的匹配结果Q。本发明专利技术方法能够直接与企业资质进行匹配,与现有的人工匹配方式相比,本发明专利技术能够大幅度提高匹配效率,降低重要指标的错漏率。率。率。

【技术实现步骤摘要】
文档匹配方法及系统


[0001]本专利技术涉及自然语言处理
,具体而言涉及一种政策文档指标匹配方法及系统。

技术介绍

[0002]由于政策文件种类繁多,从中小型企业到大型企业,不同企业对应的政策文件不同,企业或者个人想要从大量的政策文件中挖掘出对自己有用的信息,是一件费时费力的工作。
[0003]目前,企业想要和政策文件中的指标进行匹配,通常采用人工匹配的方式,在政策文件中寻找对应的指标知识,再和公司的资质进行对比,由于人工匹配的方式容易出现错漏,导致一些重要指标知识点往往被忽略,对企业和个人会造成一定的损失影响,因此,如何实现对各类政策文件的统一管理规划、政策文件的信息化建设,如何实现企业全面的、准确的政策指标挖掘,是一个必要解决的难题。

技术实现思路

[0004]本专利技术目的在于提供一种文档匹配方法,能够解决现有企业通过人工匹配方式进行资质匹配而导致的效率低下、错漏众多、损失影响较大的问题。
[0005]为实现上述目的,本专利技术所采用的技术方案如下:
[0006]文档匹配方法,包括:
[0007]步骤1、获取政策文档,形成政策文档集合P;
[0008]步骤2、划分所述政策文档,以地名为依据,分类存储于文件管理库T中;
[0009]步骤3、拆解所述文件管理库T中政策文档的标题、段落,得到标题和段落集合K;
[0010]步骤4、分类所述标题和段落集合K,得到候选政策指标段落L;
[0011]步骤5、抽取所述候选政策指标段落L中的指标知识点,得到政策文档的指标详情W;
[0012]步骤6、对齐所述指标详情W,根据对齐后的结果与企业资质进行对比,得到企业和政策文档指标的匹配结果Q。
[0013]优选地,前述步骤2中,划分所述政策文档,以地名为依据,分类存储于文件管理库T中,包括:
[0014]建立文件管理库T,所述文件管理库T包含多个不同地级市名称的地名文件和一个无地级市名称的无地名文件;
[0015]利用实体识别模型对所述政策文档的政策标题进行识别,得到所述政策文档的地名标题;
[0016]若所述政策文档的地名标题包含地级市名称,则将所述政策文档存放于对应地级市名称的地名文件;
[0017]若所述政策文档的地名标题不包含地级市名称,则将所述政策文档存放于无地名
文件。
[0018]优选地,前述步骤3中,拆解所述文件管理库T中政策文档的标题、段落,包括:
[0019]利用标题段落解析模型,将所述文件管理库T中的政策文档拆解成标题和段落,得到对应的标题和段落集合K。
[0020]优选地,前述步骤4中,分类所述标题和段落集合K,得到候选政策指标段落L,包括:
[0021]基于BERT建立政策候选段落分类模型;
[0022]将所述标题和段落集合K做为所述政策候选段落分类模型的输入;
[0023]利用BERT预训练语言模型并将其作为特征提取层,获得段落编码器特征;
[0024]添加全连接层,对段落编码器进行分类,判断该段落是否为候选段落;
[0025]若该段落是候选段落,则标记为候选政策指标段落L;
[0026]若该段落不是候选段落,则忽略。
[0027]优选地,前述步骤5中,抽取所述候选政策指标段落L中的指标知识点,得到政策文档的指标详情W,包括:
[0028]利用指标抽取模型对所述候选政策指标段落L进行抽取;
[0029]基于BERT预训练语言模型提取所述候选政策指标段落L中句子的上下文特征,获得指标知识点;
[0030]利用指针的方式分别预测所述指标知识点的开始位置和结束位置,得到指标详情W。
[0031]优选地,利用指针的方式分别预测所述指标知识点的开始位置和结束位置,其预测的计算公式如下:
[0032][0033][0034]其中,表示待抽取句子中第i个token是指标详情开始位置的概率,表示待抽取句子中第i个token是指标详情结束位置的概率,h
i
全连接后的隐层状态,W
(.)
表示模型训练的权重,b
(.)
为偏执项。
[0035]优选地,前述步骤6中,对齐所述指标详情W,包括:
[0036]将指标详情W划分为三种类型,所述三种类型包括文本、时间和数值;
[0037]将文本类的指标详情对齐,形成文本类指标详情;
[0038]将时间类的指标详情对齐,形成时间类指标详情;
[0039]将数值类的指标详情对齐,形成数值类指标详情。
[0040]优选地,前述步骤6中,得到企业和政策文档指标的匹配结果Q,包括:
[0041]将对齐后的指标详情W与企业资质进行匹配,若匹配结果一致,则返回匹配;
[0042]若匹配结果不一致,则返回不匹配。
[0043]根据本专利技术目的的第二方面,还提出一种文档匹配系统,包括:
[0044]一个或多个处理器;
[0045]存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使
得所述一个或多个处理器执行操作,所述操作包括如所述文档匹配方法的流程。
[0046]与现有技术相比,本专利技术所达到的有益效果在于:本专利技术通过将非结构化的政策文档转化为结构化的知识图谱进行存储,并建立政策文档管理库,依据地名对政策文档进行保存,方便对政策文档的统一管理,同时,通过本专利技术提供的文档匹配方法,能够直接与企业资质进行匹配,与人工匹配的方式相比,本专利技术方法能够大幅度提高匹配效率,降低重要指标的错漏率。
[0047]应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的专利技术主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的专利技术主题的一部分。
[0048]结合附图从下面的描述中可以更加全面地理解本专利技术教导的前述和其他方面、实施例和特征。本专利技术的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本专利技术教导的具体实施方式的实践中得知。
附图说明
[0049]附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本专利技术的各个方面的实施例。
[0050]图1是本专利技术一个实施例中提供的文档匹配方法的流程示意图。
[0051]图2是本专利技术一个实施例中提供的政策指标匹配的整体框架示意图。
[0052]图3是本专利技术一个实施例中提供的指标详情抽取模型框架示意图。
具体实施方式
[0053]为了更了解本专利技术的
技术实现思路
,特举具体实施例并配合所附图式说明如下。
[0054]在本公开中参照附图来描述本专利技术的各方面,附图中示出了许多说明的实施例。本公开的实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档匹配方法,其特征在于,包括:步骤1、获取政策文档,形成政策文档集合P;步骤2、划分所述政策文档,以地名为依据,分类存储于文件管理库T中;步骤3、拆解所述文件管理库T中政策文档的标题、段落,得到标题和段落集合K;步骤4、分类所述标题和段落集合K,得到候选政策指标段落L;步骤5、抽取所述候选政策指标段落L中的指标知识点,得到政策文档的指标详情W;步骤6、对齐所述指标详情W,根据对齐后的结果与企业资质进行对比,得到企业和政策文档指标的匹配结果Q。2.根据权利要求1所述的文档匹配方法,其特征在于,前述步骤2中,划分所述政策文档,以地名为依据,分类存储于文件管理库T中,包括:建立文件管理库T,所述文件管理库T包含多个不同地级市名称的地名文件和一个无地级市名称的无地名文件;利用实体识别模型对所述政策文档的政策标题进行识别,得到所述政策文档的地名标题;若所述政策文档的地名标题包含地级市名称,则将所述政策文档存放于对应地级市名称的地名文件;若所述政策文档的地名标题不包含地级市名称,则将所述政策文档存放于无地名文件。3.根据权利要求1或2所述的文档匹配方法,其特征在于,前述步骤3中,拆解所述文件管理库T中政策文档的标题、段落,包括:利用标题段落解析模型,将所述文件管理库T中的政策文档拆解成标题和段落,得到对应的标题和段落集合K。4.根据权利要求3所述的文档匹配方法,其特征在于,前述步骤4中,分类所述标题和段落集合K,得到候选政策指标段落L,包括:基于BERT建立政策候选段落分类模型;将所述标题和段落集合K做为所述政策候选段落分类模型的输入;利用BERT预训练语言模型并将其作为特征提取层,获得段落编码器特征;添加全连接层,对段落编码器进行分类,判断该段落是否为候选段落;若该段落是候选段落,则标记为候选政策指标段落L;若该段落不是候选段落,则忽略。5.根据权利要求1所述的文档匹配方法,其特征在于,前述步骤5中,抽取所述候选政策指标段落L中的指标知识点,得到政策文档的指标详情W,包括:利用指标抽取模型对所述候选政策指标段落L进行抽取;基...

【专利技术属性】
技术研发人员:李平杜振东王清琛
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1