System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机应用,尤其涉及一种电力条款文档的指标抽取方法及装置。
技术介绍
1、随着计算机的发展,实体文档逐渐被虚拟文档所取代,这给文档中的指标抽取带来了新的挑战和限制。传统的人工进行指标抽取速度慢且耗时,难以处理大规模文本数据,同时主观因素可能影响结果的一致性和准确性。
2、而在电力领域中,由于电力条款文档涉及领域专业性,包含大量专业术语和特定业务规则,对非专业人士来说可能较为陌生。因此,在进行指标抽取时,需要具备充足的领域知识,以正确理解和解释文档中的指标。其次,电力条款文档的结构和格式存在差异,可能因供应商、合同类型或国家而异。这种差异性增加了抽取算法在处理不同文档时的挑战。
3、因此,如何提高电力条款文档的指标抽取效率和准确性,是本领域技术人员需要解决的。
技术实现思路
1、本申请实施例提供了一种电力条款文档的指标抽取方法及装置,可以提高电力条款文档的指标抽取效率和准确性。
2、本申请第一方面提供了一种电力条款文档的指标抽取方法,包括:
3、根据预设的处理规则对目标电力条款文档进行处理,得到样本语料;
4、基于所述样本语料构建链接表,所述链接表包括指标名称与指标对象之间的对应关系;
5、根于预先设定的抽取规则和所述链接表抽取指标,所述指标包括指标数值、指标关系、所述指标名称和所述指标对象。
6、可选地,所述预设的处理规则包括目标自然语言窗口的大小,所述根据预设的处理规则对目标电力条款文档
7、根据所述目标自然语言窗口的大小对所述目标电力条款文档进行分割处理,得到分割后的目标电力条款文档;
8、采用预设的分词系统对所述分割后的目标电力条款文档进行分词,得到所述目标电力条款文档的初始样本语料;
9、对所述初始样本语料的词汇频数进行统计,并对所述初始样本语料进行词汇过滤,得到所述样本语料,其中,所述词汇过滤包括词性过滤和停用词过滤。
10、可选地,所述基于所述样本语料构建链接表,包括:
11、采用预设的算法从所述样本语料中筛选候选词汇,得到候选词汇集;
12、基于所述候选词汇集构建词共现特征阵;
13、根据所述词共现特征阵构建词簇图;
14、从所述词簇图中选取词簇中心;
15、根据所述词簇中心生成所述链接表。
16、可选地,所述样本语料包括n个词语节点,n为正整数;所述采用预设的算法从所述样本语料中筛选候选词汇,包括:
17、根据所述词语节点和所述词语节点的相邻节点计算所述词语节点的当前得分;
18、将所述词语节点的初始得分更新为所述当前得分,其中,所述初始得分为根据所述样本语料中词语节点的总数进行设置;
19、将所述当前得分大于预设的重要性阈值的词语节点对应的词汇作为所述候选词汇集。
20、可选地,所述基于所述候选词汇集构建词共现特征阵;根据所述词共现特征阵构建词簇图,包括:
21、根据所述候选词汇集中的词汇的词汇频数计算词共现度量;
22、根据所述候选词汇集对应的词共现度量构建词共现特征阵;
23、获取所述词共现特征阵中大于预设的语义相关阈值的元素;
24、计算所述元素的语义关联权重;
25、根据所述语义关联权重确定所述词簇图。
26、可选地,所述词簇图中包括多个词簇;所述从所述词簇图中选取词簇中心;根据所述词簇中心生成所述链接表,包括:
27、分别计算词簇中每个词汇对所述词簇的语义贡献度;
28、选取所述词簇中语义贡献度最大的词汇作为所述词簇的词簇中心;
29、以所述词簇中的其他词汇作为连接词汇,基于所述词汇中心,构建所述链接表。
30、可选地,所述根于预先设定的抽取规则、所述链接表抽取指标,包括:
31、通过预先构造的单位词典抽取所述指标数值;
32、通过句法依存分析和指标关系词典,基于所述指标数值抽取所述指标关系;
33、通过所述链接表,基于所述指标数值和所述指标关系抽取所述指标名称;
34、通过所述句法依存分析、递归遍历句法树和所述链接表,基于所述指标数值、所述指标关系和所述指标名称抽取所述指标对象。
35、可选地,所述根于预先设定的抽取规则、所述链接表和指标元素间的语义关系抽取指标后,所述方法,还包括:
36、对所述指标数值、所述指标关系、所述指标名称和所述指标对象进行整理,得到指标元素列表。
37、本申请第二方面提供了电力条款文档的指标抽取装置,包括:
38、处理单元,用于根据预设的处理规则对目标电力条款文档进行处理,得到样本语料;
39、构建单元,用于基于所述样本语料构建链接表,所述链接表包括指标名称与指标对象之间的对应关系;
40、抽取单元,用于根于预先设定的抽取规则、所述链接表和指标元素间的语义关系抽取指标,所述指标包括指标数值、指标关系、所述指标名称和所述指标对象。
41、本申请实施例公开了一种电力条款文档的指标抽取方法。在该方法中,根据预设的处理规则对目标电力条款文档进行处理,得到样本语料;基于样本语料构建链接表,链接表包括指标名称与指标对象之间的对应关系;根于预先设定的抽取规则和链接表抽取指标,指标包括指标数值、指标关系、指标名称和指标对象。由此可见,利用本申请实施例提供的方案,通过构建链接表,最大限度地抽取匹配的指标,并且,结合预先制定适用于电力条款文档的抽取规则,进一步改进和增强指标的自动抽取方法,克服领域专业性和文档差异性带来的挑战,提高电力条款文档指标抽取的准确性和效率。
本文档来自技高网...【技术保护点】
1.一种电力条款文档的指标抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预设的处理规则包括目标自然语言窗口的大小,所述根据预设的处理规则对目标电力条款文档进行处理,得到样本语料,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述样本语料构建链接表,包括:
4.根据权利要求3所述的方法,其特征在于,所述样本语料包括N个词语节点,N为正整数;所述采用预设的算法从所述样本语料中筛选候选词汇,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述候选词汇集构建词共现特征阵;根据所述词共现特征阵构建词簇图,包括:
6.根据权利要求3所述的方法,其特征在于,所述词簇图中包括多个词簇;所述从所述词簇图中选取词簇中心;根据所述词簇中心生成所述链接表,包括:
7.根据权利要求1所述的方法,其特征在于,所述根于预先设定的抽取规则、所述链接表抽取指标,包括:
8.根据权利要求1所述的方法,其特征在于,所述根于预先设定的抽取规则、所述链接表和指标元素间的语义关系抽
9.一种电力条款文档的指标抽取装置,其特征在于,所述装置包括:
10.根据权利要求9所述的装置,其特征在于,所述预设的处理规则包括目标自然语言窗口的大小,所述处理单元,,具体用于:
...【技术特征摘要】
1.一种电力条款文档的指标抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预设的处理规则包括目标自然语言窗口的大小,所述根据预设的处理规则对目标电力条款文档进行处理,得到样本语料,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述样本语料构建链接表,包括:
4.根据权利要求3所述的方法,其特征在于,所述样本语料包括n个词语节点,n为正整数;所述采用预设的算法从所述样本语料中筛选候选词汇,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述候选词汇集构建词共现特征阵;根据所述词共现特征阵构建词簇图,包括:...
【专利技术属性】
技术研发人员:高晓欣,许海清,许元斌,赵海翔,李刚,刘永清,刘玉玺,王思宁,欧阳红,王宇,杨强,王明,焦艳斌,韩泽华,陆谣,朱元庚,孙明,
申请(专利权)人:北京中电普华信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。