一种基于多任务的智能要素抽取方法及系统技术方案

技术编号:31166291 阅读:24 留言:0更新日期:2021-12-04 11:04
本发明专利技术提供一种基于多任务的智能要素抽取方法及系统,本发明专利技术提出了一种基于多任务的智能要素抽取方案,为了能够以高准确率进行抽取要素信息,创新性地提出了加入领域词汇挖掘信息,使得模型能够学习到更好的表示信息。通过本发明专利技术所记载的技术方案,对应的要素抽取模型能够学习和综合掌握多个不同方面的信息,提高要素抽取的准确率,辅助人工校验填报信息准确性,极大减少出错的概率。极大减少出错的概率。极大减少出错的概率。

【技术实现步骤摘要】
一种基于多任务的智能要素抽取方法及系统


[0001]本专利技术涉及自然语言
,特别是涉及一种基于多任务的智能要素抽取方法及系统。

技术介绍

[0002]目前,部分集团公司以及其控股子公司可能每年需要定期向上级部门上报行业资讯类合同,在上报合同前,集团需要人工审核合同内相关业务信息是否填写正确,并在确认无差错后再进行上报。由于某些集团公司控股的子公司较多,所以其每年上报需要审核的咨询类合同多达数千份,如果全部采用人工进行审核,那对应的业务人员需要浏览每篇合同来核对信息,这不仅极大地降低了业务人员的效率,而且也难免避免出现审核错误。
[0003]但是,当前采用的自然语言处理技术无法直接应用到该业务场景下,比如:在合同中存在多个金额数目,业务人员只需要核对总金额数量即可,但是,当前的现有技术无法直接分辨哪个是总金额,导致识别准确率下降。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于多任务的智能要素抽取方法及系统,用于解决现有技术中存在的技术问题。
[0005]为实现上述目的及其他相关目的,本专利技术提供一种基于多任务的智能要素抽取方法,所述方法包括以下步骤:
[0006]获取待上报的咨询类电子合同文件;
[0007]根据待上报的咨询类电子合同文件的文件类型进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中;
[0008]对保存在目标文件中的文本内容按照段落进行要素抽取标签和分类标签标注,且在进行标注时,首先由第一目标对象对每个段落进行数据要素标签和分类标签标注,然后再由第二目标对象进行标注核对修正,并在完成标注核对修正后,将第一目标对象标注后的标注数据与第二目标对象标注后的标注数据进行交换,并进行交叉验证;
[0009]将完成交叉验证后的标注数据输入要素抽取模型中,利用所述要素抽取模型对待上报的咨询类电子合同文件进行要素信息抽取,获取对应的要素信息和分类标签;其中,所述要素抽取模型基于深度学习训练生成。
[0010]可选地,所述要素抽取标签或所述要素信息包括:企业名称、机构名称、合同名称、合同金额、开始时间、结束时间、联系人、联系电话;
[0011]所述分类标签为:要素抽取标签、合作事项标签和其他事项标签。
[0012]可选地,若咨询类电子合同文件的文件类型为word,则对待上报的咨询类电子合同文件进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括:
[0013]调用zipfile类库将类型为word的咨询类电子合同文件解压缩为xml格式;
[0014]从xml格式中获取咨询类电子合同文件中所有字体信息;其中,字体信息包括:字体名称、id、大纲级别和父子体;
[0015]从document.xml文件中获取咨询类电子合同文件的大纲内容和大纲级别;
[0016]按照文档内容顺序将大纲信息保存到outline_list变量中,以及按照大纲内容为key,大纲级别为value的格式将大纲信息保存至outline_dict变量中;
[0017]根据大纲信息遍历python

docx类库解析出的文档数据块,并使用docx解析库解析文档块内容,判断所述文档块内容是否为文字;如果是文字,则返回string类型的段落文字;
[0018]将文本内容保存到content.csv文件中。
[0019]可选地,若咨询类电子合同文件的文件类型为pdf,则对待上报的咨询类电子合同文件进行段落拆解,并以段落为单位将拆解后的文本内容保存至content.csv文件中的过程包括:
[0020]使用TET工具包将文件类型为pdf的待上报的咨询类电子合同文件转为xml文件,xml文件中包含了不同类型的符号,且至少包括<table>标识符和<Para>标识符;其中<table>标识符代表表格,<Para>标识符代表段落文本内容;
[0021]根据word.xml文件中<Page>标志符对待上报的咨询类电子合同文件按页分割;且对于每一页xml信息,若匹配到开头是<Para>,结尾是</Para>,则将中间的段落文本进行完整抽取,并保存至content.csv中。
[0022]可选地,所述要素抽取模型的训练过程包括:
[0023]获取训练数据,并通过jieba工具包对所述训练数据进行分词;
[0024]将分词后的数据按照顺序进行排序,并获取到对应的下标索引,以及将所述下表索引保存至word_to_index数组中;
[0025]通过word_to_index将分词后的数据转换为对应的索引向量,并按照预先设定的固定长度对所述索引向量进行截断;
[0026]加载word2vec词向量,并根据word_to_index中保存的索引向量构建词向量矩阵;
[0027]获取专家引擎知识,并将所获取的专家引擎知识作为训练数据进行相同转换,构建对应的专家知识词向量矩阵;
[0028]将训练数据词向量和专家引擎知识词向量输入到预先建立的要素抽取模型中,利用对应的获取训练数据词向量矩阵和专家引擎知识词向量矩阵进行编码;
[0029]将编码后的向量输入到长短期记忆网络中,并将长短期记忆网络中上一个时间点的隐节点状态作为当前神经网络单元的输入,同时利用门控机制,选择上一个时间点隐节点状态的部分信息对当前时间节点的信息进行融合,得到隐层信息;
[0030]将所述隐层信息输入到CRF层中,并利用CRF的维特比编码算法进行计算,获取对应的要素标签结果;
[0031]将所述隐层信息输入到softmax函数中,得到分类标签的概率的矩阵,最后通过argmax函数,获取到每个段落最终的分类标签;完成所述要素抽取模型的训练。
[0032]可选地,在对要素抽取模型进行训练时,还包括通过计算相邻两个词的互信息判断两个词的紧密度,有:
[0033]式中,P
ab
表示ab两个词在文本中共同出现的频率;
[0034]P
a
表示a词在文本中出现的频率;
[0035]P
b
表示b词在文本中出现的频。
[0036]可选地,若相邻词两个字的共现频率P
ab
大于预先设定的阈值,且大于等于预先设定的阈值,则将这两个词进行合并,并将合并后的词记为领域词语,以及保存所述领域词语。
[0037]若小于预先设定的阈值,则不对这两个词进行合并。
[0038]可选地,获取所有的领域词语,并对所有的领域词语进行筛选,保留长度为2至5的新词,以及将长度为2至5的新词添加至jieba工具包的词表中。
[0039]本专利技术还提供一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务的智能要素抽取方法,其特征在于,所述方法包括以下步骤:获取待上报的咨询类电子合同文件;根据待上报的咨询类电子合同文件的文件类型进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中;对保存在目标文件中的文本内容按照段落进行要素抽取标签和分类标签标注,且在进行标注时,首先由第一目标对象对每个段落进行数据要素标签和分类标签标注,然后再由第二目标对象进行标注核对修正,并在完成标注核对修正后,将第一目标对象标注后的标注数据与第二目标对象标注后的标注数据进行交换,并进行交叉验证;将完成交叉验证后的标注数据输入要素抽取模型中,利用所述要素抽取模型对待上报的咨询类电子合同文件进行要素信息抽取,获取对应的要素信息和分类标签;其中,所述要素抽取模型基于深度学习训练生成。2.根据权利要求1所述的基于多任务的智能要素抽取方法,其特征在于,所述要素抽取标签或所述要素信息包括:企业名称、机构名称、合同名称、合同金额、开始时间、结束时间、联系人、联系电话;所述分类标签为:要素抽取标签、合作事项标签和其他事项标签。3.根据权利要求1所述的基于多任务的智能要素抽取方法,其特征在于,若咨询类电子合同文件的文件类型为word,则对待上报的咨询类电子合同文件进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括:调用zipfile类库将类型为word的咨询类电子合同文件解压缩为xml格式;从xml格式中获取咨询类电子合同文件中所有字体信息;其中,字体信息包括:字体名称、id、大纲级别和父子体;从document.xml文件中获取咨询类电子合同文件的大纲内容和大纲级别;按照文档内容顺序将大纲信息保存到outline_list变量中,以及按照大纲内容为key,大纲级别为value的格式将大纲信息保存至outline_dict变量中;根据大纲信息遍历python

docx类库解析出的文档数据块,并使用docx解析库解析文档块内容,判断所述文档块内容是否为文字;如果是文字,则返回string类型的段落文字;将文本内容保存到content.csv文件中。4.根据权利要求1所述的基于多任务的智能要素抽取方法,其特征在于,若咨询类电子合同文件的文件类型为pdf,则对待上报的咨询类电子合同文件进行段落拆解,并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括:使用TET工具包将文件类型为pdf的待上报的咨询类电子合同文件转为xml文件,xml文件中包含了不同类型的符号,且至少包括<table>标识符和<Para>标识符;其中<table>标识符代表表格,<Para>标识符代表段落文本内容;根据word.xml文件中<Page>标志符对待上报的咨询类电子合同文件按页分割;且对于每一页xml信息,若匹配到开头是<Para>,结尾是</Para>,则将中间的段落文本进行完整抽取,并保存至content.csv中。5.根据权利要求1所述的基于多任务的智能要素抽取方法,其特征在于,所述要素抽取模型的训练过程包括:获取训练数据,并通过jieba工具包对所述训练数据进行分词;
将...

【专利技术属性】
技术研发人员:陆宇峰周纬石贇何颖
申请(专利权)人:上海欧冶金融信息服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1