一种基于多任务的智能要素抽取方法及系统技术方案

技术编号：31166291 阅读：24 留言：0更新日期：2021-12-04 11:04

本发明专利技术提供一种基于多任务的智能要素抽取方法及系统，本发明专利技术提出了一种基于多任务的智能要素抽取方案，为了能够以高准确率进行抽取要素信息，创新性地提出了加入领域词汇挖掘信息，使得模型能够学习到更好的表示信息。通过本发明专利技术所记载的技术方案，对应的要素抽取模型能够学习和综合掌握多个不同方面的信息，提高要素抽取的准确率，辅助人工校验填报信息准确性，极大减少出错的概率。极大减少出错的概率。极大减少出错的概率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多任务的智能要素抽取方法及系统

[0001]本专利技术涉及自然语言
，特别是涉及一种基于多任务的智能要素抽取方法及系统。

技术介绍

[0002]目前，部分集团公司以及其控股子公司可能每年需要定期向上级部门上报行业资讯类合同，在上报合同前，集团需要人工审核合同内相关业务信息是否填写正确，并在确认无差错后再进行上报。由于某些集团公司控股的子公司较多，所以其每年上报需要审核的咨询类合同多达数千份，如果全部采用人工进行审核，那对应的业务人员需要浏览每篇合同来核对信息，这不仅极大地降低了业务人员的效率，而且也难免避免出现审核错误。
[0003]但是，当前采用的自然语言处理技术无法直接应用到该业务场景下，比如：在合同中存在多个金额数目，业务人员只需要核对总金额数量即可，但是，当前的现有技术无法直接分辨哪个是总金额，导致识别准确率下降。

技术实现思路

[0004]鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种基于多任务的智能要素抽取方法及系统，用于解决现有技术中存在的技术问题。
[0005]为实现上述目的及其他相关目的，本专利技术提供一种基于多任务的智能要素抽取方法，所述方法包括以下步骤：
[0006]获取待上报的咨询类电子合同文件；
[0007]根据待上报的咨询类电子合同文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；
[0008]对保存在目标文件中的文本内容按照段落进行要素抽取标签和分类标签标注，且在进行标注时，首先由...

【技术保护点】

【技术特征摘要】
1.一种基于多任务的智能要素抽取方法，其特征在于，所述方法包括以下步骤：获取待上报的咨询类电子合同文件；根据待上报的咨询类电子合同文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；对保存在目标文件中的文本内容按照段落进行要素抽取标签和分类标签标注，且在进行标注时，首先由第一目标对象对每个段落进行数据要素标签和分类标签标注，然后再由第二目标对象进行标注核对修正，并在完成标注核对修正后，将第一目标对象标注后的标注数据与第二目标对象标注后的标注数据进行交换，并进行交叉验证；将完成交叉验证后的标注数据输入要素抽取模型中，利用所述要素抽取模型对待上报的咨询类电子合同文件进行要素信息抽取，获取对应的要素信息和分类标签；其中，所述要素抽取模型基于深度学习训练生成。2.根据权利要求1所述的基于多任务的智能要素抽取方法，其特征在于，所述要素抽取标签或所述要素信息包括：企业名称、机构名称、合同名称、合同金额、开始时间、结束时间、联系人、联系电话；所述分类标签为：要素抽取标签、合作事项标签和其他事项标签。3.根据权利要求1所述的基于多任务的智能要素抽取方法，其特征在于，若咨询类电子合同文件的文件类型为word，则对待上报的咨询类电子合同文件进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：调用zipfile类库将类型为word的咨询类电子合同文件解压缩为xml格式；从xml格式中获取咨询类电子合同文件中所有字体信息；其中，字体信息包括：字体名称、id、大纲级别和父子体；从document.xml文件中获取咨询类电子合同文件的大纲内容和大纲级别；按照文档内容顺序将大纲信息保存到outline_list变量中，以及按照大纲内容为key，大纲级别为value的格式将大纲信息保存至outline_dict变量中；根据大纲信息遍历python
‑
docx类库解析出的文档数据块，并使用docx解析库解析文档块内容，判断所述文档块内容是否为文字；如果是文字，则返回string类型的段落文字；将文本内容保存到content.csv文件中。4.根据权利要求1所述的基于多任务的智能要素抽取方法，其特征在于，若咨询类电子合同文件的文件类型为pdf，则对待上报的咨询类电子合同文件进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：使用TET工具包将文件类型为pdf的待上报的咨询类电子合同文件转为xml文件，xml文件中包含了不同类型的符号，且至少包括<table>标识符和<Para>标识符；其中<table>标识符代表表格，<Para>标识符代表段落文本内容；根据word.xml文件中<Page>标志符对待上报的咨询类电子合同文件按页分割；且对于每一页xml信息，若匹配到开头是<Para>，结尾是</Para>，则将中间的段落文本进行完整抽取，并保存至content.csv中。5.根据权利要求1所述的基于多任务的智能要素抽取方法，其特征在于，所述要素抽取模型的训练过程包括：获取训练数据，并通过jieba工具包对所述训练数据进行分词；
将...

【专利技术属性】
技术研发人员：陆宇峰，周纬，石贇，何颖，
申请(专利权)人：上海欧冶金融信息服务股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人