基于知识图谱的政务领域多阶段融合的文本纠错方法技术

技术编号：38338019 阅读：15 留言：0更新日期：2023-08-02 09:18

本发明专利技术涉及文本纠错技术领域，公开了基于知识图谱的政务领域多阶段融合的文本纠错方法，包括对政务文本进行纠错的AI模型，具体包括对政务文本进行拼写纠错模型和语法纠错模型；针对政务领域下的专属名词及其三元组关系，利用领域字典和政务知识图谱进行二阶段文本纠错；针对政务领域数据特点进行成分抽取，具体通过BERT预训练模型特征提取；再针对纠错好的三元组数据，基于现有的政务图谱进行二阶段推理纠错；最后基于专家规则、过滤规则和冲突解决规则过滤处理进行校正，生成错误报告。本发明专利技术更符合政务领域行业特征，更体系化的解决纠错问题，更精准地识别输入的文本错误，从而极大地提高了用户的使用体验。而极大地提高了用户的使用体验。而极大地提高了用户的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识图谱的政务领域多阶段融合的文本纠错方法

[0001]本专利技术涉及文本纠错
，具体为基于知识图谱的政务领域多阶段融合的文本纠错方法。

技术介绍

[0002]智能审核可对公文进行一键校对。根据实际情况，从文种选用、格式书写、行文规则、内容逻辑、语言文字、标点符号等角度对多种公文进行审核，确保公文行文的规范、准确。智能审核还具备政治审核能力，能够对部门名称、政治固有表述、姓名/职位以及搭配、重要讲话等信息进行自动纠错。智能审核有效帮助办公人员消减知识盲区，降低内容及格式的错误概率，从而提升公文文本质量，提高工作效率。
[0003]公文审核是一个非常细致的工作，很耗费相关人员的大量时间和精力。为了建立起公文编校工作规范化、智能化的体系，避免出现公文出错，智能审核运用人工智能能力，带来高质量的公文处理能力，有利于提升整体公文质量，避免公文出错，确保公信度。
[0004]现有公文审核的文本纠错方法，有基于传统N
‑
gram语言模型的方法，有基于深度模型端到端的方法，有基于字典的纠错方法，也有基于规则的方法，现有的文本纠错算法未能充分利用政务领域文本的特征和政务领域知识来构建模型，每种方法应用场景泛化能力有限，体系性不好，不能很好的满足政务审核需求。
[0005]目前文本纠错有很多方案，AI模型有基于传统语言模型的，缺少长距离依赖，纠错能力有限。也有基于端到端的预训练模型，很难具有可解释性和可控性。现在开放域深度学习纠错模型没有结合政务领域数据特点来构建模型网络，同时不能在...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的政务领域多阶段融合的文本纠错方法，其特征在于：具体按以下步骤执行；S1:包括对政务文本进行纠错的AI模型，具体包括对政务文本进行拼写纠错模型和语法纠错模型；S2:针对政务领域下的专属名词及其三元组关系，利用领域字典和政务知识图谱进行二阶段文本纠错；政务文本中存在大量并列结构，针对政务领域数据特点进行成分抽取，具体通过BERT预训练模型特征提取；S3:针对步骤S2纠错好的三元组数据，基于现有的政务图谱进行二阶段推理纠错，支持政务图谱单跳和多跳纠错，实体链接通过匹配模型进行向量检索，解决实体链接过程同一个实体有不同的提及的问题；S4:基于专家规则、过滤规则和冲突解决规则过滤处理进行校正，生成错误报告。2.根据权利要求1所述的基于知识图谱的政务领域多阶段融合的文本纠错方法，其特征在于，在步骤S1中的拼写纠错模型和语法纠错模型，分别基于CSC模型和GEC模型对噪音数据进行标注，利用BERT的变种模型做序列标注任务进行定位文本中出错的位置，进行查错；将每一个出错位置的文本，根据标记的类型，利用混淆集矩阵，构建相对应的候选集，采用句子困惑度评价模型对修改后的文本进行排序，选择修改后最佳的选项作为最终的输出。3.根据权利要求2所述的基于知识图谱的政务领域多阶段融合的文本纠错方法，其特征在于，其中政务文本的错误包括拼写错误、语法错误和语义错误，具体使用三段式流水线的纠错方法；具体流程如下：S
3.1
:将BERT与TextCNN融合，基于BERT预训练模型捕获语义信息，在配合政务语料进行下游任务适配，TextCNN捕捉N
‑
gram排列组合特征，捕捉关键词；S
3.2
:通过二分类，输出0表示位置为异常点，输出1表示该位置为正确词，得到输入语句的异常点和下标位置。4.根据权利要求3所述的基于知识图谱的政务领域多阶段融合的文本纠错方法，其特征在于，在步骤S
3.2
中，具体按以下步骤执行：S
4.1
:针对句子中的错误的字符进行MASK掩码操作，并且把正确字符作为标签；S
4.2
:对句子中正确的字符也进行部分MASK操作，对没有错误的语句，采用原始BERT预训练模型相同的训练方法；S
4.3
:假设句子中每个字符有k(k>1)个候选字符，根据BERT模型结合原始语句上下文对于每个候选字符进行置信度打分，排序得到前k个适合当前语境的候选字符，然后分别计算这些候选字符和原始字符的中文字符相似性采用最小编辑距离和最长公共子串计算两个拼字字符串之间的相似性；S
4.4
:对于形近字的中文文本纠错，通过相关的数据...

【专利技术属性】
技术研发人员：朱自力，
申请(专利权)人：北京网景盛世技术开发中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人