基于知识图谱的政务领域多阶段融合的文本纠错方法技术

技术编号:38338019 阅读:15 留言:0更新日期:2023-08-02 09:18
本发明专利技术涉及文本纠错技术领域,公开了基于知识图谱的政务领域多阶段融合的文本纠错方法,包括对政务文本进行纠错的AI模型,具体包括对政务文本进行拼写纠错模型和语法纠错模型;针对政务领域下的专属名词及其三元组关系,利用领域字典和政务知识图谱进行二阶段文本纠错;针对政务领域数据特点进行成分抽取,具体通过BERT预训练模型特征提取;再针对纠错好的三元组数据,基于现有的政务图谱进行二阶段推理纠错;最后基于专家规则、过滤规则和冲突解决规则过滤处理进行校正,生成错误报告。本发明专利技术更符合政务领域行业特征,更体系化的解决纠错问题,更精准地识别输入的文本错误,从而极大地提高了用户的使用体验。而极大地提高了用户的使用体验。而极大地提高了用户的使用体验。

【技术实现步骤摘要】
基于知识图谱的政务领域多阶段融合的文本纠错方法


[0001]本专利技术涉及文本纠错
,具体为基于知识图谱的政务领域多阶段融合的文本纠错方法。

技术介绍

[0002]智能审核可对公文进行一键校对。根据实际情况,从文种选用、格式书写、行文规则、内容逻辑、语言文字、标点符号等角度对多种公文进行审核,确保公文行文的规范、准确。智能审核还具备政治审核能力,能够对部门名称、政治固有表述、姓名/职位以及搭配、重要讲话等信息进行自动纠错。智能审核有效帮助办公人员消减知识盲区,降低内容及格式的错误概率,从而提升公文文本质量,提高工作效率。
[0003]公文审核是一个非常细致的工作,很耗费相关人员的大量时间和精力。为了建立起公文编校工作规范化、智能化的体系,避免出现公文出错,智能审核运用人工智能能力,带来高质量的公文处理能力,有利于提升整体公文质量,避免公文出错,确保公信度。
[0004]现有公文审核的文本纠错方法,有基于传统N

gram语言模型的方法,有基于深度模型端到端的方法,有基于字典的纠错方法,也有基于规则的方法,现有的文本纠错算法未能充分利用政务领域文本的特征和政务领域知识来构建模型,每种方法应用场景泛化能力有限,体系性不好,不能很好的满足政务审核需求。
[0005]目前文本纠错有很多方案,AI模型有基于传统语言模型的,缺少长距离依赖,纠错能力有限。也有基于端到端的预训练模型,很难具有可解释性和可控性。现在开放域深度学习纠错模型没有结合政务领域数据特点来构建模型网络,同时不能在构建数据特征的时候加入政务图谱知识,误报率高。有的纠错方法基于错误字典纠错,需要人工维护大量词库,场景泛化能力也有限。有的纠错方法是基于领域字典纠错,缺少实体和实体之间通过关系或属性进行推理,很难满足用户的意图。有的纠错方法,缺少必要的专家规则和条件过滤。目前政务领域纠错方法单一,体系性不好,缺少必要的政务知识融合和知识推理能力,应用场景泛化能力有限,技术很难达到令人满意的文本纠错解决方案。
[0006]本专利技术提出基于知识图谱的政务领域多阶段融合的文本纠错方法。

技术实现思路

[0007]本专利技术的目的在于提供基于知识图谱的政务领域多阶段融合的文本纠错方法,本专利技术提供基于知识图谱的政务领域多阶段融合的文本纠错方法,更符合政务领域行业特征,更体系化的解决纠错问题,更精准地识别输入的文本错误,从而极大地提高了用户的使用体验。
[0008]本专利技术是这样实现的:本专利技术提供基于知识图谱的政务领域多阶段融合的文本纠错方法;
[0009]S1:包括对政务文本进行纠错的AI模型,具体包括对政务文本进行拼写纠错模型和语法纠错模型;拼写纠错模型和语法纠错模型,分别基于CSC模型和GEC模型对噪音数据
进行标注,利用BERT的变种模型做序列标注任务进行定位文本中出错的位置,进行查错;
[0010]将每一个出错位置的文本,根据标记的类型,利用混淆集矩阵,构建相对应的候选集,采用句子困惑度评价模型对修改后的文本进行排序,选择修改后最佳的选项作为最终的输出。
[0011]S2:针对政务领域下的专属名词及其三元组关系,利用领域字典和政务知识图谱进行二阶段文本纠错;政务文本中存在大量并列结构,针对政务领域数据特点进行实体抽取和关系抽取,具体通过BERT预训练模型特征提取;
[0012]S3:针对步骤S2纠错好的三元组数据,基于现有的政务图谱进行二阶段推理纠错,支持政务图谱单跳和多跳纠错,实体链接通过匹配模型进行向量检索,解决实体链接过程同一个实体有不同的提及的问题;
[0013]S4:基于专家规则、过滤规则和冲突解决规则过滤处理进行校正,生成错误报告。过滤规则具体通过设置正词字典规则,进行过滤;
[0014]政务专家规则,利用专家知识建设,构建错词词典,包括抽取姓名与职务进行校对、重要讲话内容文本匹配;利用动态规则的算法对法律规则进行匹配输出;通过音形和字形替换生成错词字典,进行错词字典的建设。
[0015]错词字典的建设,首先通过新词发现模型发现政务领域新词,在通过音形和字形替换生成错词字典。传统机器学习特征只在样本内部进行抽取,新词发现的特殊点用到了统计特征,这个特征是全局的,不仅看样本本身。二字新词发现模型,构建模型需要的数据,首先把最新的语料都遍历一遍,计算任意二个字的4维特征,A字和B字的内聚是一个特征,B字和A字的内聚是第二个特征,AB整个词的左信息熵是第三个特征,AB整个词的右信息熵第四个特征,字本身信息作为第五个特征。
[0016]冲突解决规则,首先通过模型处理,通过拼写和语法纠错模型和基于图谱的纠错,再通过专家规则纠错,基于过滤规则进行纠错,冲突位置的句子困惑度再次计算后进行比较,对于不同的错误类型,采用不同的阈值,最终将校验结果进行输出;
[0017]针对错误类型,分为ABCD四种大类错误等级,在此基础上再细分二级类别,判断图谱、专家规则、过滤规则是否有冲突,有则返回图谱、专家规则、过滤规则定义的政务领域错误类型,最后针对不同的错误类型,给出修改方案,生成纠错报告。
[0018]进一步,其中政务文本的错误包括拼写错误、语法错误和语义错误,具体使用三段式流水线的纠错方法;具体流程如下:
[0019]S
3.1
:将BERT与TextCNN融合,基于BERT预训练模型捕获语义信息,在配合政务语料进行下游任务适配,TextCNN捕捉N

gram排列组合特征,捕捉关键词;
[0020]S
3.2
:通过二分类,输出0表示位置为异常点,输出1表示该位置为正确词,得到输入语句的异常点和下标位置。
[0021]具体按以下步骤执行:
[0022]S
4.1
:针对句子中的错误的字符进行MASK掩码操作,并且把正确字符作为标签;
[0023]S
4.2
:对句子中正确的字符也进行部分MASK操作,对没有错误的语句,采用原始BERT预训练模型相同的训练方法;
[0024]S
4.3
:假设句子中每个字符有k(k>1)个候选字符,根据BERT模型结合原始语句上下文对于每个候选字符进行置信度打分,排序得到前k个适合当前语境的候选字符,然后分别
计算这些候选字符和原始字符的中文字符相似性采用最小编辑距离和最长公共子串计算两个拼字字符串之间的相似性;
[0025]S
4.4
:对于形近字的中文文本纠错,通过相关的数据集得到字符的笔画序列,然后计算相应的相似度分数代入。
[0026]其中GEC中文语法错误检测任务,语法检测,基于MacBERT+CRF的序列标注模型,检测出中文文本中每一处语法错误的位置和类型,语法错误的类型分为冗余(R)、漏词(M)、误用(S)、乱序(W)四类。序列标注标签为BIEOS方案,一共17个类别:把一些不可能出现的标签去掉(M类型只有Sing本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的政务领域多阶段融合的文本纠错方法,其特征在于:具体按以下步骤执行;S1:包括对政务文本进行纠错的AI模型,具体包括对政务文本进行拼写纠错模型和语法纠错模型;S2:针对政务领域下的专属名词及其三元组关系,利用领域字典和政务知识图谱进行二阶段文本纠错;政务文本中存在大量并列结构,针对政务领域数据特点进行成分抽取,具体通过BERT预训练模型特征提取;S3:针对步骤S2纠错好的三元组数据,基于现有的政务图谱进行二阶段推理纠错,支持政务图谱单跳和多跳纠错,实体链接通过匹配模型进行向量检索,解决实体链接过程同一个实体有不同的提及的问题;S4:基于专家规则、过滤规则和冲突解决规则过滤处理进行校正,生成错误报告。2.根据权利要求1所述的基于知识图谱的政务领域多阶段融合的文本纠错方法,其特征在于,在步骤S1中的拼写纠错模型和语法纠错模型,分别基于CSC模型和GEC模型对噪音数据进行标注,利用BERT的变种模型做序列标注任务进行定位文本中出错的位置,进行查错;将每一个出错位置的文本,根据标记的类型,利用混淆集矩阵,构建相对应的候选集,采用句子困惑度评价模型对修改后的文本进行排序,选择修改后最佳的选项作为最终的输出。3.根据权利要求2所述的基于知识图谱的政务领域多阶段融合的文本纠错方法,其特征在于,其中政务文本的错误包括拼写错误、语法错误和语义错误,具体使用三段式流水线的纠错方法;具体流程如下:S
3.1
:将BERT与TextCNN融合,基于BERT预训练模型捕获语义信息,在配合政务语料进行下游任务适配,TextCNN捕捉N

gram排列组合特征,捕捉关键词;S
3.2
:通过二分类,输出0表示位置为异常点,输出1表示该位置为正确词,得到输入语句的异常点和下标位置。4.根据权利要求3所述的基于知识图谱的政务领域多阶段融合的文本纠错方法,其特征在于,在步骤S
3.2
中,具体按以下步骤执行:S
4.1
:针对句子中的错误的字符进行MASK掩码操作,并且把正确字符作为标签;S
4.2
:对句子中正确的字符也进行部分MASK操作,对没有错误的语句,采用原始BERT预训练模型相同的训练方法;S
4.3
:假设句子中每个字符有k(k>1)个候选字符,根据BERT模型结合原始语句上下文对于每个候选字符进行置信度打分,排序得到前k个适合当前语境的候选字符,然后分别计算这些候选字符和原始字符的中文字符相似性采用最小编辑距离和最长公共子串计算两个拼字字符串之间的相似性;S
4.4
:对于形近字的中文文本纠错,通过相关的数据...

【专利技术属性】
技术研发人员:朱自力
申请(专利权)人:北京网景盛世技术开发中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1