当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于知识图谱的中文易混词生成方法技术

技术编号:37085839 阅读:39 留言:0更新日期:2023-03-29 20:01
本发明专利技术公开了一种基于知识图谱的中文易混词生成方法。该方法包括中文词知识图谱的本体设计、中文文本数据的预处理过程、中文词对在语义/字音/字形等方面的相似性计算过程、知识图谱实例化过程、用户输入文本的预处理过程、与用户输入文本相对应的知识图谱子图抽取过程以及以多源异构数据为输入的中文易混词生成过程等。本发明专利技术可从发音、字形、语义等多方面刻画中文词对的相似性,并能结合文本的领域和主题信息,实现跨领域中文易混淆词的准确生成。成。成。

【技术实现步骤摘要】
一种基于知识图谱的中文易混词生成方法


[0001]本专利技术涉及文本纠错领域,具体涉及一种基于知识图谱的中文易混词生成方法。

技术介绍

[0002]在文本纠错领域,常用的方法包括基于语言模型的文本纠错方法和基于深度学习模型的文本纠错方法两类,而无论在哪类方法中,易混词集都起到了重要的作用。
[0003]基于语言模型的文本纠错方法的主要思路是对待纠错文本进行预处理,按一定方法定位语法错误的位置,并按字粒度或词粒度,在易混词集中搜索文本中每个字/词的候选字/词,从而生成待纠错文本的候选文本集,从而通过对各候选文本进行评价,并与待纠错文本进行比较,而实现特定类型错误文本的纠正。
[0004]基于深度学习模型的文本纠错方法根据用于训练的数据量和模型结构的不同,可分为基于无监督学习、有监督学习和弱监督学习模型等类型。这些方法对易混词集的应用主要有两种形式。其一,由于获取准确标注的数据存在一定的困难,一种常用的数据增强方法是在语法正确的文本数据基础上,利用易混词集,生成包含错误的合成数据,并将生成的数据用于模型参数的学习过程,从而提升模型预测文本错误的准确率。其二,为提升基于深度学习模型的文本纠错方法的性能,一种可行的方法是利用输入文本生成相应的易混词集,并作为模型的额外特征接入到模型中,从而改善文本纠错模型的准确率。
[0005]目前,在文本纠错领域中,针对易混词的研究主要面向英文文本,而对中文易混词的生成的研究较少。英文易混词集的生成过程主要考虑的因素包括发音、单词编辑距离、领域、主题等。相较于英文而言,中文由于是语素文字,在书写过程中易将汉字写错位具有相似字形的错别字,因此,目前在中文易混词生成过程中,通常考虑的因素包括字音、字形、领域等。此外,随着表示学习模型的发展,基于词向量的字/词相似性也成为易混词生成的一种考虑因素。然而,中文易混词的生成过程缺少统一的标准,通常针对不同的领域构造单独的易混词集,而这样得到的易混词集因缺少泛化性,而无法或较难应用于其他领域。
[0006]综上,中文易混词对中文文本纠错具有重要的意义。然而,在生成中文易混词的过程中仍存在较多问题。一方面,中文易混词集的生成过程强烈依赖于所应用的领域,当领域发生变化时,现有的中文易混词集难以直接泛化到新的领域。另一方面,生成中文易混词集的过程强烈依赖于专家经验对所需考虑的因素的权衡,而缺少统一的标准。因此,研究影响中文易混词的生成过程中的关键因素,建立具有较好泛化性的生成方法,对提升中文文本纠错算法性能具有重要的意义,是目前该领域研究的关键问题之一。

技术实现思路

[0007]本专利技术的目的在于针对现有中文文本纠错方法中,难以有效利用场景、领域和上下文等信息,灵活而准确地生成中文易混词的问题,提供一种基于知识图谱的中文易混词生成方法。
[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]一种基于知识图谱的中文易混词生成方法,包括以下步骤:
[0010]步骤一:定义面向中文易混词生成的中文词知识本体,包含实体类型和/或实体属性,以及实体间关系类型和/或关系属性;
[0011]步骤二:对中文文本数据进行清洗和特征提取,得到处理后的中文字和词以及对应的特征,生成中文词集;
[0012]步骤三:根据生成的中文词集,计算词

词之间在发音、词形、语义的相似度和编辑距离;
[0013]步骤四:根据步骤一所构建的知识本体、步骤二中数据预处理得到的中文词集以及步骤三得到的发音、词形、语义的相似度和编辑距离,完成知识图谱实例化;
[0014]步骤五:根据步骤二得到的中文词集,利用步骤四得到的知识图谱,得到中文词集中的每条数据对应的知识图谱的子图;
[0015]步骤六:根据步骤三得到的发音、词形、语义的相似度和编辑距离,得到中文词集中的每个中文词的易混词集合;
[0016]步骤七:构建基于深度学习的多输入多输出的中文易混词生成模型,利用步骤二得到的中文词集,以及步骤五得到的每条数据对应的知识图谱的子图作为输入,以步骤六得到的每个中文词的易混词集合作为标签,训练所述中文易混词生成模型;
[0017]步骤八:接收用户输入,并进行和步骤二相同的清洗和特征提取预处理操作;
[0018]步骤九:根据步骤八得到的结果,以及步骤四生成的知识图谱,生成所述知识图谱的子图;
[0019]步骤十:将步骤八得到的结果和步骤九生成的知识图谱的子图输入训练后的中文易混词生成模型,得到用户输入中各中文词所对应的中文易混词集合。
[0020]进一步地,所述步骤一中定义的面向中文易混词生成的中文词知识本体的实体类型包括四类:
[0021](1)以不同粒度描述的中文文本的实体类型,包括中文的字、词、命名实体、常用词、短语、句子、段落和文章类型实体,其中字、词、命名实体、常用词、短语类型的实体具有的属性包括词性、发音、语义,句子实体具有的属性包括标识、文本、语法错误标识、错误列表、修正和时态,段落和文章类型的实体具有标识属性;
[0022](2)与中文文本语义相关的实体类型,包括领域和主题;
[0023](3)能够描述用于易混词生成的语料库实体,其具有的属性包括来源、名称、类型和描述;
[0024](4)对字、词、命名实体、常用词、短语、句子、段落和文章类型实体进行抽象而定义的篇章类型实体,以及对篇章、语料库、领域和主题类型实体进行抽象而定义的物体类型实体。
[0025]进一步地,所述实体间关系类型包括:
[0026](1)描述各类实体间相似性的相似关系,其具有的属性包括发音相似性、字形相似性、语义相似性和编辑距离;
[0027](2)描述篇章、句子、段落、文章、短语、字、词、命名实体、常用词类型的实体之间的子类关系;
[0028](3)描述物体、篇章、语料库、领域和主题类型的实体之间的子类关系;
[0029](4)描述命名实体缩略词与全称的缩写关系;
[0030](5)描述一篇文章中的词、句子、段落之间先后顺序的接续关系,其具有的属性包括所在的句子标识和标点;
[0031](6)描述语料库实体、文章、段落、句子、词之间的包含关系;
[0032](7)描述语料库实体与领域实体的属于关系;
[0033](8)描述段落实体与主题实体的具有关系。
[0034]进一步地,所述步骤二对中文文本数据进行的清洗和特征提取包括:对多种来源的文本依次进行Unicode正规化、去除无意义字符、替换不需纠错的文本内容、分段、繁简转换、命名实体识别、分词、词性标注、依存关系识别、拼音识别、按文章/段落/句子识别其所对应的主题和所属领域、停用词过滤、识别命名实体的全称与缩写的对应关系;最后将处理后的中文字、词以及对应的特征进行汇总,生成中文词集。
[0035]进一步地,所述步骤三对中文词集中的中文简体汉字/词对,执行如下操作:
[0036]根据拼音计算发音相似性;...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的中文易混词生成方法,其特征在于,包括以下步骤:步骤一:定义面向中文易混词生成的中文词知识本体,包含实体类型和/或实体属性,以及实体间关系类型和/或关系属性;步骤二:对中文文本数据进行清洗和特征提取,得到处理后的中文字和词以及对应的特征,生成中文词集;步骤三:根据生成的中文词集,计算词

词之间在发音、词形、语义的相似度和编辑距离;步骤四:根据步骤一所构建的知识本体、步骤二中数据预处理得到的中文词集以及步骤三得到的发音、词形、语义的相似度和编辑距离,完成知识图谱实例化;步骤五:根据步骤二得到的中文词集,利用步骤四得到的知识图谱,得到中文词集中的每条数据对应的知识图谱的子图;步骤六:根据步骤三得到的发音、词形、语义的相似度和编辑距离,得到中文词集中的每个中文词的易混词集合;步骤七:构建基于深度学习的多输入多输出的中文易混词生成模型,利用步骤二得到的中文词集,以及步骤五得到的每条数据对应的知识图谱的子图作为输入,以步骤六得到的每个中文词的易混词集合作为标签,训练所述中文易混词生成模型;步骤八:接收用户输入,并进行和步骤二相同的清洗和特征提取预处理操作;步骤九:根据步骤八得到的结果,以及步骤四生成的知识图谱,生成所述知识图谱的子图;步骤十:将步骤八得到的结果和步骤九生成的知识图谱的子图输入训练后的中文易混词生成模型,得到用户输入中各中文词所对应的中文易混词集合。2.根据权利要求1所述的中文易混词生成方法,其特征在于,所述步骤一中定义的面向中文易混词生成的中文词知识本体的实体类型包括四类:(1)以不同粒度描述的中文文本的实体类型,包括中文的字、词、命名实体、常用词、短语、句子、段落和文章类型实体,其中字、词、命名实体、常用词、短语类型的实体具有的属性包括词性、发音、语义,句子实体具有的属性包括标识、文本、语法错误标识、错误列表、修正和时态,段落和文章类型的实体具有标识属性;(2)与中文文本语义相关的实体类型,包括领域和主题;(3)能够描述用于易混词生成的语料库实体,其具有的属性包括来源、名称、类型和描述;(4)对字、词、命名实体、常用词、短语、句子、段落和文章类型实体进行抽象而定义的篇章类型实体,以及对篇章、语料库、领域和主题类型实体进行抽象而定义的物体类型实体。3.根据权利要求2所述的中文易混词生成方法,其特征在于,所述实体间关系类型包括:(1)描述各类实体间相似性的相似关系,其具有的属性包括发音相似性、字形相似性、语义相似性和编辑距离;(2)描述篇章、句子、段落、文章、短语、字、词、命名实体、常用词类型的实体之间的子类关系;(3)描述物体、篇章、语料库、领域和主题类型的实体之间的子类关系;
(4)描述命名实体缩略词与全称的缩写关系;(5)描述一篇文章中的词、句子、段落之间先后顺序的接续关系,其具有的属性包括所在的句子标识和标点;(6)描述语料库实体、文章、段落、句子、词之间的包含关系;(7)描述语料库实体与领域实体的属于关系;(8)描述段落实体与主题实体的具有关系。4.根据权利要求1所述的中文易混词生成方法,其特征在于,所述步骤二对中文文本数据进行的清洗和特征提取包括:对多种来源的文本依次进行Unicode正规化、去除无意义字符、替换...

【专利技术属性】
技术研发人员:朱世强袭向明龙沁沁谢冰赵鑫安尹越宋伟
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1