一种基于知识图谱的中文易混词生成方法技术

技术编号：37085839 阅读：47 留言：0更新日期：2023-03-29 20:01

本发明专利技术公开了一种基于知识图谱的中文易混词生成方法。该方法包括中文词知识图谱的本体设计、中文文本数据的预处理过程、中文词对在语义/字音/字形等方面的相似性计算过程、知识图谱实例化过程、用户输入文本的预处理过程、与用户输入文本相对应的知识图谱子图抽取过程以及以多源异构数据为输入的中文易混词生成过程等。本发明专利技术可从发音、字形、语义等多方面刻画中文词对的相似性，并能结合文本的领域和主题信息，实现跨领域中文易混淆词的准确生成。成。成。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的中文易混词生成方法

[0001]本专利技术涉及文本纠错领域，具体涉及一种基于知识图谱的中文易混词生成方法。

技术介绍

[0002]在文本纠错领域，常用的方法包括基于语言模型的文本纠错方法和基于深度学习模型的文本纠错方法两类，而无论在哪类方法中，易混词集都起到了重要的作用。
[0003]基于语言模型的文本纠错方法的主要思路是对待纠错文本进行预处理，按一定方法定位语法错误的位置，并按字粒度或词粒度，在易混词集中搜索文本中每个字/词的候选字/词，从而生成待纠错文本的候选文本集，从而通过对各候选文本进行评价，并与待纠错文本进行比较，而实现特定类型错误文本的纠正。
[0004]基于深度学习模型的文本纠错方法根据用于训练的数据量和模型结构的不同，可分为基于无监督学习、有监督学习和弱监督学习模型等类型。这些方法对易混词集的应用主要有两种形式。其一，由于获取准确标注的数据存在一定的困难，一种常用的数据增强方法是在语法正确的文本数据基础上，利用易混词集，生成包含错误的合成数据，并将生成的数据用于模型参数的学习...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的中文易混词生成方法，其特征在于，包括以下步骤：步骤一：定义面向中文易混词生成的中文词知识本体，包含实体类型和/或实体属性，以及实体间关系类型和/或关系属性；步骤二：对中文文本数据进行清洗和特征提取，得到处理后的中文字和词以及对应的特征，生成中文词集；步骤三：根据生成的中文词集，计算词
‑
词之间在发音、词形、语义的相似度和编辑距离；步骤四：根据步骤一所构建的知识本体、步骤二中数据预处理得到的中文词集以及步骤三得到的发音、词形、语义的相似度和编辑距离，完成知识图谱实例化；步骤五：根据步骤二得到的中文词集，利用步骤四得到的知识图谱，得到中文词集中的每条数据对应的知识图谱的子图；步骤六：根据步骤三得到的发音、词形、语义的相似度和编辑距离，得到中文词集中的每个中文词的易混词集合；步骤七：构建基于深度学习的多输入多输出的中文易混词生成模型，利用步骤二得到的中文词集，以及步骤五得到的每条数据对应的知识图谱的子图作为输入，以步骤六得到的每个中文词的易混词集合作为标签，训练所述中文易混词生成模型；步骤八：接收用户输入，并进行和步骤二相同的清洗和特征提取预处理操作；步骤九：根据步骤八得到的结果，以及步骤四生成的知识图谱，生成所述知识图谱的子图；步骤十：将步骤八得到的结果和步骤九生成的知识图谱的子图输入训练后的中文易混词生成模型，得到用户输入中各中文词所对应的中文易混词集合。2.根据权利要求1所述的中文易混词生成方法，其特征在于，所述步骤一中定义的面向中文易混词生成的中文词知识本体的实体类型包括四类：(1)以不同粒度描述的中文文本的实体类型，包括中文的字、词、命名实体、常用词、短语、句子、段落和文章类型实体，其中字、词、命名实体、常用词、短语类型的实体具有的属性包括词性、发音、语义，句子实体具有的属性包括标识、文本、语法错误标识、错误列表、修正和时态，段落和文章类型的实体具有标识属性；(2)与中文文本语义相关的实体类型，包括领域和主题；(3)能够描述用于易混词生成的语料库实体，其具有的属性包括来源、名称、类型和描述；(4)对字、词、命名实体、常用词、短语、句子、段落和文章类型实体进行抽象而定义的篇章类型实体，以及对篇章、语料库、领域和主题类型实体进行抽象而定义的物体类型实体。3.根据权利要求2所述的中文易混词生成方法，其特征在于，所述实体间关系类型包括：(1)描述各类实体间相似性的相似关系，其具有的属性包括发音相似性、字形相似性、语义相似性和编辑距离；(2)描述篇章、句子、段落、文章、短语、字、词、命名实体、常用词类型的实体之间的子类关系；(3)描述物体、篇章、语料库、领域和主题类型的实体之间的子类关系；
(4)描述命名实体缩略词与全称的缩写关系；(5)描述一篇文章中的词、句子、段落之间先后顺序的接续关系，其具有的属性包括所在的句子标识和标点；(6)描述语料库实体、文章、段落、句子、词之间的包含关系；(7)描述语料库实体与领域实体的属于关系；(8)描述段落实体与主题实体的具有关系。4.根据权利要求1所述的中文易混词生成方法，其特征在于，所述步骤二对中文文本数据进行的清洗和特征提取包括：对多种来源的文本依次进行Unicode正规化、去除无意义字符、替换...

【专利技术属性】
技术研发人员：朱世强，袭向明，龙沁沁，谢冰，赵鑫安，尹越，宋伟，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人