【技术实现步骤摘要】
一种基于知识图谱的中文易混词生成方法
[0001]本专利技术涉及文本纠错领域,具体涉及一种基于知识图谱的中文易混词生成方法。
技术介绍
[0002]在文本纠错领域,常用的方法包括基于语言模型的文本纠错方法和基于深度学习模型的文本纠错方法两类,而无论在哪类方法中,易混词集都起到了重要的作用。
[0003]基于语言模型的文本纠错方法的主要思路是对待纠错文本进行预处理,按一定方法定位语法错误的位置,并按字粒度或词粒度,在易混词集中搜索文本中每个字/词的候选字/词,从而生成待纠错文本的候选文本集,从而通过对各候选文本进行评价,并与待纠错文本进行比较,而实现特定类型错误文本的纠正。
[0004]基于深度学习模型的文本纠错方法根据用于训练的数据量和模型结构的不同,可分为基于无监督学习、有监督学习和弱监督学习模型等类型。这些方法对易混词集的应用主要有两种形式。其一,由于获取准确标注的数据存在一定的困难,一种常用的数据增强方法是在语法正确的文本数据基础上,利用易混词集,生成包含错误的合成数据,并将生成的数据用于模型参数的学习过程,从而提升模型预测文本错误的准确率。其二,为提升基于深度学习模型的文本纠错方法的性能,一种可行的方法是利用输入文本生成相应的易混词集,并作为模型的额外特征接入到模型中,从而改善文本纠错模型的准确率。
[0005]目前,在文本纠错领域中,针对易混词的研究主要面向英文文本,而对中文易混词的生成的研究较少。英文易混词集的生成过程主要考虑的因素包括发音、单词编辑距离、领域、主题等。相较于英文而
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的中文易混词生成方法,其特征在于,包括以下步骤:步骤一:定义面向中文易混词生成的中文词知识本体,包含实体类型和/或实体属性,以及实体间关系类型和/或关系属性;步骤二:对中文文本数据进行清洗和特征提取,得到处理后的中文字和词以及对应的特征,生成中文词集;步骤三:根据生成的中文词集,计算词
‑
词之间在发音、词形、语义的相似度和编辑距离;步骤四:根据步骤一所构建的知识本体、步骤二中数据预处理得到的中文词集以及步骤三得到的发音、词形、语义的相似度和编辑距离,完成知识图谱实例化;步骤五:根据步骤二得到的中文词集,利用步骤四得到的知识图谱,得到中文词集中的每条数据对应的知识图谱的子图;步骤六:根据步骤三得到的发音、词形、语义的相似度和编辑距离,得到中文词集中的每个中文词的易混词集合;步骤七:构建基于深度学习的多输入多输出的中文易混词生成模型,利用步骤二得到的中文词集,以及步骤五得到的每条数据对应的知识图谱的子图作为输入,以步骤六得到的每个中文词的易混词集合作为标签,训练所述中文易混词生成模型;步骤八:接收用户输入,并进行和步骤二相同的清洗和特征提取预处理操作;步骤九:根据步骤八得到的结果,以及步骤四生成的知识图谱,生成所述知识图谱的子图;步骤十:将步骤八得到的结果和步骤九生成的知识图谱的子图输入训练后的中文易混词生成模型,得到用户输入中各中文词所对应的中文易混词集合。2.根据权利要求1所述的中文易混词生成方法,其特征在于,所述步骤一中定义的面向中文易混词生成的中文词知识本体的实体类型包括四类:(1)以不同粒度描述的中文文本的实体类型,包括中文的字、词、命名实体、常用词、短语、句子、段落和文章类型实体,其中字、词、命名实体、常用词、短语类型的实体具有的属性包括词性、发音、语义,句子实体具有的属性包括标识、文本、语法错误标识、错误列表、修正和时态,段落和文章类型的实体具有标识属性;(2)与中文文本语义相关的实体类型,包括领域和主题;(3)能够描述用于易混词生成的语料库实体,其具有的属性包括来源、名称、类型和描述;(4)对字、词、命名实体、常用词、短语、句子、段落和文章类型实体进行抽象而定义的篇章类型实体,以及对篇章、语料库、领域和主题类型实体进行抽象而定义的物体类型实体。3.根据权利要求2所述的中文易混词生成方法,其特征在于,所述实体间关系类型包括:(1)描述各类实体间相似性的相似关系,其具有的属性包括发音相似性、字形相似性、语义相似性和编辑距离;(2)描述篇章、句子、段落、文章、短语、字、词、命名实体、常用词类型的实体之间的子类关系;(3)描述物体、篇章、语料库、领域和主题类型的实体之间的子类关系;
(4)描述命名实体缩略词与全称的缩写关系;(5)描述一篇文章中的词、句子、段落之间先后顺序的接续关系,其具有的属性包括所在的句子标识和标点;(6)描述语料库实体、文章、段落、句子、词之间的包含关系;(7)描述语料库实体与领域实体的属于关系;(8)描述段落实体与主题实体的具有关系。4.根据权利要求1所述的中文易混词生成方法,其特征在于,所述步骤二对中文文本数据进行的清洗和特征提取包括:对多种来源的文本依次进行Unicode正规化、去除无意义字符、替换...
【专利技术属性】
技术研发人员:朱世强,袭向明,龙沁沁,谢冰,赵鑫安,尹越,宋伟,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。