融合领域知识图谱的跨境民族文本分类方法及装置制造方法及图纸

技术编号:31792687 阅读:9 留言:0更新日期:2022-01-08 10:51
本发明专利技术涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理技术领域。本发明专利技术提出了一种融合领域知识图谱的跨境民族文本分类方法,主要包括跨境民族文化知识图谱构建、跨境民族文本数据预处理、融合领域知识图谱的跨境民族文本分类模型训练、跨境民族文化类别预测等四个部分构成。本发明专利技术实现了对跨境民族文本数据的文化类别分类,解决了跨境民族文本数据中存在的分类问题,具有重要的理论和实际运用价值。理论和实际运用价值。理论和实际运用价值。

【技术实现步骤摘要】
融合领域知识图谱的跨境民族文本分类方法及装置


[0001]本专利技术涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理


技术介绍

[0002]跨境民族文本分类任务是跨境民族文化分析中的基础性工作,传统的机器学习文本分类方法通常采用不同类型的机器学习算法作为算法分类器,并结合特征工程进行分类,然而存在难以捕获跨境民族文本深层含义和依赖人工提取跨境民族特征等问题。基于深度学习的分类方法是当今的主流方法,但大部分基于通用领域的相关研究,跨境民族文本分类任务属于特定领域分类问题,目前基于此领域的研究相对较少,针对跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本专利技术考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
[0003]本专利技术主要考虑融合领域知识图谱的跨境民族文本分类方法,在Yang等人提出的分层注意力文本分类方法上进行了改进,并借鉴Shen等人、Bordes等人的思想将外部知识信息与文本有效的结合起来辅助正文分类。

技术实现思路

[0004]本专利技术提供了一种融合领域知识图谱的跨境民族文本分类方法,以用于解决跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本专利技术考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
[0005]本专利技术的技术方案是:第一方面,提供一种基于融合领域知识图谱的跨境民族文本分类方法,所述方法的具体步骤如下:
[0006]Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,分析跨境民族文本数据并进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱。
[0007]Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示。
[0008]Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型。
[0009]Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。
[0010]作为本专利技术的进一步方案,所述Step1的具体步骤为:
[0011]Step1.1、跨境民族文化知识图谱类别体系构建。通过对跨境民族文化文本数据的文化概念(文化概念如:饮食、建筑、服饰等)具体分析,将跨境民族文化文本数据主要分为六个大类,主要包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族。如文本:“泼水节实为傣族的新年,是西双版纳最隆重的传统节日之一。”属于傣族习俗文化。
[0012]Step1.2、跨境民族实体属性定义。跨境民族文化实体的属性主要包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签。针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注。实体属性中的类别信息为实体提供了类别信息,为后续跨境民族文化实体语义特征的扩展奠定了基础。例如有实体:“糯米酒”,则实体的别称为:“劳毫糯”,实体的描述内容为“傣族酒,傣族特制饮品”,实体类别标签为“傣族饮食文化”。
[0013]Step1.3、跨境民族关系属性定义。跨境民族关系是对跨境民族文化知识图谱中跨境民族知识的关联整合。主要将跨境民族文化中的实体关系定义为以下几种:包含关系:如“跨境民族习俗文化”包含“跨境民族婚姻文化”以及“跨境民族丧葬文化”;属性关系:如“丢包”为“泼水节”的一个节日活动,二者之间存在属性关系;位置关系:如“泰国”和“泰族”存在位置关系。
[0014]作为本专利技术的进一步方案,所述Step2的具体步骤为:
[0015]Step2.1、通过爬取各大网站(如:维基百科、百度百科等)获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词等操作后获得4个跨境民族(傣族、泰族、彝族、倮倮族)文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度大多集中在10到20个字符,正文的长度在100到250个字符之间,正文中的句子为5到10句。
[0016]Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词。最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化。
[0017]Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展。例如,有跨境民族知识三元组(傣族,傣族节日,关门节)。实体的标签由实体的别称和实体的类别标签构成,故实体“傣族”的标签为“掸族,跨境民族”,实体“关门节”的标签为“进洼,傣族节日文化”,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示[e
傣族
,e
关门节
],关系向量表示[r
傣族节日
]以及标签向量表示[l
泰族
,l
跨境民族
,l
进洼
,l
傣族节日文化
],最后把相应的实体向量和关系向量进行对位相加得到实体语义向量为:
[0018]E
傣族
=e
关门节
+r
傣族节日
+l
泰族
+l
跨境民族
,E
关门节
=e
傣族
+r
傣族节日
+l
进洼
+l
傣族节日文化

[0019]最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。
[0020]作为本专利技术的进一步方案,所述Step3的具体步骤为:
[0021]Step3.1、实现对标题的词级语义特征的提取。故本专利技术提出采用人工构建的跨境民族文化词库辅助分词缓解普通的分词工具分词效果不佳的问题。使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向量表示,利用双向循环神经网络编码上下文信息的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述方法的具体步骤如下:Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。2.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step1的具体步骤为:Step1.1、跨境民族文化知识图谱类别体系构建:将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;Step1.2、跨境民族实体属性定义:跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;Step1.3、跨境民族关系属性定义:将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。3.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step2的具体步骤为:Step2.1、通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。4.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step3的具体步骤为:Step3.1、使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向...

【专利技术属性】
技术研发人员:毛存礼陈春吉余正涛黄于欣高盛祥张勇丙
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1