【技术实现步骤摘要】
基于知识表示的跨境民族文化文本分类方法
本专利技术涉及基于知识表示的跨境民族文化文本分类方法,属于自然语言处理
技术介绍
文化类别,这对进一步开展跨境民族文化融合研究具有重要的价值。传统的机器学习分类算法,其主要是基于特征工程,采用概率统计的方法抽取文本的特征,然后再使用分类器进行分类,分类的效果严重依赖于特征的质量,而且这些特征在文本中是独立存在的,没有考虑到文本的语义特征,不能很好的对文本进行分类。现有的神经网络模型都是基于大量有标注的样本数据,然而,跨境民族文化分类任务需要对文本内容所属民族以及文化领域类别进行判别,缺乏适合本任务的标记好的大规模训练样本,因此,通用领域文本分类模型不能直接用于跨境民族文化文本分类任务。而且,神经网络模型在特征提取方面严重依赖于词语的向量化表示,大多采用单一词向量模型来对词语进行向量化,没有根据任务特点来进行向量增强,导致神经网络提取的文本特征质量参差不齐。
技术实现思路
本专利技术提供了基于知识表示的跨境民族文化文本分类方法,以用于解决标注数据不足和文本特 ...
【技术保护点】
1.基于知识表示的跨境民族文化文本分类方法,其特征在于:所述基于知识表示的跨境民族文化文本分类方法的具体步骤如下:/nStep1、获取若干本土及其跨境民族文化文本数据;/nStep2、本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;/nStep3、基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练;/n获取本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;/n获取实体向量与带有标签信息的关系向量;/n把词向量表示与实体向量融合再输入到BiGRU神经网络中进行文本语义特征提取;/n利用带有标签信息的关系向量对文本语义特征进行最大池化注 ...
【技术特征摘要】
1.基于知识表示的跨境民族文化文本分类方法,其特征在于:所述基于知识表示的跨境民族文化文本分类方法的具体步骤如下:
Step1、获取若干本土及其跨境民族文化文本数据;
Step2、本土及其跨境民族文化知识图谱的构建,再利用远程监督的思想来进行数据标注;
Step3、基于知识表示的本土及其跨境民族文化文本分类神经网络模型训练;
获取本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
获取实体向量与带有标签信息的关系向量;
把词向量表示与实体向量融合再输入到BiGRU神经网络中进行文本语义特征提取;
利用带有标签信息的关系向量对文本语义特征进行最大池化注意力加权,再计算每个文本属于各个类别的概率;
基于概率值及交叉熵损失函数计算损失值,通过损失值调节网络参数,以此来训练出效果最优的分类模型;
Step4、利用训练好的基于知识表示的跨境民族文化文本分类神经网络模型对本土及其跨境民族文化文本数据进行文本分类。
2.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step1包括:利用搜索引擎编写网络爬虫从百度百科、WiKi百科、中国民族文化资源库以及中国民族文化资源网爬取跟本土及其跨境民族相关的网页文档数据,并利用MongoDB数据库对爬取网页的标题、日期、URL、图片、正文文本信息进行存储及倒排索引构建。
3.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step2的具体步骤为:
Step2.1、首先确定本土及其跨境民族文化知识图谱的分类体系,民族文化类别包括宗教文化、建筑文化、饮食文化、服饰文化、节日文化、丧葬文化、婚姻文化、乐器文化和舞蹈文化这9类,然后从已有的知识图谱和百科类网站的InfoBox中获取知识三元组,知识三元组的具体格式是[“实体”,“关系”,“实体”]或者[“实体”,“属性”,“属性值”],最终进行人工校验后把知识三元组储存在Neo4j图数据库中完成本土及其跨境民族文化知识图谱的构建;
Step2.2、通过远程监督的思想来进行数据标注:利用本土及其跨境民族文化知识图谱中的三元组与本土及其跨境民族文化文本数据进行对齐,如果三元组中的头实体和尾实体同时出现在本土及其跨境民族文化文本数据的任何一条文本中,则把这条文本作为标注好的数据。
4.根据权利要求1所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3的具体步骤为:
Step3.1、首先使用BERT预训练模型对标注好的数据进行向量化表示,获得本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示;
Step3.2、然后利用TransE知识表示模型对本土及其跨境民族文化知识图谱三元组中的实体、关系和三元组标签进行向量化表示,获得实体向量与带有标签信息的关系向量;
Step3.3、把通过BERT预训练模型得到的本土及其跨境民族文化文本标注好的数据中每个词语的词向量表示与TransE知识表示模型表示的实体向量进行融合,得到融合后的向量;
Step3.4、利用BiGRU神经网络对文本的语义特征进行提取:通过Step3.3得到融合后的词向量,把融合后的词向量输入到BiGRU神经网络中进行编码来学习得到文本的语义特征;
Step3.5、使用TransE知识表示模型输出的带有标签信息的关系向量对提取到的文本语义特征进行最大池化注意力加权,得到文本的句子级向量;然后利用文本的句子级向量计算每个句子属于各个类别的概率值;
Step3.6、利用交叉熵损失函数来计算概率值与真实类别标签之间的损失值,通过得到的损失值来调节网络参数,以此来训练出效果最优的分类模型。
5.根据权利要求4所述的基于知识表示的跨境民族文化文本分类方法,其特征在于:所述Step3.1具体包括:将标注好的文本中每个词语随机初始化得到每个词语的词向量TokenEmbedding,标注好的文本的编号SegmentEmbedding和每个词的位置向量PositionEmbedding的元素按位相加,得到BERT预训练模型的最终输入;文本经过以上三个向量化表示之后,对这三个向量按位相加可表示为A={a[CLs],a1,a2,…,an,a[SEP]},其中a[CLS]和a[SEP]为标注好的文本的特殊标记向量,n为标注好的数据中的词语数量,每个词语都被表示为k维的向量;对于输入的向量利用多头注意力机制Multi-HeadAttention计算文本中每个词语与其它词语之间的相互关系,计算公式如下所示:
MHA=MultiHead(Q,K,V)=Concat(head1,head2,…,headk)WO
headi=Attention(QWiiQ,KWiK,VWiV)
其...
【专利技术属性】
技术研发人员:毛存礼,王斌,余正涛,高盛祥,王振晗,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。