融合领域知识图谱的汉越跨境民族文本检索方法及装置制造方法及图纸

技术编号:36353336 阅读:47 留言:0更新日期:2023-01-14 18:09
本发明专利技术涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置,属于自然语言处理技术领域。汉越跨境民族领域文本特征主要体现在存在大量不常见的领域实体且实体表达形式多样问题。这些问题突出了跨境民族领域的特殊性。本发明专利技术提出了融合领域知识图谱的汉越跨境民族文本检索方法,包括汉越跨境民族文本数据预处理、基于汉越知识图谱对查询文档进行扩展、进行汉越跨境民族查询文档特征融合、进行汉越跨境民族文本检索构成。根据这四个功能模块化制成融合领域知识图谱的汉越跨境民族文本检索装置,具有重要的理论和实际运用价值。具有重要的理论和实际运用价值。具有重要的理论和实际运用价值。

【技术实现步骤摘要】
融合领域知识图谱的汉越跨境民族文本检索方法及装置


[0001]本专利技术涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置,属于自然语言处理


技术介绍

[0002]跨语言文本检索是在大规模文本集合中查找相关文档以回答特定查询的任务,该任务的核心是在于如何学习查询和文本之间的潜在语义特征以及查询和文本特征之间的相似性如何度量。跨语言检索任务是信息抽取技术的研究热点。汉越跨境民族文本检索任务旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档。然而,在汉越跨境民族领域中,存在大量不常见的领域实体以及实体表达形式多样,这些问题突出了跨境民族领域的特殊性。尤其是在汉越跨境民族文本检索中,还面临着领域词对齐困难和语义对齐困难问题。因此,当前通用的跨语言文本检索模型无法解决以上问题,导致通用模型无法精准的检索出相应的跨境民族文档。
[0003]本专利技术提出了融合领域知识图谱的汉越跨境民族文本检索方法,利用跨境民族领域知识图谱扩充查询文本的实体表征并融合在查询文档之中,然后利用多头注意力机制将汉越知识图谱融入查询文档,实现丰富查询文档数据相关的汉越跨境民族实体信息,最后引入对比学习将融合跨境民族实体后的查询文档表征对齐并利用余弦相似度计算作为相关性得分,从而提升文本检索的效率。

技术实现思路

[0004]本专利技术提供了融合领域知识图谱的汉越跨境民族文本检索方法及装置,用以扩展汉越跨境民族查询文本实体和丰富查询和文本相关的跨境民族领域实体信息,提升文本检索的效率
[0005]本专利技术的技术方案是:第一方面,本专利技术提供融合领域知识图谱的汉越跨境民族文本检索方法,所述融合领域知识图谱的汉越跨境民族文本检索的具体步骤如下:
[0006]Step1、进行汉越跨境民族文本数据预处理:汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据,一共爬取了中文135572条文本数据和越南与109048条文本数据,为汉越跨境民族文本检索模型训练起到了很好的支撑作用。
[0007]Step2、基于汉越知识图谱对查询文档进行扩展:抽取查询或文本中的中文或越南语实体,抽取出的实体与汉越知识图谱实体链接扩展出相关实体。另外,为了扩充汉越跨境民族中不常见的领域实体,还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体。
[0008]Step3、进行汉越跨境民族查询文档特征融合:利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接
得到融合后的表征向量。
[0009]Step4、进行汉越跨境民族文本检索:引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积(或余弦相似度)作为相关性得分。
[0010]作为本专利技术的进一步方案,所述Step1的具体步骤为:
[0011]Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据,数据进行过滤、筛选、去停用词、特殊字符等预处理操作,特殊字符如空格、乱码、表情符号以及公式符号。中文跨境民族数据爬取了91899条文本,越南语跨境民族文化数据爬取了数据71993条文本。
[0012]Step1.2、根据这些数据分别构建中文和越南语正负样本对,中文正负样本对为43673条文本,越南语正负样本对为37055条文本,共计中文135572条文本数据和越南与109048条文本数据。
[0013]Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征,得到查询文本的向量表示。汉越跨境民族查询与文本分别视为序列q={q1,q2,

,q
n
}和序列d={d1,d2,

,d
n
}组成,其中q
i
和d
i
分别是查询和文本的第i个词。q和d表示查询和文本。
[0014]V
q
=XLM

R(q)
[0015]V
d
=XLM

R(d)
[0016]其中V
q
和V
d
分别表示汉越跨境民族文化查询和文本的向量表示,经过多语言预训练模型可以更好的捕捉汉越跨境民文化文本之间的信息。
[0017]作为本专利技术的进一步方案,所述Step2的具体步骤为:
[0018]Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体,与中文知识图谱实体链接扩展出相关实体。而在查询或文本中的越南语实体使用越南语实体抽取模型抽取,与越南语知识图谱实体链接扩展出相关实体。另外,为了扩充汉越跨境民族中不常见的领域实体,采用多语言知识表示模型(MtransE)对汉越跨境民族知识图谱中的三元组知识嵌入,得到汉越知识图谱对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;
[0019]Step2.2、扩展出的实体由于是很多个词集合构成,将查询与知识图谱扩展出的实体视为一个词序列集合文本与知识图谱扩展出的实体视为一个词序列集合其中V
E
是汉越知识图谱中的实体,e
q
和e
d
分别表示查询和文本与汉越知识图谱扩展出的词集合。和是查询和文本词序列集合中的第i个词。和分别通过多语言预训练模型得到词向量集合表示。
[0020][0021][0022]其中,和分别表示汉越跨境民族查询和文本扩展出的实体向量表示。
[0023]作为本专利技术的进一步方案,所述步骤Step3的具体步骤为:
[0024]Step3.1、利用查询和文本中的向量分别与知识图谱扩展出来的实体集合向量相
拼接得到融合后的表征向量。具体的方法是查询向量V
q
和查询中的实体与知识图谱实体链接得到的实体向量相拼接。文本向量V
d
和文本中的实体与知识图谱实体链接得到的实体向量相拼接。
[0025][0026][0027]其中,表示向量相拼接,V
q
'和V
d
'分别是查询和文本与知识图谱中的实体融合后的查询向量和文本向量。
[0028]Step3.2、使用多头注意力机制将融入汉越跨境民族知识图谱后的查询和文档向量作为多头注意力机制的输入,通过多头注意力机制丰富查询和文档之间跨境民族相关的语义信息,为下一步输入对比学习层中更好对齐表征在同一空间下做铺垫。
[0029][0030]其中,Q、K、V表示查询或文本的输入都是一样的。是比例因子,可以避免乘积过大。
[0031]作为本专利技术的进一步方案,所述Step4的具体步骤为:
...

【技术保护点】

【技术特征摘要】
1.融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述方法的具体步骤如下:Step1、进行汉越跨境民族文本数据预处理:汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据;Step2、基于汉越知识图谱对查询文档进行扩展:抽取查询或文本中的中文或越南语实体,抽取出的实体与汉越知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;Step3、进行汉越跨境民族查询文档特征融合:利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量;Step4、进行汉越跨境民族文本检索:引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。2.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step1的具体步骤为:Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据,数据进行过滤、筛选、去停用词、特殊字符预处理操作,特殊字符包括空格、乱码、表情符号以及公式符号;Step1.2、根据预处理后的数据分别构建中文和越南语正负样本对;Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征,得到查询文本的向量表示;汉越跨境民族查询与文本分别视为序列q={q1,q2,

,q
n
}和序列d={d1,d2,

,d
n
}组成,其中q
i
和d
i
分别是查询和文本的第i个词,q和d表示查询和文本;V
q
=XLM

R(q)V
d
=XLM

R(d)其中V
q
和V
d
分别表示汉越跨境民族文化查询和文本的向量表示,经过多语言预训练模型能更好的捕捉汉越跨境民文化文本之间的信息。3.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step2的具体步骤为:Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体,与中文知识图谱实体链接扩展出相关实体;而在查询或文本中的越南语实体使用越南语实体抽取模型抽取,与越南语知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,采用多语言知识表示模型MtransE对汉越跨境民族知识图谱中的三元组知识嵌入,得到汉越知识图谱对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;Step2.2、扩展出的实体由于是很多个词集合构成,将查询与知识图谱扩展出的实体视为一个词序列集合文本与知识图谱扩展出的实体视为一个词序列
集合其中V
E
是汉越知识图谱中的实体,e
q
和e
d
分别表示查询和文本与汉越知识图谱扩展出的词集合;和是查询和文本词序列集合中的第i个词;和分别通过多语言预训练模型得到词向...

【专利技术属性】
技术研发人员:毛存礼刘思源余正涛黄于欣高盛祥张勇丙
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1