System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于考古文献资料的知识图谱构建方法、系统及介质技术方案_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于考古文献资料的知识图谱构建方法、系统及介质技术方案

技术编号:43285432 阅读:19 留言:0更新日期:2024-11-12 16:07
本发明专利技术涉及自然语言处理技术领域,公开了一种基于考古文献资料的知识图谱构建方法、系统及介质,包括:采集考古发掘文献资料,并进行数据清洗和预处理,得到考古文本;根据考古的信息特征,设定分词工具,基于分词工具对考古文本进行分句和分词,得到词向量文本;基于BILSTM对词向量文本进行特征提取,得到单词特征序列;基于CRF对单词特征序列进行标注,并识别单词特征序列中的目标实体;基于实体关系抽取模型抽取目标实体之间的关系,得到实体关系三元组;对实体关系三元组进行消歧,构建面向考古领域的知识图谱。本发明专利技术实现了考古资料中的独特文本特征和关系的有效处理,提高了考古学中的关键实体识别的准确性和辨别力。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是涉及一种基于考古文献资料的知识图谱构建方法、系统及介质


技术介绍

1、考古遗址作为古代人类活动的直接见证,反映了古人类社会的生活方式与文明进程。这些遗址所含的数据形态多样,包含了深厚的考古学价值和知识,而记录这些信息的考古文献资料详尽地保留了遗址的名称、地理位置和历史时期等重要数据,成为了考古学研究的宝贵资源。随着网络技术的发展,在线的考古文档数量日益增加,信息的过载和分散性也日渐显著,急需通过整合和挖掘来有效利用这些数据。传统依赖人工的信息识别方法不仅耗时而且效率低下,尤其是在处理大规模网络文本数据时更显得力不从心。

2、在这种背景下,借助计算机和网络技术的发展,人工智能尤其是知识图谱技术的兴起,为考古资料的处理带来了革命性的变化。结合深度学习和自然语言处理的信息抽取技术能够从大量非结构化文本中高效地提取关键数据,显著提高了信息处理的效率。这些技术不仅优化了考古文本中时空信息的提取流程,还为构建考古知识图谱及知识的综合与融合提供了新的工具和方法。考古领域的文本资料蕴含了丰富的历史和文化信息,实体间的关系提供了不可或缺的历史线索。然而,这些关系在中文语境下的提取过程复杂且困难,构成了当前技术研究的一大难点,不仅影响了对考古数据结构的深入理解,也制约了知识图谱技术在考古学文献分析中的更广泛应用。因此,亟需一种基于考古文献资料的知识图谱构建方法、系统及介质,实现知识图谱的构建。


技术实现思路

1、本专利技术的目的是提供一种基于考古文献资料的知识图谱构建方法、系统及介质,解决实体间的关系在中文语境下的提取过程复杂且困难,不仅影响了对考古数据结构的深入理解,也制约了知识图谱技术在考古学文献分析中的更广泛应用的问题。

2、本专利技术提供了一种基于考古文献资料的知识图谱构建方法,所述方法包括:

3、采集考古发掘文献资料,对所述考古发掘文献资料进行数据清洗和预处理,得到考古文本;

4、根据所述考古文本的信息特征,设定考古知识的分词工具,基于所述分词工具对所述考古文本进行分句和分词,得到词向量文本;

5、基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取,得到单词特征序列;

6、基于条件随机场模型对所述单词特征序列进行标注,并识别所述单词特征序列中的目标实体;

7、基于实体关系抽取模型抽取所述目标实体之间的关系,得到实体关系三元组;

8、对所述实体关系三元组进行消歧,构建面向考古领域的知识图谱。

9、优选的,对所述考古发掘文献资料进行数据清洗和预处理,包括:去除所述考古发掘文献资料中的特殊符号和重复字段,并保留句号和逗号;

10、对所述考古发掘文献资料中的进行歧义判断,并去除含有歧义的数据。

11、优选的,基于所述分词工具对所述考古文本进行分句和分词,包括:

12、定义所述考古文本时间特征和空间特征的提取规则;

13、基于所述提取规则,根据所述分词工具对所述考古文本进行分句和分词;

14、其中,所述时间特征根据考古遗址的相对年代确定;

15、所述空间特征根据考古遗址的地理位置的经纬度坐标确定。

16、优选的,基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取之前,还包括:

17、以bio数据标注策略为标注策略,以yedda数据标注工具为标注工具,对所述考古文本进行标注,得到双向长短时记忆循环神经网络模型的训练集。

18、优选的,基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取,包括:

19、定义t时刻输入的词向量为xt,隐藏层状态向量为ht,不同状态下输入xt的权重矩阵为u,隐藏层状态向量ht的权重矩阵为w,偏执向量为b,激活函数为σ和tanh,遗忘门用于决定丢弃的信息,输入门用于决定更新的信息,t时刻的遗忘门ft表示为:

20、ft=σ(wfht-1+ufxt+bf);

21、在t时刻更新ht-1,输入门it表示为:

22、it=σ(wiht-1+uixt+bi);

23、t时刻被加入到细胞状态的候选值向量表示为:

24、

25、在t时刻将t-1时刻存储的信息更新为t时刻存储的信息,得到更新后的状态向量ct表示为:

26、

27、t时刻输出门ot表示为:

28、ot=σ(woht-1+uoxt+bo);

29、更新隐藏层状态向量ht:

30、ht=ot×tanh(ct);

31、通过对每一词向量采用正向lstm和反向lstm相结合的方法,对同一时刻t的输出进行合并处理,获取每个时刻前向和后向的状态信息,以使双向长短时记忆循环神经网络模型提取出的特征序列能够充分反映双向的语义依赖信息:

32、

33、优选的,基于条件随机场模型对所述单词特征序列进行标注,并识别所述单词特征序列中的目标实体,包括:

34、定义输入单词序列z={z1,z2,…,zn},n为输入单词序列的长度,zi为第i个单词的输入向量,实际输出标签序列y={y1,y2,…,yn},单词序列z的可能输出标签序列y(z)={y'1,y'2,…,y'n};

35、对于单词序列z,定义在所有可能输出标签序列y’上的条件概率:

36、

37、潜在增益函数ψi表示为:

38、

39、其中,和by',y表示标签对(y',y)相对应的权重向量和偏置向量;

40、使用最大条件似然估计方法,对于训练集{(zi,yi)},似然率的对数表示为:

41、

42、选择使似然率l(w,b)最大的参数,在可能输出标签序列中找到最高条件概率的y,得到所需的实体识别关系:

43、

44、优选的,基于实体关系抽取模型抽取所述目标实体之间的关系,包括:所述实体关系抽取模型通过构建双向长短时记忆循环神经网络模型对所述实体识别关系进行分类抽取;

45、并使用注意力机制模型训练输出序列的权重矩阵,具体为:

46、定义h={h1,h2,…,hn}为bilstm层的输出向量矩阵,m作为序列的权重向量,wt为参数向量的转置,通过将输入向量与序列权重向量相乘,将单词级别的特征转化为句子级别的特征,对实体之间的关系进行分类抽取;

47、使用激活函数tanh得到m:

48、m=tanh(h);

49、通过softmax全连接层,将输入向量与序列权重向量相乘:

50、δ=softmax(wtm);

51、计算输出向量的加权和得到句子序列的特征表示r,使用激活函数tanh得到用于分类的句子表示h*:

52、r=hδt;

53、h*=tan本文档来自技高网...

【技术保护点】

1.一种基于考古文献资料的知识图谱构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,对所述考古发掘文献资料进行数据清洗和预处理,包括:去除所述考古发掘文献资料中的特殊符号和重复字段,并保留句号和逗号;

3.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于所述分词工具对所述考古文本进行分句和分词,包括:

4.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取之前,还包括:

5.根据权利要求4所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取,包括:

6.根据权利要求5所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于条件随机场模型对所述单词特征序列进行标注,并识别所述单词特征序列中的目标实体,包括:

7.根据权利要求6所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于实体关系抽取模型抽取所述目标实体之间的关系,包括:所述实体关系抽取模型通过构建双向长短时记忆循环神经网络模型对所述实体识别关系进行分类抽取;

8.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,对所述实体关系三元组进行消歧,包括:

9.一种基于考古文献资料的知识图谱构建系统,其特征在于,包括若干处理器,用于执行如权利要求1-8任一项所述的基于考古文献资料的知识图谱构建方法。

10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于考古文献资料的知识图谱构建方法。

...

【技术特征摘要】

1.一种基于考古文献资料的知识图谱构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,对所述考古发掘文献资料进行数据清洗和预处理,包括:去除所述考古发掘文献资料中的特殊符号和重复字段,并保留句号和逗号;

3.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于所述分词工具对所述考古文本进行分句和分词,包括:

4.根据权利要求1所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取之前,还包括:

5.根据权利要求4所述的基于考古文献资料的知识图谱构建方法,其特征在于,基于双向长短时记忆循环神经网络模型对所述词向量文本进行特征提取,包括:

6.根据权利要求5所述的基于考古文献资料的知识图谱...

【专利技术属性】
技术研发人员:张雯琪陈默杨玉辉龙思颖王勇超
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1