一种金文语义识别方法和系统技术方案

技术编号:26598911 阅读:26 留言:0更新日期:2020-12-04 21:21
本发明专利技术属于智能服务技术领域,涉及一种金文语义识别方法,包括以下步骤:S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;S2将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;S4根据金文语义角色标签和语义依存关系建立金文知识图谱;S5将待识别的金文带入金文知识图谱中进行识别。其全面考虑并融合金文描述内容的因果关联以及语义要素之间的语义依赖关系,能够通过上下文信息理解金文含义,使识别结果更加准确。

【技术实现步骤摘要】
一种金文语义识别方法和系统
本专利技术涉及一种金文语义识别方法和系统,属于智能服务

技术介绍
商周是我国历史上的青铜时代,制造农具、工具、武器、生活用具和钟鼎礼器等等,象征作器者的社会地位和政治权利。青铜器上的铭文今简称为金文。金文通常记录一个事件的前因后果和相关元素,有君王事迹、政治谋划、征伐告捷、论功行赏、方国叛离、民众暴动、祭祀宴飨、誓约诉讼、奴隶和生产资料交换等等。金文承载着中华文明基因中的密码,是五千年中华文明历程中不可或缺的一环。但是,金文由于历史久远以及与现行文字差别较大,所以只有少数专家才能够识别,且金文方面的著作多以纸质书籍形式存档于大型图书馆和国家研究机构中,一般读者无法获取。目前,互联网上虽然存在一些金文检索网站,比如“国学大师”网站下“《殷周金文集成》检索”(http://www.guoxuedashi.com/yzjwjc/)。但其只能检索出单个的金文词语,而不能结合上下文,给出整个句子的含义,且由于金文与现代文语法上也存在较大的差异,因此现代文的语义识别模型也不能很好的用于金文的语义识别,故目前还没有能够自动、准确、有针对性的对金文进行语义识别的方法。
技术实现思路
针对上述问题,本专利技术的目的是提供一种金文语义识别方法和系统,其全面考虑并融合金文描述内容的因果关联以及相关的人、事、物、时、空等实词语义要素和彼此之间的语义依赖关系,能够通过上下文信息理解金文含义,使识别结果更加准确。为实现上述目的,本专利技术采取以下技术方案:一种金文语义识别方法,包括以下步骤:S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;S2将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;S4根据金文语义角色标签和语义依存关系建立金文知识图谱;S5将待识别的金文带入金文知识图谱中进行识别。进一步,步骤S1中金文增强语境向量的获得方法,包括以下步骤:S1.1通过爬虫程序爬取多个HTML界面,通解析HTML界面获得金文的编号、器名和译文,对获取的金文进行预处理获得金文训练集;S1.2根据BERT模型生成初始输入矩阵X’;S1.3将自注意力Attention机制拓展为多头注意力机制,并采用下式对初始输入矩阵X’进行更新:Multihead(Q,K,V)=concat(head1,…,headh)Wo其中,Q,K,V是X经过不同线性转换的输出,是K的维度用来缩放点积,WiQ,WiK,WiV是Q,K,V对应的参数矩阵,Wo是多头注意力拼接后的参数矩阵,h是多头注意力的头数,T是矩阵转置;S1.4将金文训练集带入多头注意力机制中对初始输入矩阵X’进行训练,得到金文增强语境向量X。进一步,步骤S2中金文隐向量矩阵H的获取方法为:将金文增强语境向量带入单向长短期记忆神经网络单元,将单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元,采用下式获得当前词的隐向量:其中,是句子正向时的词xt对应的隐向量,句子逆向时单词xt对应的隐向量,f()是激活函数,是向量拼接;遍历句子中的所有词获得金文隐向量矩阵H,b是偏置向量。进一步,步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别;通过指针网络建立金文之间的相互依存关系,并根据依存关系标签确定依存关系的类型,从而对金文进行语义依存关系识别。进一步,步骤S3中对金文进行语义角色识别的方法,包括以下步骤:S3.1将金文隐向量矩阵H输入全连接神经网络,得到在每个语义角色标签下的概率分数向量,遍历整个句子得到概率矩阵;S3.2建立语义角色标签转移矩阵,金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示:其中,表示yt-1到yt的标签转移分数,为概率矩阵,yt是某一语义角色标签,对路径分数进行归一化,获得初始语义角色标签转移矩阵;S3.3将金文训练集代入语义角色初始标签转移矩阵进行训练,将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵;S3.4将待语义角色识别的金文输入最终的标签转移矩阵,获得路径得分最高的路径序列,并对路径序列进行标注进一步,语义角色标签包括:谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。进一步,步骤S3中对金文进行语义依存关系识别的方法,包括以下步骤:S3.5金文隐向量矩阵H代入LSTM模型,对应待识别词xt,其隐状态为hj:hj=LSTM(ht+hh)其中,j是时间,ht是xt对应的隐向量,hh是xt的最后一个头节点词;S3.6将隐状态hj和任一金文训练集中的金文句子代入自注意力Attention机制,计算隐状态hj对于金文句子中每个词hr的注意力系数,并归一化得到aj,计算出金文句子中的每个词的aj,其中aj的最大值对应的词与待识别词xt存在依存关系;S3.7将依存关系按照依存关系标签进行分类,输出待识别词xt的所有依存关系识别结果。进一步,依存关系标签包括:施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。进一步,步骤S4中建立金文知识图谱包括以下步骤:将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合,知识图谱三元组集合包括ID1、Relation和ID2;ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号,Relation表示头语义实体与尾语义实体之间的语义依存关系;将知识图谱三元组集合输入Neo4j进行可视化分析,从而生成包含金文的语义信息的金文知识图谱。本专利技术还公开了一种金文语义识别系统,包括:增强语境向量生成模块,用于通过金文训练集对BERT模型进行预训练,得到金文增强语境向量;金文隐向量矩阵生成模块,用于将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;语义识别模块,用于根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;知识图谱生成模块,用于根据金文语义角色标签和语义依存关系建立金文知识图谱;输出模块,用于将待识别的金文带入金文知识图谱中进行识别。本专利技术由于采取以上技术方案,其具有以下优点:1、本专利技术全面考虑并融合金文描述内容的因果关联以及相关的人、事、物、时、空等实词语义要素和彼此之间的语义依赖关系,能够通过上下文信息理解金文含义,使识别结果更加准确。2、本专利技术建立新的标签依赖转移矩阵,从而提高语义角色识别准确度,获得鲁棒的金文语义角色向量。3、本专利技术通过引入指针网络,对金文语义依存关系显示建模,能够更加客观准确的对金文进行识别。4、本专利技术通过建立金文知识图谱可以更加形象的表示金文之间的相互关系,识别时可以更加快速的定位到相关的金文,提高了金文检索效率本文档来自技高网...

【技术保护点】
1.一种金文语义识别方法,其特征在于,包括以下步骤:/nS1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;/nS2将所述金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;/nS3根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;/nS4根据金文语义角色标签和语义依存关系建立金文知识图谱;/nS5将待识别的金文带入所述金文知识图谱中进行识别。/n

【技术特征摘要】
1.一种金文语义识别方法,其特征在于,包括以下步骤:
S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;
S2将所述金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;
S3根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;
S4根据金文语义角色标签和语义依存关系建立金文知识图谱;
S5将待识别的金文带入所述金文知识图谱中进行识别。


2.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S1中金文增强语境向量的获得方法,包括以下步骤:
S1.1通过爬虫程序爬取多个HTML界面,通解析所述HTML界面获得金文的编号、器名和译文,对获取的金文进行预处理获得金文训练集;
S1.2根据BERT模型生成初始输入矩阵X’;
S1.3将自注意力Attention机制拓展为多头注意力机制,并采用下式对所述初始输入矩阵X’进行更新:
Multihead(Q,K,V)=concat(head1,…,headh)Wo
whereheadi=Attention(QWiQ,KWiK,VWiV)



其中,Q,K,V是X经过不同线性转换的输出,是K的维度用来缩放点积,WiQ,WiK,WiV是Q,K,V对应的参数矩阵,Wo是多头注意力拼接后的参数矩阵,h是多头注意力的头数,T是矩阵转置;
S1.4将所述金文训练集带入所述多头注意力机制中对所述初始输入矩阵X’进行训练,得到金文增强语境向量X。


3.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S2中金文隐向量矩阵H的获取方法为:
将所述金文增强语境向量带入单向长短期记忆神经网络单元,将所述单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元,采用下式获得当前词的隐向量:









其中,是句子正向时的词xt对应的隐向量,句子逆向时单词xt对应的隐向量,f()是激活函数,是向量拼接;遍历句子中的所有词获得金文隐向量矩阵H,b是偏置向量。


4.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别;通过指针网络建立金文之间的相互依存关系,并根据依存关系标签确定所述依存关系的类型,从而对金文进行语义依存关系识别。


5.如权利要求4所述的金文语义识别方法,其特征在于,所述步骤S3中对金文进行语义角色识别的方法,包括以下步骤:
S3.1将所述金文隐向量矩阵H输入全连接神经网络,得到在每个所述语义角色标签下的概率分数向量,遍历整个句子得到概率矩阵;
S3.2建立语义角色标签转移矩阵,金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示:



其中,表示yt-1...

【专利技术属性】
技术研发人员:李婧梁循
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1