【技术实现步骤摘要】
一种金文语义识别方法和系统
本专利技术涉及一种金文语义识别方法和系统,属于智能服务
技术介绍
商周是我国历史上的青铜时代,制造农具、工具、武器、生活用具和钟鼎礼器等等,象征作器者的社会地位和政治权利。青铜器上的铭文今简称为金文。金文通常记录一个事件的前因后果和相关元素,有君王事迹、政治谋划、征伐告捷、论功行赏、方国叛离、民众暴动、祭祀宴飨、誓约诉讼、奴隶和生产资料交换等等。金文承载着中华文明基因中的密码,是五千年中华文明历程中不可或缺的一环。但是,金文由于历史久远以及与现行文字差别较大,所以只有少数专家才能够识别,且金文方面的著作多以纸质书籍形式存档于大型图书馆和国家研究机构中,一般读者无法获取。目前,互联网上虽然存在一些金文检索网站,比如“国学大师”网站下“《殷周金文集成》检索”(http://www.guoxuedashi.com/yzjwjc/)。但其只能检索出单个的金文词语,而不能结合上下文,给出整个句子的含义,且由于金文与现代文语法上也存在较大的差异,因此现代文的语义识别模型也不能很好的用于金文的 ...
【技术保护点】
1.一种金文语义识别方法,其特征在于,包括以下步骤:/nS1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;/nS2将所述金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;/nS3根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;/nS4根据金文语义角色标签和语义依存关系建立金文知识图谱;/nS5将待识别的金文带入所述金文知识图谱中进行识别。/n
【技术特征摘要】
1.一种金文语义识别方法,其特征在于,包括以下步骤:
S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;
S2将所述金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;
S3根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;
S4根据金文语义角色标签和语义依存关系建立金文知识图谱;
S5将待识别的金文带入所述金文知识图谱中进行识别。
2.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S1中金文增强语境向量的获得方法,包括以下步骤:
S1.1通过爬虫程序爬取多个HTML界面,通解析所述HTML界面获得金文的编号、器名和译文,对获取的金文进行预处理获得金文训练集;
S1.2根据BERT模型生成初始输入矩阵X’;
S1.3将自注意力Attention机制拓展为多头注意力机制,并采用下式对所述初始输入矩阵X’进行更新:
Multihead(Q,K,V)=concat(head1,…,headh)Wo
whereheadi=Attention(QWiQ,KWiK,VWiV)
其中,Q,K,V是X经过不同线性转换的输出,是K的维度用来缩放点积,WiQ,WiK,WiV是Q,K,V对应的参数矩阵,Wo是多头注意力拼接后的参数矩阵,h是多头注意力的头数,T是矩阵转置;
S1.4将所述金文训练集带入所述多头注意力机制中对所述初始输入矩阵X’进行训练,得到金文增强语境向量X。
3.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S2中金文隐向量矩阵H的获取方法为:
将所述金文增强语境向量带入单向长短期记忆神经网络单元,将所述单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元,采用下式获得当前词的隐向量:
其中,是句子正向时的词xt对应的隐向量,句子逆向时单词xt对应的隐向量,f()是激活函数,是向量拼接;遍历句子中的所有词获得金文隐向量矩阵H,b是偏置向量。
4.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别;通过指针网络建立金文之间的相互依存关系,并根据依存关系标签确定所述依存关系的类型,从而对金文进行语义依存关系识别。
5.如权利要求4所述的金文语义识别方法,其特征在于,所述步骤S3中对金文进行语义角色识别的方法,包括以下步骤:
S3.1将所述金文隐向量矩阵H输入全连接神经网络,得到在每个所述语义角色标签下的概率分数向量,遍历整个句子得到概率矩阵;
S3.2建立语义角色标签转移矩阵,金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示:
其中,表示yt-1...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。