【技术实现步骤摘要】
对古汉语进行断句的方法、装置以及存储介质
本申请涉及自然语言处理
,特别是涉及一种对古汉语进行断句的方法、装置以及存储介质。
技术介绍
古诗文在传统文献中通常是逐字连结而成,中间鲜有断句。目前大量古籍文献,因为缺少人力,尚处于未经整理状态。而断句问题未解决,注释、评论、翻译等工作更无人问津。此外,在古代文言表达中往往单字成词,每个单字词可承载的意义极为丰富,其同形词和一词多义现象较现代汉语更为突出,为汉语识别带来挑战。目前最广泛的方法是通过人工的方式来断句,这种方法不仅耗时且低效,并且对专家知识有极高要求,因此容易出现错误,以致影响语义理解。自然语言处理技术的发展使得自动断句成为可能,例如,可以采用双向循环神经网络结合词向量(例如word2vec)进行古文断句。但是传统的词向量表示方法仍然面临一个突出的问题:即仅能为每个词获取一个词向量,无法区分同形词和多义词的不同义项,导致对古汉语文本意义和语境信息理解并不充分。此外,现有的模型对同形词和一词多义现象缺乏处理手段,也会进一步导致对古汉语文本意义和语境信息理解并 ...
【技术保护点】
1.一种对古汉语进行断句的方法,其特征在于,包括:/n接收与待断句的古汉语文本对应的古汉语信息;/n根据所述古汉语信息,生成第一向量集合,其中所述第一向量集合中的向量与所述古汉语文本中的汉字对应,并且与所述汉字在所述古汉语文本的语境中的含义关联;以及/n根据所述第一向量集合,利用预先设置的计算模型,生成用于对所述古汉语文本进行断句的标记信息。/n
【技术特征摘要】
20191011 CN 20191096501161.一种对古汉语进行断句的方法,其特征在于,包括:
接收与待断句的古汉语文本对应的古汉语信息;
根据所述古汉语信息,生成第一向量集合,其中所述第一向量集合中的向量与所述古汉语文本中的汉字对应,并且与所述汉字在所述古汉语文本的语境中的含义关联;以及
根据所述第一向量集合,利用预先设置的计算模型,生成用于对所述古汉语文本进行断句的标记信息。
2.根据权利要求1所述的方法,其特征在于,所述古汉语信息包括所述古汉语文本,并且根据所述古汉语信息,生成第一向量集合的操作,包括:
根据所述古汉语文本,利用基于多注意力机制的深层神经网络模型,生成所述第一向量集合。
3.根据权利要求1所述的方法,其特征在于,所述古汉语信息包括与所述古汉语文本对应的第二向量集合,其中所述第二向量集合中的向量与所述古汉语文本中的汉字一一对应,并且
根据所述古汉语信息,生成第一向量集合的操作,包括:根据所述第二向量集合,利用基于多注意力机制的深层神经网络模型,生成所述第一向量集合。
4.根据权利要求3所述的方法,其特征在于,根据所述第一向量集合,利用预先设置的计算模型,生成用于对所述古汉语文本进行断句的标记信息的操作,包括:
根据所述第一向量集合,利用预先设置的条件随机场层,生成用于对所述古汉语文本进行断句的标记信息。
5.根据权利要求3所述的方法,其特征在于,根据所述第一向量集合,利用预先设置的计算模型,生成用于对所述古汉语文本进行断句的标记信息的操作,包括:
根据所述第一向量集合,利用预先设置的全连接层以及softmax分类器,生成用于对...
【专利技术属性】
技术研发人员:胡韧奋,李绅,诸雨辰,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。