一种拟人句识别方法、装置、设备及存储介质制造方法及图纸

技术编号:26304587 阅读:34 留言:0更新日期:2020-11-10 20:00
本申请提供了一种拟人句识别方法、装置、设备及存储介质,方法包括:获取目标句子;基于目标句子和外部知识库,确定目标句子中每个字对应的目标特征向量,其中,外部知识库中包括多个词和多个词分别对应的类别,一个字对应的目标特征向量能够表征该字的上下文信息以及该字的相关外部知识信息,一个字的相关外部知识信息包括外部知识库中包含该字的词所对应的类别的信息;以目标句子中每个字对应的目标特征向量为依据,确定目标句子是否为拟人句。本申请提供的拟人句识别方法可实现拟人句的识别,且能够获得较高的识别准确度。

【技术实现步骤摘要】
一种拟人句识别方法、装置、设备及存储介质
本申请涉及自然语言处理
,尤其涉及一种拟人句识别方法、装置、设备及存储介质。
技术介绍
拟人是一种修辞手法,其一般用人的动作、神态、思想、感情等描述非人事物,比如,“狂风在怒吼咆哮”,“风”是一种无生命物体,不具有发声器官,将人可以做出怒吼咆哮等动作这一事实属性迁移到“风”这一自然界物体上,能够使得语言生动形象。拟人能够帮助人们利用人自身的行为、动作、思想来理解抽象事物。在某些场景中,需要进行拟人句识别,比如,在作文自动评阅场景中,需要识别作文中是否出现了拟人句,然而,如何进行拟人句识别是当前亟需解决的问题。
技术实现思路
有鉴于此,本申请提供了一种拟人句识别方法、装置、设备及存储介质,用以实现拟人句的识别,其技术方案如下:一种拟人句识别方法,包括:获取目标句子;基于所述目标句子和外部知识库,确定所述目标句子中每个字对应的目标特征向量,其中,所述外部知识库中包括多个词和所述多个词分别对应的类别,一个字对应的目标特征向量能够表征该字的上下文信息以及该字的相关外部知识信息,一个字的相关外部知识信息包含所述外部知识库中包含该字的词所对应的类别的信息;以所述目标句子中每个字对应的目标特征向量为依据,确定所述目标句子是否为拟人句。可选的,所述基于所述目标句子和外部知识库,确定所述目标句子中每个字对应的目标特征向量,包括:基于预先建立的拟人句识别模型,以及所述目标句子和所述外部知识库,确定所述目标句子中每个字对应的目标特征向量;所述以所述目标句子中每个字对应的目标特征向量为依据,确定所述目标句子是否为拟人句,包括:基于所述拟人句识别模型,以及所述目标句子中每个字对应的目标特征向量,确定所述目标句子是否为拟人句;其中,所述拟人句识别模型通过两个阶段的训练得到,第一阶段的训练用于使拟人句识别模型学习百科知识以及句子中字词的构成关系、词的词性信息、句子本身的句法结构信息,所述第二阶段的训练用于使拟人句识别模型具备判别句子是否为拟人句的能力。可选的,所述基于预先建立的拟人句识别模型,以及所述目标句子和所述外部知识库,确定所述目标句子中每个字对应的目标特征向量,包括:基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字对应的上下文向量,其中,一个字对应的上下文向量能够表征该字的上下文信息;基于所述拟人句识别模型、所述外部知识库和所述目标句子中每个字对应的上下文向量,确定所述目标句子中每个字对应的外部知识向量,其中,一个字对应的外部知识向量能够表征该字的相关外部知识信息;基于所述拟人句识别模型、所述目标句子中每个字对应的上下文向量和所述目标句子中每个字对应的外部知识向量,获得所述目标句子中每个字对应的目标特征向量。可选的,所述基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字对应的上下文向量,包括:基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字的表征向量;基于所述拟人句识别模型和所述目标句子中每个字的表征向量,确定所述目标句子中每个字对应的上下文向量。可选的,所述基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字的表征向量,包括:将所述目标句子拆分为单字,获得所述目标句子中的每个字;基于所述拟人句识别模型和所述目标句子中每个字的内容和位置,确定所述目标句子中每个字的表征向量。可选的,所述基于所述拟人句识别模型,以及所述外部知识库和所述目标句子中每个字对应的上下文向量,确定所述目标句子中每个字对应的外部知识向量,包括:对于所述目标句子中的每个字:基于所述拟人句识别模型,从所述外部知识库中获取包含该字的词所对应的类别,组成该字对应的目标类别集合;基于所述拟人句识别模型,以及所述目标句子中每个字对应的上下文向量和该字对应的目标类别集合,确定该字对应的目标类别集合中每个类别对应的注意力权重;基于所述拟人句识别模型、所述目标类别集合中每个类别的表征向量和所述目标类别集合中每个类别对应的注意力权重,确定该字对应的外部知识向量;以得到所述目标句子中每个字对应的外部知识向量。可选的,所述基于所述拟人句识别模型,以及所述目标句子中每个字对应的目标特征向量,确定所述目标句子是否为拟人句,包括:基于所述拟人句识别模型和所述目标句子中每个字对应的目标特征向量,确定所述目标句子中每个字对应的注意力权重;基于所述拟人句识别模型、所述目标句子中每个字对应的目标特征向量和所述目标句子中每个字对应的注意力权重,确定所述目标句子的语义表征向量;基于所述拟人句识别模型和所述目标句子的语义表征向量,确定所述目标句子是否为拟人句。可选的,建立所述拟人句识别模型的过程包括:利用百科数据集中的数据对初始的拟人句识别模型进行预训练,其中,所述百科数据集中的数据为无标注的百科数据;利用拟人数据集中的数据对预训练后的拟人句识别模型进一步进行训练,其中,所述拟人数据集中的数据为标注有句子类别的拟人句和非拟人句。可选的,所述利用拟人数据集中的数据对预训练后的拟人句识别模型进一步进行训练,包括:从所述拟人数据集中获取训练数据;利用预训练后的拟人句识别模型,确定所述训练数据分别为拟人句和非拟人句的概率;根据所述训练数据标注的句子类别,以及所述训练数据分别为拟人句和非拟人句的概率,确定预训练后的拟人句识别模型的预测损失;根据所述预测损失,更新预训练后的拟人句识别模型的参数。一种拟人句识别装置,包括:句子获取模块、特征向量确定模块和句子识别模块;所述句子获取模块,用于获取目标句子;所述特征向量确定模块,用于基于所述目标句子和外部知识库,确定所述目标句子中每个字对应的目标特征向量,其中,所述外部知识库中包括多个词和所述多个词分别对应的类别,一个字对应的目标特征向量能够表征该字的上下文信息以及该字的相关外部知识信息,一个字的相关外部知识信息包含所述外部知识库中包含该字的词所对应的类别的信息;所述句子识别模块,用于以所述目标句子中每个字对应的目标特征向量为依据,确定所述目标句子是否为拟人句。可选的,所述特征向量确定模块,具体用于基于预先建立的拟人句识别模型,以及所述目标句子和所述外部知识库,确定所述目标句子中每个字对应的目标特征向量;所述句子识别模块,具体用于基于所述拟人句识别模型,以及所述目标句子中每个字对应的目标特征向量,确定所述目标句子是否为拟人句;其中,所述拟人句识别模型通过两个阶段的训练得到,第一阶段的训练用于使拟人句识别模型学习百科知识以及句子中字词的构成关系、词的词性信息、句子本身的句法结构信息,所述第二阶段的训练用于使拟人句识别模型具备判别句子是否为拟人句的能力。一种拟人句识别设备,包括:存储器和处理器;所述存储器,用于存储程序;所本文档来自技高网...

【技术保护点】
1.一种拟人句识别方法,其特征在于,包括:/n获取目标句子;/n基于所述目标句子和外部知识库,确定所述目标句子中每个字对应的目标特征向量,其中,所述外部知识库中包括多个词和所述多个词分别对应的类别,一个字对应的目标特征向量能够表征该字的上下文信息以及该字的相关外部知识信息,一个字的相关外部知识信息包含所述外部知识库中包含该字的词所对应的类别的信息;/n以所述目标句子中每个字对应的目标特征向量为依据,确定所述目标句子是否为拟人句。/n

【技术特征摘要】
1.一种拟人句识别方法,其特征在于,包括:
获取目标句子;
基于所述目标句子和外部知识库,确定所述目标句子中每个字对应的目标特征向量,其中,所述外部知识库中包括多个词和所述多个词分别对应的类别,一个字对应的目标特征向量能够表征该字的上下文信息以及该字的相关外部知识信息,一个字的相关外部知识信息包含所述外部知识库中包含该字的词所对应的类别的信息;
以所述目标句子中每个字对应的目标特征向量为依据,确定所述目标句子是否为拟人句。


2.根据权利要求1所述的拟人句识别方法,其特征在于,所述基于所述目标句子和外部知识库,确定所述目标句子中每个字对应的目标特征向量,包括:
基于预先建立的拟人句识别模型,以及所述目标句子和所述外部知识库,确定所述目标句子中每个字对应的目标特征向量;
所述以所述目标句子中每个字对应的目标特征向量为依据,确定所述目标句子是否为拟人句,包括:
基于所述拟人句识别模型,以及所述目标句子中每个字对应的目标特征向量,确定所述目标句子是否为拟人句;
其中,所述拟人句识别模型通过两个阶段的训练得到,第一阶段的训练用于使拟人句识别模型学习百科知识以及句子中字词的构成关系、词的词性信息、句子本身的句法结构信息,所述第二阶段的训练用于使拟人句识别模型具备判别句子是否为拟人句的能力。


3.根据权利要求2所述的拟人句识别方法,其特征在于,所述基于预先建立的拟人句识别模型,以及所述目标句子和所述外部知识库,确定所述目标句子中每个字对应的目标特征向量,包括:
基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字对应的上下文向量,其中,一个字对应的上下文向量能够表征该字的上下文信息;
基于所述拟人句识别模型、所述外部知识库和所述目标句子中每个字对应的上下文向量,确定所述目标句子中每个字对应的外部知识向量,其中,一个字对应的外部知识向量能够表征该字的相关外部知识信息;
基于所述拟人句识别模型、所述目标句子中每个字对应的上下文向量和所述目标句子中每个字对应的外部知识向量,获得所述目标句子中每个字对应的目标特征向量。


4.根据权利要求3所述的拟人句识别方法,其特征在于,所述基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字对应的上下文向量,包括:
基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字的表征向量;
基于所述拟人句识别模型和所述目标句子中每个字的表征向量,确定所述目标句子中每个字对应的上下文向量。


5.根据权利要求4所述的拟人句识别方法,其特征在于,所述基于所述拟人句识别模型和所述目标句子,确定所述目标句子中每个字的表征向量,包括:
将所述目标句子拆分为单字,获得所述目标句子中的每个字;
基于所述拟人句识别模型和所述目标句子中每个字的内容和位置,确定所述目标句子中每个字的表征向量。


6.根据权利要求3所述的拟人句识别方法,其特征在于,所述基于所述拟人句识别模型,以及所述外部知识库和所述目标句子中每个字对应的上下文向量,确定所述目标句子中每个字对应的外部知识向量,包括:
对于所述目标句子中的每个字:
基于所述拟人句识别模型,从所述外部知识库中获取包含该字的词所对应的类别,组成该字对应的目标类别集合;
基于所述拟人句识别模型,以及所述目标句子中每个字对应的上下文向量和该字对应的目标类别集合,确定该字对应的目标类别集合中每个类别对应的注意力权重;
基于所述拟人句识别模型、所述目标...

【专利技术属性】
技术研发人员:呼啸巩捷甫付瑞吉宋巍王士进胡国平秦兵刘挺
申请(专利权)人:科大讯飞股份有限公司河北省讯飞人工智能研究院中科讯飞互联北京信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1