一种基于弱监督学习的时间知识模糊测度方法及系统技术方案

技术编号:24889412 阅读:24 留言:0更新日期:2020-07-14 18:16
本发明专利技术提供一种基于弱监督学习的时间知识模糊测度方法及系统,包括有:基于弱监督学习自定义叙事识别规则,生成包含时间知识的样本;按照包含时间知识的样本对神经网络进行深度学习训练;通过深度学习训练后的神经网络获取情节事件中句子中的时间知识,计算情节事件中句子中的时间知识的模糊度。本发明专利技术建立了一种弱监督的方法,可以从大型文本语料库中识别并提取出叙事段落中的时间知识,依托本方法实现叙事段落中时间知识的计算并实现先后排序,通过此类时间知识可以改善时空关系分类,提升在叙述性交互式服务任务方面的性能。

【技术实现步骤摘要】
一种基于弱监督学习的时间知识模糊测度方法及系统
本专利技术涉及自然语言
,特别是涉及一种基于弱监督学习的时间知识模糊测度方法及系统。
技术介绍
叙事文本具有双重时间性,可以从这些叙述段落中提取出丰富的时间知识,其中,双重时间性指出叙事故事通常按照时间顺序描述一系列事件,而目前的自然语言不能获取叙事故事中句子之间的丰富的时间“事前/事后”事件知识,因此,我们提出了一种基于弱监督学习的时间知识模糊测度方法及系统,来获取叙事故事中句子之间丰富的时间“事前/事后”事件知识。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于弱监督学习的时间知识模糊测度方法及系统,用于解决现有技术中存在的技术问题。为实现上述目的及其他相关目的,本专利技术提供一种基于弱监督学习的时间知识模糊测度方法,包括有:基于弱监督学习自定义叙事识别规则,生成包含时间知识的样本;按照所述包含时间知识的样本对神经网络进行深度学习训练;通过深度学习训练后的神经网络获取情节事件中句子中的时间知识,计算所述情节事件中句子中的时间知识的模糊度。可选地,自定义叙事识别规则为Rn,情节事件中的句子为Sm,其中n,m为正整数;在某一自定义叙事识别规则中,根据句法和统计规则获取某一句子Si中的时间知识与另一句子Sj中的时间知识之间的比较关系R;若R(Si,Sj)=1,则所述某一句子Si发生的物理时间早于所述另一句子Sj发生的物理时间,即T(Si)>T(Sj);>若R(Si,Sj)=0,则所述某一句子Si发生的物理时间与所述另一句子Sj发生的物理时间相同,即T(Si)>T(Sj);若R(Si,Sj)=-1,则所述某一句子Si发生的物理时间晚于所述另一句子Sj发生的物理时间,即T(Si)<T(Sj);将R(Si,Sj)构成的样本代入深度神经网络中进行学习训练,获取训练后的R(Si,Sj);根据训练后的R(Si,Sj)计算模糊度,有:其中,k为正整数,i<m,j<m。可选地,所述弱监督包括:获取种子叙事文本,通过预先训练的统计分类器从种子叙事文本中获取新的叙事;将所述新的叙事补充至种子叙事文本中,引导统计分类器学习过程的迭代,直至没有新的叙事出现。可选地,所述统计分类器的预先训练包括:确定种子叙事文本中的叙事段落以及非叙事段落;将所述叙事段落作为正例、非叙事段落作为反例,通过所述正例和反例对统计分类器进行训练。可选地,若所述自定义叙事识别规则为文本规则;从所述种子叙事文本中获取POS标签、解析树、命名实体、共指链;所述种子叙事文本包括新闻、小说、博客;根据所述POS标签、解析树、命名实体、公指链将所述统计分类器从第一置信度分值训练至第二置信度分值。可选地,若所述自定义叙事识别规则为语法规则,则所述语法规则至少包括语法结构、标题句式、文本句式、句子字符;所述语法结构包括有由连词、副词短语、介词短语的基本结构衍生形成的语法结构。可选地,若所述自定义叙事识别规则为角色规则,将事件链提及的数量除以叙事段落中的句子数量,计算出此事件链的标准化长度。可选地,获取事件中排名前n个事件链长度,基于深度学习后的叙事识别规则和事件链长度对候选事件进行排名,获取特定时间出现的概率。本专利技术还提供一种基于弱监督学习的时间知识模糊测度系统,包括:样本模块,用于基于弱监督学习自定义叙事识别规则,生成包含时间知识的样本;学习训练模块,用于按照所述包含时间知识的样本对神经网络进行深度学习训练;计算模块,用于通过深度学习训练后的神经网络获取情节事件中句子中的时间知识,计算所述情节事件中句子中的时间知识的模糊度。可选地,自定义叙事识别规则为Rn,情节事件中的句子为Sm,其中n,m为正整数;在某一自定义叙事识别规则中,根据句法和统计规则获取某一句子Si中的时间知识与另一句子Sj中的时间知识之间的比较关系R;若R(Si,Sj)=1,则所述某一句子Si发生的物理时间早于所述另一句子Sj发生的物理时间,即T(Si)>T(Sj);若R(Si,Sj)=0,则所述某一句子Si发生的物理时间与所述另一句子Sj发生的物理时间相同,即T(Si)>T(Sj);若R(Si,Sj)=-1,则所述某一句子Si发生的物理时间晚于所述另一句子Sj发生的物理时间,即T(Si)<T(Sj);将R(Si,Sj)构成的样本代入深度神经网络中进行学习训练,获取训练后的R(Si,Sj);根据训练后的R(Si,Sj)计算模糊度,有:其中,k为正整数,i<m,j<m。如上所述,本专利技术提供一种基于弱监督学习的时间知识模糊测度方法及系统,具有以下有益效果:基于弱监督学习自定义叙事识别规则,生成包含时间知识的样本;按照所述包含时间知识的样本对神经网络进行深度学习训练;通过深度学习训练后的神经网络获取情节事件中句子中的时间知识,计算所述情节事件中句子中的时间知识的模糊度。本专利技术建立了一种弱监督的方法,该方法可以从大型文本语料库中识别并提取出叙事段落中的时间知识,依托本方法实现叙事段落中时间知识的计算并实现先后排序,通过此类时间知识可以改善时空关系分类,提升在叙述性交互式服务任务方面的性能。附图说明图1为基于弱监督学习的时间知识模糊测度方法流程示意图;图2为基于弱监督学习的时间知识模糊测度系统硬件结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。请参阅图1和图2。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本专利技术可实施的范围,其相对关系的改变或调整,在无实质变更
技术实现思路
下,当亦视为本专利技术可实施的范畴。请参阅图1,本实施例提供一种基于弱监督学习的时间知识模糊测度方法,包括以下步骤:本文档来自技高网...

【技术保护点】
1.一种基于弱监督学习的时间知识模糊测度方法,其特征在于,包括以下步骤:/n基于弱监督学习自定义叙事识别规则,生成包含时间知识的样本;/n按照所述包含时间知识的样本对神经网络进行深度学习训练;/n通过深度学习训练后的神经网络获取情节事件中句子中的时间知识,计算所述情节事件中句子中的时间知识的模糊度。/n

【技术特征摘要】
1.一种基于弱监督学习的时间知识模糊测度方法,其特征在于,包括以下步骤:
基于弱监督学习自定义叙事识别规则,生成包含时间知识的样本;
按照所述包含时间知识的样本对神经网络进行深度学习训练;
通过深度学习训练后的神经网络获取情节事件中句子中的时间知识,计算所述情节事件中句子中的时间知识的模糊度。


2.根据权利要求1所述的基于弱监督学习的时间知识模糊测度方法,其特征在于,自定义叙事识别规则为Rn,情节事件中的句子为Sm,其中n,m为正整数;
在某一自定义叙事识别规则中,根据句法和统计规则获取某一句子Si中的时间知识与另一句子Sj中的时间知识之间的比较关系R;
若R(Si,Sj)=1,则所述某一句子Si发生的物理时间早于所述另一句子Sj发生的物理时间,即T(Si)>T(Sj);
若R(Si,Sj)=0,则所述某一句子Si发生的物理时间与所述另一句子Sj发生的物理时间相同,即T(Si)>T(Sj);
若R(Si,Sj)=-1,则所述某一句子Si发生的物理时间晚于所述另一句子Sj发生的物理时间,即T(Si)<T(Sj);
将R(Si,Sj)构成的样本代入深度神经网络中进行学习训练,获取训练后的R(Si,Sj);
根据训练后的R(Si,Sj)计算模糊度,有:其中,k为正整数,i<m,j<m。


3.根据权利要求1所述的基于弱监督学习的时间知识模糊测度方法,其特征在于,所述弱监督包括:
获取种子叙事文本,通过预先训练的统计分类器从种子叙事文本中获取新的叙事;
将所述新的叙事补充至种子叙事文本中,引导统计分类器学习过程的迭代,直至没有新的叙事出现。


4.根据权利要求3所述的基于弱监督学习的时间知识模糊测度方法,其特征在于:所述统计分类器的预先训练包括:
确定种子叙事文本中的叙事段落以及非叙事段落;
将所述叙事段落作为正例、非叙事段落作为反例,通过所述正例和反例对统计分类器进行训练。


5.根据权利要求3或4所述的基于弱监督学习的时间知识模糊测度方法,其特征在于:若所述自定义叙事识别规则为文本规则;
从所述种子叙事文本中获取POS标签、解析树、命名实体、共指链;所述种子叙事文本包括新闻、小说、博客;
根据所述POS标签、解...

【专利技术属性】
技术研发人员:彭德光孙健
申请(专利权)人:重庆兆光科技股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1