当前位置: 首页 > 专利查询>清华大学专利>正文

文本语句处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:26377598 阅读:26 留言:0更新日期:2020-11-19 23:46
本申请涉及一种文本语句处理方法、装置、计算机设备和存储介质,包括:获取含实体对和实体对的关系标签的样本文本语句;根据关系标签从样本文本语句中提取正例语句对和负例语句对,并进行正负例采样处理,获得训练集;将训练集输入至待训练的关系抽取模型,生成包括对比损失值的损失值;对比损失值用于表征正例语句对中语句的相似度与负例语句对中语句的相似度之间的差异;根据损失值调整关系抽取模型的参数,并返回根据关系标签从样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型;关系抽取模型用于识别文本语句中实体对的实体关系。采用本方法能够有效提高实体关系抽取的准确性。

【技术实现步骤摘要】
文本语句处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种文本语句处理方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的迅速发展,自然语言处理技术逐渐成熟。其中,关系抽取是一个重要的自然语言处理任务,旨在从大规模的原始文本中抽取结构化的信息,以供问答系统、对话系统、推荐系统、搜索引擎等使用。随着神经网络模型的发展,出现了越来越多的基于特征工程的关系抽取方式。目前的关系抽取方式中通常依赖于特征工程,大多的关系抽取模型都采用实体的词向量作为关系抽取的主要特征,在进行关系抽取时,会一定程度过拟合到实体名称。这在构造特征的过程中容易造成误差累积,阻碍系统性能,导致自然语言处理任务中实体关系抽取的准确性不高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够有效提高自然语言处理任务中实体的关系抽取的准确性的文本语句处理方法、装置、计算机设备和存储介质。一种文本语句处理方法,所述方法包括:获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;根本文档来自技高网...

【技术保护点】
1.一种文本语句处理方法,其特征在于,所述方法包括:/n获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;/n根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,并对所述正例语句对和所述负例语句对进行正负例采样处理,获得训练集;/n将所述训练集输入至待训练的关系抽取模型,生成损失值;所述损失值中包括对比损失值;所述对比损失值,用于表征所述正例语句对中语句的相似度与所述负例语句对中语句的相似度之间的差异;/n根据所述损失值调整所述关系抽取模型的参数,并返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得...

【技术特征摘要】
1.一种文本语句处理方法,其特征在于,所述方法包括:
获取样本文本语句;所述样本文本语句含实体对和所述实体对的关系标签;
根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,并对所述正例语句对和所述负例语句对进行正负例采样处理,获得训练集;
将所述训练集输入至待训练的关系抽取模型,生成损失值;所述损失值中包括对比损失值;所述对比损失值,用于表征所述正例语句对中语句的相似度与所述负例语句对中语句的相似度之间的差异;
根据所述损失值调整所述关系抽取模型的参数,并返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤,以进行迭代训练,直至满足训练停止条件,得到关系抽取模型;所述关系抽取模型,用于识别文本语句中实体对的实体关系。


2.根据权利要求1所述的方法,其特征在于,所述实体对包括头实体和尾实体;所述获取样本文本语句包括:
获取初始样本文本语句;
按照预设概率值,从所述初始样本文本语句的实体对中选取头实体或尾实体;
将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。


3.根据权利要求1所述的方法,其特征在于,在所述根据所述损失值调整所述关系抽取模型的参数之后,且在所述返回所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对的步骤的之前,还包括:
按照预设概率值,从所述样本文本语句的实体对中选取头实体或尾实体;
将选取的头实体或尾实体替换为预设字符,获得实体遮蔽后的样本文本语句。


4.根据权利要求1所述的方法,其特征在于,所述根据所述关系标签从所述样本文本语句中提取正例语句对和负例语句对,包括:
根据所述关系标签相同的样本文本语句,生成样本语句包;
将所述样本语句包中的任意两个样本文本语句进行组合,获得正例语句对;
将所述关系标签不同的任意两个样本文本语句进行组合,获得负例语句对。


5.根据权利要求1所述的方法,其特征在于,所述对所述正例语句对和所述负例语句对进行正负例采样处理,获得训练集,包括:
按照预设的正负例采样比值,对所述正例语句对和所述负例语句对进行采样抽取;
根据采样抽取的正例语句对和负例语句对,生成训练集。


6.根据权利要求1所述的方法,其特征在于,所述将所述训练集输入至待训练的关系抽取模型,生成损失值,包括:
将所述训练集输入至待训练的关系抽取模型,提取所述训练集中各所述样本文本语句的语义关系特征;
根据各所述样本文本语句的语义关系特征,确定所述正例语句对中语句的相似度、以及所述负例语句对中语句的相似度;
根据所述正例语句对中语句的相似度和所述负例语句对中语句的相似度,确定对比损失值,并根据所述对比损失值生成所述损失值。


7.根据权利要求6所述的方法,其特征在于,所述提取所述训练集中各所述样本文本语句的语义关系特征,包括:
通过所述关系抽取模型,提取所述训练集中各所述样本文本语句的上下文语义特征和实体关联特征;
将所述上下文语义特征和所述实体关联特征进行特征拼接,得到拼接后的联合特征;
根据所述拼接后的联合特征,获得各所述样本文本语句的语...

【专利技术属性】
技术研发人员:刘知远彭皓高天宇韩旭林衍凯李鹏孙茂松周杰
申请(专利权)人:清华大学腾讯科技深圳有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1