用于增强已标注样本的方法和设备技术

技术编号:23765907 阅读:39 留言:0更新日期:2020-04-11 19:49
本文描述了一种用于增强已标注样本的方法和设备。所述方法包括:从用于训练语义匹配模型的已标注样本的集合中选择待增强样本,已标注样本包括第一查询条目、第一文档以及第一标签,第一标签表示所述第一查询条目与第一文档的相关程度;对第一查询条目进行分词处理,以得到多个词;基于所述多个词对第一文档中的至少一个词进行替换以生成第二文档;确定第二文档的语言得分,并且基于所述语言得分确定表示第一查询条目与第二文档的相关程度的第二标签;生成增强后的已标注样本,其包括所述第一查询条目、第二文档以及第二标签。

Methods and devices for enhancing labeled samples

【技术实现步骤摘要】
用于增强已标注样本的方法和设备
本公开涉及自然语言处理的
,具体地涉及用于增强已标注样本的方法和设备。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常被使用在语义匹配模型中。语义匹配模型有着广泛的使用,例如被使用在搜索引擎、智能问答、知识检索、信息流推荐等系统中。作为示例,当用户在搜索引擎中输入查询条目时,通过后台搜索引擎会返回与该查询条目语义匹配相关性较高的一系列文档,并按从语义匹配模型得到的语义匹配分数进行排序。语义匹配模型大多是基于机器学习模型来构建的,并且需要进行大量训练才能高效使用。要训练该机器学习模型往往需要人工标注大量的训练数据,但是人工标注训练数据成本高且效率低。然而,如果标注的训练数据不够,会导致本文档来自技高网...

【技术保护点】
1.一种用于增强已标注样本的方法,包括:/n从用于训练语义匹配模型的已标注样本的集合中选择待增强样本,所述已标注样本包括第一查询条目、第一文档以及第一标签,所述第一标签表示所述第一查询条目与第一文档的相关程度;/n对所述待增强样本中的第一查询条目进行分词处理,以得到多个词;/n基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档;/n确定所生成的第二文档的语言得分,并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签,所述语言得分表示第二文档符合语言习惯的程度;/n生成增强后的已标注样本,所述增强后的已标注样本包括所述第一查询条目、所述第二文档以...

【技术特征摘要】
1.一种用于增强已标注样本的方法,包括:
从用于训练语义匹配模型的已标注样本的集合中选择待增强样本,所述已标注样本包括第一查询条目、第一文档以及第一标签,所述第一标签表示所述第一查询条目与第一文档的相关程度;
对所述待增强样本中的第一查询条目进行分词处理,以得到多个词;
基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换以生成第二文档;
确定所生成的第二文档的语言得分,并且基于所述语言得分确定表示所述第一查询条目与第二文档的相关程度的第二标签,所述语言得分表示第二文档符合语言习惯的程度;
生成增强后的已标注样本,所述增强后的已标注样本包括所述第一查询条目、所述第二文档以及第二标签。


2.根据权利要求1所述的方法,其中,从用于训练语义匹配模型的已标注样本的集合中选择待增强样本,包括:
从所述已标注样本的集合中选择包括的第一标签所表示的相关程度大于相关程度阈值的已标注样本作为待增强样本。


3.根据权利要求1所述的方法,其中,基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换,包括:
确定所述多个词中的重要词;
对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换。


4.根据权利要求3所述的方法,其中,确定所述多个词中的重要词包括:
确定所述多个词中每个词的逆文档频率;
将其逆文档频率大于逆文档频率阈值的词确定为重要词。


5.根据权利要求3所述的方法,其中,确定所述多个词中的重要词包括:
确定所述多个词中每个词的逆文档频率和词性;
将其逆文档频率大于逆文档频率阈值、且其词性与预定词性相同的词划分为重要词。


6.根据权利要求3所述的方法,其中,对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换,包括
对所述待增强样本中的第一文档中与查询条目相同的部分所包括的与所述重要词不同的至少一个词进行替换。


7.根据权利要求3或6所述的方法,其中,对所述待增强样本中的第一文档中与所述重要词不同的至少一个词进行替换,包括:
使用不同于所述重要词中的任一个的替换词对所述与所述重要词不同的至少一个词进行替换。


8.根据权利要求1所述的方法,其中,基于所述多个词对所述待增强样本中的第一文档中的至少一个词进行替换,包括:...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1