一种词条权重计算模型训练方法及装置制造方法及图纸

技术编号:19691976 阅读:20 留言:0更新日期:2018-12-08 11:13
本申请公开了一种词条权重计算模型训练方法及装置,该方法对获取的样本语句集合中的每条样本语句进行拆分得到每条样本语句各自对应的词条序列,词条序列包括样本语句拆分后得到的至少一个词条;确定每条词条序列中每个词条的相对重要程度;根据每条词条序列中每个词条的相对重要程度对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,其包括词条序列中的词条分组后得到的至少一个词条组,词条组包括至少一个词条;根据每条标注序列对预设的词条权重计算模型进行训练,得到词条权重计算模型中模型参数的取值。上述基于每条词条序列中的每个词条的相对重要程度得到的标注序列更为准确,提高了词条权重计算模型的准确性。

【技术实现步骤摘要】
一种词条权重计算模型训练方法及装置
本申请涉及数据处理
,更具体地说,涉及一种词条权重计算模型训练方法及装置。
技术介绍
词条权重计算是一项重要的自然语言处理工作,其计算的准确性直接影响关键词抽取、标签提取、搜索排序等的性能。其中词条权重计算可通过词条权重计算模型,目前词条权重计算模型可通过监督学习方法得到,在得到词条权重计算模型过程中,需要对词条权重计算模型使用的样本语句进行标注,其标注过程如下:首先,将词条权重分为若干个级别即确定权重级别个数,然后对样本语句对应的词条序列中的每个词条进行权重级别标注,如按照5个权重级别对词条进行标注,词条的最低权重级别为level1级别,最高权重级别为level5级别,进而基于标注的词条的权重级别和词条的特征向量训练词条权重计算模型。上述方法中,设置权重级别个数相当于是利用分类的方法计算词条权重,但分类方法确定的是词条的绝对重要级别,即是在所有样本语句内确定词条的重要性高低,标注的准确性较低,导致训练得到的词条权重计算模型不准确。
技术实现思路
有鉴于此,本申请提供一种词条权重计算模型训练方法及装置,以提高词条权重计算模型的准确性。为了实现上述目的,现提出的方案如下:一种词条权重计算模型训练方法,所述方法包括:获取样本语句集合;对所述样本语句集合中的每条样本语句进行拆分,得到每条样本语句各自对应的词条序列,所述词条序列包括所述样本语句拆分后得到的至少一个词条;确定每条词条序列中每个词条的相对重要程度;根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条;根据每条标注序列,对预设的词条权重计算模型进行训练,得到所述词条权重计算模型中模型参数的取值。一种词条权重计算模型训练装置,所述装置包括:获取单元,用于获取样本语句集合;拆分单元,用于对所述样本语句集合中的每条样本语句进行拆分,得到每条样本语句各自对应的词条序列,所述词条序列包括所述样本语句拆分后得到的至少一个词条;确定单元,用于确定每条词条序列中每个词条的相对重要程度;分组单元,用于根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条;训练单元,用于根据每条标注序列,对预设的词条权重计算模型进行训练,得到所述词条权重计算模型中模型参数的取值。从上述的技术方案可以看出,本申请中对样本语句集合中的每条样本语句进行拆分,得到该样本语句各种对应的词条序列,所述词条序列包括所述样本语句拆分后得到的至少一个词条;确定每条词条序列中的每个词条的相对重要程度,根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条;可见,该标注序列是基于各个词条在该词条序列中的相对重要程度得到的,相较于现有技术中的直接标注词条的绝对权重级别,本专利技术不再标注绝对权重级别,而是确定各个词条在同一词条序列中的相对重要程度,并基于该相对重要程度确定标注序列,由于针对特定的同一词条序列来说,不同词条之间的相对重要程度是比较固定的,所以本申请上述标注方式得到的标注数据即标注序列较为准确,进而基于标注序列训练得到的词条权重计算模型也更为准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种词条权重计算模型训练方法的流程图;图2为本申请另一实施例公开的一种词条权重计算模型训练方法的流程图;图3为本申请实施例公开的一种基于pair-wise算法训练词条权重计算模型的流程图;图4为本申请实施例公开的一种词条权重计算模型训练装置的结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供一种词条权重计算模型训练方法,如图1所示,该方法包括:S100、获取样本语句集合;其中,样本语句集合中的样本语句为搜索引擎中用户的搜索查询语句,用于视频播放器中的视频搜索词,视频浏览或新闻浏览时的视频标题、新闻标题。例如视频标题为“大学老师毕业致辞走红:男同学丈母娘都会游泳”,“泰国曼谷发生爆炸,天降耀眼火球”的样本语句。S101、对样本语句集合中的每条样本语句进行拆分,得到每条样本语句各种对应的词条序列,词条序列包括样本语句拆分后得到的至少一个词条;其中,对每条样本语句进行词条拆分,具体的,按照获取的样本语句中包含的空格等标点符号分开得到的词或字;和/或使用分词程序对字符串拆分得到词或字。如,对“泰国曼谷发生爆炸,天降耀眼火球”进行词条拆分,得到的词条序列为:“泰国”、“曼谷”、“发生”、“爆炸”、“天”、“降”、“耀眼”、“火球”。S102、确定每条词条序列中每个词条的相对重要程度;继续利用上述例句,在该词条序列:“泰国”、“曼谷”、“发生”、“爆炸”、“天”、“降”、“耀眼”、“火球”中,标注人员依据客观标准,如通常认为剧名,专有名词,人名,名词的重要性较高等标准,对各个词条进行比较,并通过标注人员输入的每个词条在该词条序列中的相对重要程度,确定每个词条在该词条序列中的相对重要程度,其中,相对重要程度最高的词条为“爆炸”,次之为“泰国”和“曼谷”,再次之为“火球”,相对重要程度最低的为“发生”、“天”、“降”和“耀眼”。具体的,标注人员可以使用相对重要程度标识如1,2,3等,标注每个词条的相对重要程度。或者,从该词条中确定出关键词条,并标注每个关键词条的相对重要程度,例如将上述例句中的“泰国”、“曼谷”、“爆炸”和“火球”作为关键词进行后续处理。S103、根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条;S104、根据每条标注序列,对预设的词条权重计算模型进行训练,得到词条权重计算模型中模型参数的取值。具体的,词条权重计算模型可为线性模型:weight(q)=w0+∑(wjφj(q)),其中,q表示词条,weight(q)表示词条权重,w0为偏置项,φj为词条的第j个特征值,wj为词条的第j个特征值对应的权重系数,所述w0和wj为词条权重计算模型中的参数。其中,采用常规的learningtorank(LTR,机器学习排序算法)对上述线性模型进行训练。上述实施例,对样本语句集合中的每条样本语句进行拆分,得到本文档来自技高网...

【技术保护点】
1.一种词条权重计算模型训练方法,其特征在于,所述方法包括:获取样本语句集合;对所述样本语句集合中的每条样本语句进行拆分,得到每条样本语句各自对应的词条序列,所述词条序列包括所述样本语句拆分后得到的至少一个词条;确定每条词条序列中每个词条的相对重要程度;根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条;根据每条标注序列,对预设的词条权重计算模型进行训练,得到所述词条权重计算模型中模型参数的取值。

【技术特征摘要】
1.一种词条权重计算模型训练方法,其特征在于,所述方法包括:获取样本语句集合;对所述样本语句集合中的每条样本语句进行拆分,得到每条样本语句各自对应的词条序列,所述词条序列包括所述样本语句拆分后得到的至少一个词条;确定每条词条序列中每个词条的相对重要程度;根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条;根据每条标注序列,对预设的词条权重计算模型进行训练,得到所述词条权重计算模型中模型参数的取值。2.根据权利要求1所述的方法,其特征在于,所述根据每条词条序列中每个词条的相对重要程度,对每条词条序列中的词条进行分组,得到每条词条序列各自对应的标注序列包括:对每条词条序列中的任一词条:根据该词条序列中该词条的相对重要程度,从该词条序列中获取与该词条的相对重要程度匹配的词条,并将该词条和所获取的词条存储在同一个词条组中;根据每条词条序列中的所述词条组,得到每条词条序列各自对应的标注序列,所述标注序列包括所述词条序列中的词条分组后得到的至少一个词条组,所述词条组包括至少一个词条。3.根据权利要求2所述的方法,其特征在于,所述根据每条词条序列中的所述词条组,得到每条词条序列各自对应的标注序列包括:对每条词条序列中的所有词条组:按照词条组中词条的相对重要程度进行排序,将排序后形成的序列作为该词条序列对应的标注序列。4.根据权利要求1所述的方法,其特征在于,所述根据每条词条序列各自对应的标注序列,对预设的词条权重计算模型进行训练,得到所述词条权重计算模型中模型参数的取值包括:基于该标注序列中的每两个词条组,生成词条对,所述词条对中的两个词条的相对重要程度不同并按照预定顺序排列;获取每个词条对中每个词条的特征向量;根据每个词条对中每个词条的特征向量,生成第一训练样本集合和第二训练样本集合;根据所述第一训练样本集合和第二训练样本集合,对所述词条权重计算模...

【专利技术属性】
技术研发人员:王亮
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1