文本标签的提取方法和装置制造方法及图纸

技术编号:21571523 阅读:29 留言:0更新日期:2019-07-10 15:24
本发明专利技术公开了一种文本标签的提取方法和装置。其中,该方法包括:对待处理的目标文本进行预处理,获得第一关键词集;对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。本发明专利技术解决了文本标签提取准确度低的技术问题。

Extraction Method and Device of Text Label

【技术实现步骤摘要】
文本标签的提取方法和装置
本专利技术涉及计算机领域,具体而言,涉及一种文本标签的提取方法和装置。
技术介绍
在相关技术中,为了向用户推送其所需的文本,往往需要根据文本的标签进行匹配。以新闻文本为例,在向用户推送新闻时,为了满足用户的阅读兴趣,需要根据文本的标签选择用户感兴趣的新闻文本,从而向用户推送相关的新闻文本。这里,文本标签的提取是否准确直接影响了后续的推送文本是否符合用户兴趣。在现有技术中,只是对文本简单的通过词频(TermFrequency,简称TF)的计算每个词的词频,判断各个候选标签的词频是否超过设定的阈值,如果超过阈值,则认为这个候选标签是新闻的标签,否则不是新闻的标签。这样的方法明显忽略了每个候选标签与整篇文章的关系,无法解决候选标签在文本出现次数较少,但对于文本而言很重要应该提取为标签的情况。同时也无法解决部分文本中出现次数较多但不应该提取为标签的情况。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本标签的提取方法和装置,以至少解决文本标签提取准确度低的技术问题。根据本专利技术实施例的一个方面,提供了一种文本标签的提取方法,包括:对待处理的目标文本进行预处理,获得第一关键词集;对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。根据本专利技术实施例的另一方面,还提供了一种文本标签的提取装置,包括:处理模块,用于对待处理的目标文本进行预处理,获得第一关键词集;提取模块,用于对上述第一关键词集中的对象关键词进行特征提取,获得上述对象关键词所对应的特征集;分类模块,用于将上述对象关键词所对应的特征集输入决策树模型,得到与上述对象关键词对应的分类结果,其中,上述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;确定模块,用于根据上述对象关键词的上述分类结果,确定与上述目标文本相匹配的目标标签。在本专利技术实施例中,采用对预处理后的关键词集中的对象关键词进行特征提取,将提取到的特征集输入决策树模型,得到分类结果的方式,通过根据分类结果确定文本的标签,达到了提取文本标签的目的,从而实现了提高文本标签提取准确度的技术效果,进而解决了文本标签提取准确度低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种文本标签的提取方法的硬件环境的示意图;图2是根据本专利技术实施例的一种文本标签的提取方法的示意图;图3是根据本专利技术实施例的另一种文本标签的提取方法的示意图;图4是根据本专利技术实施例的又一种文本标签的提取方法的示意图;图5是根据本专利技术实施例的又一种文本标签的提取方法的示意图;图6是根据本专利技术实施例的一种文本标签的提取方法的应用场景的示意图;图7是根据本专利技术实施例的客户端与服务器的交互示意图;图8是根据本专利技术实施例的又一种文本标签的提取方法的示意图;图9是根据本专利技术实施例的一种文本标签的提取装置的示意图;图10是根据本专利技术实施例的电子装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种文本标签的提取方法,可选地,作为一种可选的实施方式,上述提取方法可以但不限于应用于如图1所示的硬件环境中。为了便于说明,本专利技术实施例中以文本中为新闻文本进行举例说明。假设用户设备102中安装有使用账号登录的新闻客户端,该客户端为用户对象A提供相应的服务。如步骤S102,用户设备102中的显示器108用于呈现上述客户端的界面,处理器106用于获取上述待处理的账号的新闻推送请求。而存储器104用于存储在客户端中执行操作所产生的操作数据。然后,如步骤S102-S104,用户设备102发送新闻推送请求,通过网络110发送给服务器112。服务器112通过处理引擎116调用数据库114中的与新闻文本相匹配的标签和与发送新闻推送请求的目标账号相匹配的兴趣标签,根据新闻的标签和兴趣标签,获得相匹配的新闻,并执行步骤S108向用户设备102发送新闻文本。这里,根据步骤S106,对待处理的目标文本进行预处理,获得第一关键词集;对第一关键词集中的对象关键词进行特征提取,获得对象关键词所对应的特征集;将对象关键词所对应的特征集输入决策树模型,得到与对象关键词对应的分类结果,其中,决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据对象关键词的分类结果,确定与目标文本相匹配的目标标签,从而获得与新闻文本相匹配的标签。可以理解的是,当将新闻文本存储至服务器112的数据库114中时,也就是在服务器112首次获取到新闻时,便可执行步骤S106,获得该新闻的标签,从而便于后续接收到新闻推送请求时,直接根据已获得的标签和用户的兴趣标签进行新闻的匹配和推送。当然理解的是,上述步骤S106也可以由另一用于处理新闻文本的处理服务器执行,处理服务器用于新闻文本的标签提取,并将新闻文本和与新闻文本相匹配的标签存储至服务器112的数据库114中。可选地,上述用户设备102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。此外,在本实施例中,上述文本标签的提取方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述获取、处理、输出等操作集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。可以理解的是,本专利技术实施例的文本标签的提取方法涉及人工智能(ArtificialIntelligence,简称AI)中自然语言处理(NaturalLanguageProcessing简称NLP)领域,本文档来自技高网
...

【技术保护点】
1.一种文本标签的提取方法,其特征在于,包括:对待处理的目标文本进行预处理,获得第一关键词集;对所述第一关键词集中的对象关键词进行特征提取,获得所述对象关键词所对应的特征集;将所述对象关键词所对应的特征集输入决策树模型,得到与所述对象关键词对应的分类结果,其中,所述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据所述对象关键词的所述分类结果,确定与所述目标文本相匹配的目标标签。

【技术特征摘要】
1.一种文本标签的提取方法,其特征在于,包括:对待处理的目标文本进行预处理,获得第一关键词集;对所述第一关键词集中的对象关键词进行特征提取,获得所述对象关键词所对应的特征集;将所述对象关键词所对应的特征集输入决策树模型,得到与所述对象关键词对应的分类结果,其中,所述决策树模型用于根据输入的关键词的特征集,对关键词进行分类;根据所述对象关键词的所述分类结果,确定与所述目标文本相匹配的目标标签。2.根据权利要求1所述的方法,其特征在于,对待处理的目标文本进行预处理,获得第一关键词集的步骤包括:对所述目标文本进行分词处理,获得关键词序列;根据第一关键词表对在所述关键词序列中的连续N个第一关键词进行合并,得到第二关键词集;比对所述第二关键词集和第二关键词表,其中,所述第二关键词表用于过滤所述第二关键词集中的关键词;将所述第二关键词集中未存在于所述第二关键词表中的第二关键词,确定为所述第一关键词集中的所述对象关键词。3.根据权利要求1所述的方法,其特征在于,在所述对象关键词的特征集中包括标题相似度的情况下,对所述第一关键词集中的对象关键词进行特征提取的步骤包括:获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量,其中,所述标题向量根据对所述标题进行分词处理得到的至少一个第一目标词组确定;根据所述标题向量和所述对象关键词的向量,获得所述对象关键词的标题相似度,其中,所述标题相似度用于指示所述对象关键词与所述标题之间的相似度。4.根据权利要求3所述的方法,其特征在于,在所述获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量之前,所述方法还包括:通过对每一个所述第一目标词组的向量进行加权平均,获得所述目标文本的标题向量,其中每一个所述第一目标词组的向量的权重通过关键词提取算法获得。5.根据权利要求1所述的方法,其特征在于,在所述对象关键词的特征集中包括正文相似度的情况下,对所述第一关键词集中的对象关键词进行特征提取的步骤包括:获取所述目标文本的正文向量及所述对象关键词的向量,其中,所述正文向量根据对所述目标文本进行分词处理得到的至少一个第二目标词组确定;根据所述正文向量和所述对象关键词的向量,获得所述对象关键词的正文相似度,其中,所述正文相似度用于指示所述对象关键词与所述目标文本之间的相似度。6.根据权利要求1所述的方法,其特征在于,在所述对待处理的目标文本进行预处理,获得第一关键词集之前,所述方法还包括:获取多个样本文本,其中所述样本文本包括:属于所述样本文本的标签的第一词组和不属于所述样本文本的标签的第二词组,所述第一词组和所述第二词组所对应的特征集已知;根据所述第一词组和所述第二词组所对应的特征集,训练获得初始决策模型;根据所述初始决策模型的损失函数的负梯度,拟合获得第二决策模型;通过对所述第二决策模型的损失函数的负梯度进行迭代拟合,构建所述决策树模型。7.根据权利要求1至6任一项所述的方法,其特征在于,在根据所述对象关键词的所述分类结果,确定与所述目标文本相匹配的目标标签之后,所述方法还包括:将所述目标文本和与所述目标文本相匹配的所述目标标签存储至服务器的数据库中,其中所述服务器用于根据与文本相匹配的标签向目标账...

【专利技术属性】
技术研发人员:邓文超郑茂
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1