文本标签的提取方法和装置制造方法及图纸

技术编号：21571523 阅读：29 留言：0更新日期：2019-07-10 15:24

本发明专利技术公开了一种文本标签的提取方法和装置。其中，该方法包括：对待处理的目标文本进行预处理，获得第一关键词集；对上述第一关键词集中的对象关键词进行特征提取，获得上述对象关键词所对应的特征集；将上述对象关键词所对应的特征集输入决策树模型，得到与上述对象关键词对应的分类结果，其中，上述决策树模型用于根据输入的关键词的特征集，对关键词进行分类；根据上述对象关键词的上述分类结果，确定与上述目标文本相匹配的目标标签。本发明专利技术解决了文本标签提取准确度低的技术问题。

Extraction Method and Device of Text Label

全部详细技术资料下载

【技术实现步骤摘要】
文本标签的提取方法和装置
本专利技术涉及计算机领域，具体而言，涉及一种文本标签的提取方法和装置。
技术介绍
在相关技术中，为了向用户推送其所需的文本，往往需要根据文本的标签进行匹配。以新闻文本为例，在向用户推送新闻时，为了满足用户的阅读兴趣，需要根据文本的标签选择用户感兴趣的新闻文本，从而向用户推送相关的新闻文本。这里，文本标签的提取是否准确直接影响了后续的推送文本是否符合用户兴趣。在现有技术中，只是对文本简单的通过词频(TermFrequency，简称TF)的计算每个词的词频，判断各个候选标签的词频是否超过设定的阈值，如果超过阈值，则认为这个候选标签是新闻的标签，否则不是新闻的标签。这样的方法明显忽略了每个候选标签与整篇文章的关系，无法解决候选标签在文本出现次数较少，但对于文本而言很重要应该提取为标签的情况。同时也无法解决部分文本中出现次数较多但不应该提取为标签的情况。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本标签的提取方法和装置，以至少解决文本标签提取准确度低的技术问题。根据本专利技术实施例的一个方面，提供了一种文本标签的提取方法，包括：对待处理的目标文本进行预处理，获得第一关键词集；对上述第一关键词集中的对象关键词进行特征提取，获得上述对象关键词所对应的特征集；将上述对象关键词所对应的特征集输入决策树模型，得到与上述对象关键词对应的分类结果，其中，上述决策树模型用于根据输入的关键词的特征集，对关键词进行分类；根据上述对象关键词的上述分类结果，确定与上述目标文本相匹配的目标标签。根据本专利技术实施例的另一方面...

【技术保护点】
1.一种文本标签的提取方法，其特征在于，包括：对待处理的目标文本进行预处理，获得第一关键词集；对所述第一关键词集中的对象关键词进行特征提取，获得所述对象关键词所对应的特征集；将所述对象关键词所对应的特征集输入决策树模型，得到与所述对象关键词对应的分类结果，其中，所述决策树模型用于根据输入的关键词的特征集，对关键词进行分类；根据所述对象关键词的所述分类结果，确定与所述目标文本相匹配的目标标签。

【技术特征摘要】
1.一种文本标签的提取方法，其特征在于，包括：对待处理的目标文本进行预处理，获得第一关键词集；对所述第一关键词集中的对象关键词进行特征提取，获得所述对象关键词所对应的特征集；将所述对象关键词所对应的特征集输入决策树模型，得到与所述对象关键词对应的分类结果，其中，所述决策树模型用于根据输入的关键词的特征集，对关键词进行分类；根据所述对象关键词的所述分类结果，确定与所述目标文本相匹配的目标标签。2.根据权利要求1所述的方法，其特征在于，对待处理的目标文本进行预处理，获得第一关键词集的步骤包括：对所述目标文本进行分词处理，获得关键词序列；根据第一关键词表对在所述关键词序列中的连续N个第一关键词进行合并，得到第二关键词集；比对所述第二关键词集和第二关键词表，其中，所述第二关键词表用于过滤所述第二关键词集中的关键词；将所述第二关键词集中未存在于所述第二关键词表中的第二关键词，确定为所述第一关键词集中的所述对象关键词。3.根据权利要求1所述的方法，其特征在于，在所述对象关键词的特征集中包括标题相似度的情况下，对所述第一关键词集中的对象关键词进行特征提取的步骤包括：获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量，其中，所述标题向量根据对所述标题进行分词处理得到的至少一个第一目标词组确定；根据所述标题向量和所述对象关键词的向量，获得所述对象关键词的标题相似度，其中，所述标题相似度用于指示所述对象关键词与所述标题之间的相似度。4.根据权利要求3所述的方法，其特征在于，在所述获取所述目标文本所对应的标题的标题向量及所述对象关键词的向量之前，所述方法还包括：通过对每一个所述第一目标词组的向量进行加权平均，获得所述目标文本的标题向量，其中每一个所述第一目标词组的向量的权重通过关键词提取算法获得。5.根据权利要求1所述的方法，其特征在于，在所述对象关键词的特征集中包括正文相似度的情况下，对所述第一关键词集中的对象关键词进行特征提取的步骤包括：获取所述目标文本的正文向量及所述对象关键词的向量，其中，所述正文向量根据对所述目标文本进行分词处理得到的至少一个第二目标词组确定；根据所述正文向量和所述对象关键词的向量，获得所述对象关键词的正文相似度，其中，所述正文相似度用于指示所述对象关键词与所述目标文本之间的相似度。6.根据权利要求1所述的方法，其特征在于，在所述对待处理的目标文本进行预处理，获得第一关键词集之前，所述方法还包括：获取多个样本文本，其中所述样本文本包括：属于所述样本文本的标签的第一词组和不属于所述样本文本的标签的第二词组，所述第一词组和所述第二词组所对应的特征集已知；根据所述第一词组和所述第二词组所对应的特征集，训练获得初始决策模型；根据所述初始决策模型的损失函数的负梯度，拟合获得第二决策模型；通过对所述第二决策模型的损失函数的负梯度进行迭代拟合，构建所述决策树模型。7.根据权利要求1至6任一项所述的方法，其特征在于，在根据所述对象关键词的所述分类结果，确定与所述目标文本相匹配的目标标签之后，所述方法还包括：将所述目标文本和与所述目标文本相匹配的所述目标标签存储至服务器的数据库中，其中所述服务器用于根据与文本相匹配的标签向目标账...

【专利技术属性】
技术研发人员：邓文超，郑茂，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人