短文本分类模型的生成方法、分类方法、装置及存储介质制造方法及图纸

技术编号:20221783 阅读:38 留言:0更新日期:2019-01-28 20:17
本发明专利技术涉及一种短文本分类模型的生成方法、分类方法、装置及存储介质,包括:获取短文本训练集;获得每篇短文本的词集合;获得每个关键词的语义相关的词集合;计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;获得每个关键词的语义扩展的词;将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合内,获得每篇短文本的关键词扩展集合;根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。通过关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了快捷准确地对短文本进行自动分类。

【技术实现步骤摘要】
短文本分类模型的生成方法、分类方法、装置及存储介质
本专利技术涉及信息处理
,特别是涉及一种短文本分类模型的生成方法、分类方法、装置及存储介质。
技术介绍
随着互联网技术的快速发展,网络成为了海量信息的载体,用户创建的短文本也成为了互联网数据的重要来源,其中,用户创建的短文本包括对论坛、留言及回复、咨询、建议及意见反馈、手机短信、网络小纸条、微博、QQ、微信等的聊天或评论信息,这些短文本成为了信息交流和舆论传播的重要手段。短文本的基数非常庞大,且每天都高速增长,数据中包含了人们对社会各种现象的观点和看法,话题涉及广泛,包括政治、经济、娱乐、生活、体育等各个领域。短文本在很多方面都有重要应用,例如跟踪社会热点信息,预测舆论趋势,发现社会热点问题,帮助政府部门把握社会动态,再比如利用商品的售后评论帮助用户快速分析产品的特点。然而,如何将短文本实现自动分类是一项极具挑战性而又迫切需要解决的问题。
技术实现思路
基于此,本专利技术的目的在于,提供一种短文本分类模型的生成方法,其具有可以准确快捷地对短文本进行自动分类的优点。一种短文本分类模型的生成方法,包括如下步骤:获取短文本训练集;所述短本文档来自技高网...

【技术保护点】
1.一种短文本分类模型的生成方法,其特征在于,包括如下步骤:获取短文本训练集;所述短文本训练集中至少包括一个短文本;对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;获取每篇短文本的词集合中每个词的词频‑逆文档频率值,并根据所述词频‑逆文档频率值获得每篇短文本的关键词集合;根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;根据所述相关度和相似度,获得每个关键词的语义扩展的词;将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每...

【技术特征摘要】
1.一种短文本分类模型的生成方法,其特征在于,包括如下步骤:获取短文本训练集;所述短文本训练集中至少包括一个短文本;对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;根据所述相关度和相似度,获得每个关键词的语义扩展的词;将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。2.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述对对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合之后,还包括步骤:统计每篇短文本的词集合中每个词的词频数量,并删除每篇短文本的词集合中出现次数少于第一设定阈值的词;和/或,删除每篇短文本的词集合中的停用词。3.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据所述词频-逆文档频率值,获得每篇短文本的关键词集合的步骤,包括:将每篇短文本的词集合中各词的词频-逆文档频率值进行降序排序,并获取排序在第二设定阈值前的词,作为每篇短文本的关键词集合。4.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合的步骤,包括:将每篇短文本的关键词集合的每个关键词分别输入到维基百科中,获取在所述关键词的页面出链和页面入链都包括的词,作为所述关键词的语义相关的词集合。5.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据所述相关度和相似度,获得每个关键词的扩展的语义词的步骤,包括:根据所述相关度和相似度,获得每个关键词和所述关键词的语义相关的词集合中每个词的紧密程度;在所述紧密程度达到第三设定阈值时,则将语义相关的词作为所述关键词的扩展的语义词。6.一种短文本分类模型的生成装置,其特征在于,包括:训练集获取模块,用于获取短文本训练集;所述短文本训练集中至少包括一个短文本;训练集分词模块,用于对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;训练集的关键词获取模块,用于获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;训练集的语义相关词集合获取模块,用于根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;训练集的相关度和相似度获取模块,用于将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和...

【专利技术属性】
技术研发人员:蒋运承李超马文俊刘宇东詹捷宇毛舜郑航黄光健韦丽娜
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1