基于短文本聚类技术的标签抽取方法技术

技术编号:24888867 阅读:46 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种基于短文本聚类的标签抽取方法,包括:S1、提取并获得短文本的所有有用词汇;S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度;S3、假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;S4、对S3中形成的各簇进行第一次修剪;S5、对第一次修剪后的所有簇进行合并操作;S6、对S5合并完的各簇进行第二次修剪;S7、提取第二次修剪后的各个簇的簇心作为各簇标签。其在短文本聚类的同时生成可以代表所有类别短文本含义的具有完整意义的标签,解决了现有聚类技术依赖中心点选取和现有标签抽取技术语义不完善以及不符合逻辑等的问题。

【技术实现步骤摘要】
基于短文本聚类技术的标签抽取方法
本专利技术涉及信息处理
,尤其涉及一种基于短文本聚类的标签抽取方法。
技术介绍
随着互联网和信息技术的发展各种网络信息呈现指数增长的趋势,尤其是微博等网络平台的兴起让短文本信息再次爆炸式增长。短文本数据信息稀少但却重点鲜明,无法被当成垃圾信息剔除。如何从大量短文本数据中获取有效的信息,这就需要一种有效的方法提升对短文本的聚类和热点发现的效果。目前网上很多平台对于标签的规划都采用人工的方式,不仅费时费力而且还有很大的局限性,例如,人工自定义出来的标签覆盖范围有限,只能包含固定含义的文本,若出现新含义的文本则需要重新人工定义标签。而在文本标签自动生成领域,主流的文本标签推荐方法是文本关键词抽取方法,其基本方法是假设标签为文本中的关键词,即将标签以关键词的方式抽取出来,优点很明显,替代了人工,节省时间,方便处理大批量数据。但是缺点也不可忽略,首先,分词可能出现误分等情况,即容易将正确的词切分成没有任何含义的字符串,错误字符串也可能被选成关键字作为标签呈现;其次,单个字词表达的语义太少,不能作为标签代表一个甚至几本文档来自技高网...

【技术保护点】
1.一种基于短文本聚类的标签抽取方法,其中,包括:/nS1、提取并获得短文本的所有有用词汇;/nS2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;/nS3、对S2中形成的各簇进行第一次修剪;/nS4、对第一次修剪后的所有簇进行合并操作;/nS5、对S4合并完的各簇进行第二次修剪;/nS6、提取第二次修剪后的各个簇的簇心作为各簇标签。/n

【技术特征摘要】
1.一种基于短文本聚类的标签抽取方法,其中,包括:
S1、提取并获得短文本的所有有用词汇;
S2、根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度,即假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,若相似度大于预设的阈值T1则将相应短文本归于该簇心;
S3、对S2中形成的各簇进行第一次修剪;
S4、对第一次修剪后的所有簇进行合并操作;
S5、对S4合并完的各簇进行第二次修剪;
S6、提取第二次修剪后的各个簇的簇心作为各簇标签。


2.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,提取并获得短文本的所有有用词汇包括:流式读取短文本的数据,删除因词汇量过少而无任何意义的句子,然后提取剩余短文本中的业务关键词与预设的相应语料领域的业务关键词词典中保存的业务关键词进行比对,并将提取的业务关键词未包含在所述业务关键词词典中的句子删除。


3.如权利要求2所述的基于短文本聚类的标签抽取方法,其中,所述有用词汇指除预定的停用词以外的所有词汇。


4.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,根据各个短文本的有用词汇的文本特征,利用word2vec计算所述短文本间的相似度包括:利用通过Word2vec训练提供的短文本的有用词汇的单词向量代表所述短文本的文本向量后,利用平均余弦相似度表示各个短文本间的相似度。


5.如权利要求1所述的基于短文本聚类的标签抽取方法,其中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度前,还需按照预先确定的标签文本的长度在所述短文本中筛选出相应于标签文本长度的短文本,并假设筛选出的所有短文本均为簇心,且各个筛选出的短文本间完全相似。


6.如权利要求5所述的基于短文本聚类的标签抽取方法,其中,假设每个短文本都是簇心,计算每个簇心与其他所有短文本的相似度,包括:计算未假设为簇心的短文本的句子与各个假设的作为簇心的短文...

【专利技术属性】
技术研发人员:郑赛乾吴立楠吴科
申请(专利权)人:北京智齿博创科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1