确定短文本类别的方法及装置制造方法及图纸

技术编号:28116427 阅读:14 留言:0更新日期:2021-04-19 11:14
本发明专利技术公开了确定短文本类别的方法及装置,可以获得待处理的短文本,对所述待处理的短文本进行分词处理,获得多个词语,根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;根据所述相似度确定所述待处理的短文本的文本类别。本发明专利技术可以通过待处理的短文本与历史短文本的相似度来确定文本类别。由于仅筛选出历史时间段内的部分历史短文本,因此本发明专利技术确定相似度时使用的历史短文本数量较少,减少了计算量。计算量。计算量。

【技术实现步骤摘要】
确定短文本类别的方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及确定短文本类别的方法及装置。

技术介绍

[0002]随着移动终端智能化的发展,纷繁多样的短文本(如微博发布的短文本)充斥着互联网的各个角落。
[0003]短文本虽然信息少,但是及时性强,往往能从中挖掘出大量的有用信息。而确定短文本的文本类别就是对短文本进行信息挖掘的一个重要过程。
[0004]但是,现在还没有一种可以有效确定短文本的文本类别的技术。

技术实现思路

[0005]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的确定短文本类别的方法及装置,技术方案如下:
[0006]一种确定短文本类别的方法,包括:
[0007]获得待处理的短文本;
[0008]对所述待处理的短文本进行分词处理,获得多个词语;
[0009]根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
[0010]根据所述相似度确定所述待处理的短文本的文本类别。
[0011]可选的,在所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度之前,所述方法还包括:
[0012]获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
[0013]确定与所述待处理的短文本的发布时刻匹配的历史时间段;
[0014]从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
[0015]所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度,包括:
[0016]根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
[0017]可选的,所述根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度,包括:
[0018]采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;
[0019]根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
[0020]可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
[0021]确定最高的所述相似度对应的所述历史短文本;
[0022]根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
[0023]可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:
[0024]在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
[0025]根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
[0026]可选的,所述根据所述相似度确定所述待处理的短文本的文本类别,还包括:
[0027]在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
[0028]可选的,所述根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别,包括:
[0029]在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
[0030]和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新的文本类别。
[0031]一种确定短文本类别的装置,包括:文本获得单元、分词单元、相似度确定单元和类别确定单元,
[0032]所述文本获得单元,用于获得待处理的短文本;
[0033]所述分词单元,用于对所述待处理的短文本进行分词处理,获得多个词语;
[0034]所述相似度确定单元,用于根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;
[0035]所述类别确定单元,用于根据所述相似度确定所述待处理的短文本的文本类别。
[0036]可选的,所述装置还包括:第一词语集获得单元、时间段确定单元和第二词语集获得单元,
[0037]所述第一词语集获得单元,用于在所述相似度确定单元确定所述待处理的短文本与所述历史短文本的相似度之前,获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;
[0038]所述时间段确定单元,用于确定与所述待处理的短文本的发布时刻匹配的历史时间段;
[0039]所述第二词语集获得单元,用于从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;
[0040]所述相似度确定单元,具体用于:
[0041]根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。
[0042]可选的,所述相似度确定单元,包括:第一相似度确定子单元和第二相似度确定子单元,
[0043]所述第一相似度确定子单元,用于采用预设算法分别计算所述第一词语集中的词
语与所述第二词语集中词语的词语相似度;
[0044]所述第二相似度确定子单元,用于根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。
[0045]可选的,所述类别确定单元,包括:第一历史短文本计算子单元和类别确定子单元,
[0046]所述第一历史短文本计算子单元,用于确定最高的所述相似度对应的所述历史短文本;
[0047]所述类别确定子单元,用于根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
[0048]可选的,所述类别确定单元,包括:第二历史短文本计算子单元和类别确定子单元,
[0049]所述第二历史短文本计算子单元,用于在最高的所述相似度不低于预设相似度时,确定最高的所述相似度对应的所述历史短文本;
[0050]所述类别确定子单元,用于根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。
[0051]可选的,所述类别确定单元,还包括:新类别子单元,用于在最高的所述相似度低于所述预设相似度时,将所述待处理的短文本的文本类别确定为一个新的文本类别。
[0052]可选的,所述类别确定子单元用于:
[0053]在确定的所述历史短文本为已确定文本类别的短文本时,将所述历史短文本的文本类别确定为所述待处理的短文本的文本类别;
[0054]和/或,在所述历史短文本为未确定文本类别的短文本时,将所述历史短文本的文本类别和所述待处理的短文本的文本类别确定为一个新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定短文本类别的方法,其特征在于,包括:获得待处理的短文本;对所述待处理的短文本进行分词处理,获得多个词语;根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度;根据所述相似度确定所述待处理的短文本的文本类别。2.根据权利要求1所述的方法,其特征在于,在所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度之前,所述方法还包括:获取所述多个词语的热度排名,并根据所述热度排名从所述多个词语中选取第一预设数量的词语,得到第一词语集;确定与所述待处理的短文本的发布时刻匹配的历史时间段;从所述历史时间段内已发布的每个历史短文本中选取第二预设数量的词语,得到第二词语集;所述根据所述多个词语中的至少部分词语以及历史时间段内发布的历史短文本包含的至少部分词语,确定所述待处理的短文本与所述历史短文本的相似度,包括:根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一词语集和所述第二词语集,确定所述待处理的短文本与每个所述历史短文本的相似度,包括:采用预设算法分别计算所述第一词语集中的词语与所述第二词语集中词语的词语相似度;根据所述词语相似度确定所述待处理的短文本与每个所述历史短文本的相似度。4.根据权利要求1所述的方法,其特征在于,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:确定最高的所述相似度对应的所述历史短文本;根据确定的所述历史短文本的文本类别确定所述待处理的短文本的文本类别。5.根据权利要求1所述的方法,其特征在于,所述根据所述相似度确定所述待处理的短文本的文本类别,包括:在最高的所述相似度...

【专利技术属性】
技术研发人员:吕孟亮
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1