一种对短文本自动分类和识别主题词的方法技术

技术编号:15329494 阅读:77 留言:0更新日期:2017-05-16 13:09
本发明专利技术的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个预置的大容量分类词库,以此绕过对短文本分类的聚类算法要求。短文本将通过与大容量分类词库的词条逐一比对获取有助于分类和识别主题词的特征信息。其方法是,短文本通过分词,切分成若干词语序列;对首句或首个段落的词语增加权重;分类词库词条也同样分词,这样将获得两对词语序列,对这两对词语序列做交叉比对,如有匹配将按词语自身的权重倍率累加命中计数,对每个词条计算命中计数值并适当修正后,最终返回的分类是计数值最高的词条。

Method for automatically classifying and identifying subject words for short texts

The object of the present invention is to provide a method for automatically classifying and identifying subject words for short texts. The key to this method is to rely on a preset large volume thesaurus to circumvent the requirements of clustering algorithms for short text classification. The short text will be compared with the entries in the large volume thesaurus to obtain the feature information that helps classify and identify the subject words. The method is, this essay through segmentation, cut some sequence of words; the first paragraph of the first sentence or word thesaurus entries increase weight; also it will receive two of the word segmentation, word sequence, cross comparison of the above two of the word sequence, such as, according to the cumulative weight ratio the term itself hit count, calculate life counting value and appropriate modification for each entry, classification is eventually returned to the highest.

【技术实现步骤摘要】
一种对短文本自动分类和识别主题词的方法
本专利技术涉及自然语言处理领域,以及互联网

技术介绍
随着互联网的广泛渗透,网民深度参与内容生产,以微博等自媒体为代表的互联网信息内容中,短文本呈现出活跃性强,与现实紧扣,传播迅速,社会影响力重大的特点,针对短文本的自然语言处理(NLP)技术也越来越重要。对短文本内容分类和识别主题词是最常见的需求之一。但由于文本短小,内容较少,基于统计和向量空间模型的一些算法,如聚类算法,由于数据稀疏的原因,处理效果较差。多种聚类算法都需要样本数据达到一定数量,样本可提取的词语数也需要达到一定数量才能计算出较为稳定的TDIDF词频数据,这是后续算法处理的基础。但对于短文本来说,很多样本在去除“应删除词”后可能仅有数个词语,其TDIDF数值严重失真,后续计算难以进行,更遑论识别其主题内容及分类了。
技术实现思路
本专利技术的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个大容量预置的分类词库,以此摆脱对短文本分类时的聚类算法要求。整个方法的实现效果取决于两部分:一是分类词库的构建;二是将短文本与分类词库的比对计算。分类词库具有如下特征:1、存储于数据库或文件中;2、每条数据(词条)本身是一个短文本,或更简单的是一个词语;3、词条本身可以携带若干个属性,如按某种分类方式定义的类别,属于某类别的概率,数据的语义特征(动词、名词等);属性本身可以表达一种关联性,将这条数据与另一条词条建立一个基于概率的关系;4、分类词库在运行期间是只读的。分类词库具有多种构建方式,不同的构建方式可适用不同的目的。可以是使用标注语料使用某种算法训练而来,或是由第三方词典数据适当转换而来,或是来自于互联网的可采集数据(例如,百度的热点事件列表),等等。短文本将通过与这样一个大容量的分类词库的词条逐一比对来获取有助于分类和识别主题词的信息。步骤如下:短文本通过分词,切分成若干词语序列。对在首句或首个段落的词语增加权重。分类词库词条也同样分词(如由单个词语构成词条可以跳过)。这样将获得两对词语序列,对这两对词语序列做交叉比对,如有匹配将按词语自身的权重倍率累加命中计数,对每个词条计算命中计数值。最终返回的分类是计数值最高的那个词条。同时,短文本中为命中计数值贡献最多的词语被识别为(用于表征分类的关键信息的)主题词。这种交叉比对的方法,本质上是和TFIDF的思想是一致的,但是将IDF(逆向文件频率)的计算归类到分类词库的词语权重中,而分类词库一般是用大量、丰富的文本语料预先训练好的,从而解决了短文本数据稀疏的难题。附图说明图1为分类词库的结构说明图。图2为本专利技术的工作流程示意图。具体实施方式基于应用目的的不同,如为短文本打标签,或识别短文本中蕴含的事件,分类词库的构建方式是多样化的,其简单与复杂的差异性也较大。为了说明相关方法的实现,以下内容以一种基本应用来说明,即分类词库是一系列热点事件名称短语的集合,要求将短文本归类到最准确的事件词条并识别其主题词。但这只是本专利技术的典型实施例而已,用于帮助理解本专利技术的方法和核心思想,对于本领域的一般技术人员,依据本专利技术的方向性叙述,在具体实施方式及应用范围上均会有改变之处,以下内容不应理解为对本专利技术的限制。首先,我们需要准备一个热点事件分类词库的数据源。可以通过实时采集互联网门户网站的新闻标题、百度实时热点等作为分类词库的词条。每个词条本身也是一条短文本。其次,对于分类词库中的每个词条,分词,得到一个词语序列。词语序列应做“应删除词”处理,包含“的”,“是”之类的单字都应删除。然后,对所有词条综合起来计算词条词语的权重值,这实质上是计算其逆向文件频率(IDF)。实际上,以每个短文本自身作为一个文档来计算IDF,因为数据样本太少,每个词条之间可能相互不能覆盖,实际计算出来的IDF反映不了真实概率。可以通过将词条还原到长文本来计算IDF,例如,将新闻标题对应的链接中的正文,参与短文本的IDF计算。但这并不是唯一的途径,还有其他的方式。例如,将短文本中的词语词性综合考虑进来,对专有名词赋予额外的权重。因为在与短文本做交叉比对时还会进一步利用短文本的词语权重,作为一种简化的方案,对词条词语不做任何权重处理,实际使用上也有不错的效果。分类词库准备完成后,在运行时需要将所有词条相关数据加载到内存。最后,使用分类词库对短文本进行识别处理。对需要分类的短文本,按如下步骤处理:1)对短文本区分“标题”和“正文”。“标题”是文本中的首句,或者首段。2)对“标题”和“正文”分别分词。3)对“标题”和“正文”分词后的每个词语,计算词频TF。其中“标题”中出现的词语按较高的倍率计算词频,典型值如10。“正文”中的词语则每出现一次累加1计值。4)对分类词库中的词条遍历。对每个词条Entry,设置计数值(以下简记为Count[Entry])为0。做如下操作:a)对短文本中的每个词语(以下简记为word),做如下操作:b)对词条中的每个词语(以下简记为EntryWord),如果EntryWord包含或等于word,则对词条Count[Entry]值累加EntryWord的权重后,乘以word的权重值,将结果赋回Count[Entry];c)如果短文本全文包含词条,则对词条Count[Entry]值累加1后,乘以固定权重值如5,将结果赋回Count[Entry];5)对所有词条的Count[Entry]值排序,其最大最小值之差为delta。词条总数为N,所有满足其Count[Entry]值与最大值之差小于delta/N的词条,将被选出做下一步处理。6)将上一步选出的词条,按其长度的倒数对其Count[Entry]值加权。对调整后的Count[Entry]值结果,按最大值的词条作为最终分类结果返回。这一步将能抑制长度较长的词条不适当的利用其词语数量优势。7)在作为结果的词条的Count[Entry]值中,以短文本的各个词语的贡献值,按最大的作为主题词返回结果。算法中若干设定权重分配的固定值,可以根据具体的分类词库和识别短文本的场景,做适当优化得到,一般可以作为配置参数提供。本文档来自技高网...
一种对短文本自动分类和识别主题词的方法

【技术保护点】
一种对短文本自动分类和识别主题词的方法,其特征在于:1)使用一个分类词库作为分类实现的主要数据模型。2)通过对短文本与分类词库的每条词条逐条比对,计算命中计数值,以最高命中计数值的词条作为分类结果。3)以短文本中对最高命中计数值贡献最大的词语作为主题词识别结果。

【技术特征摘要】
1.一种对短文本自动分类和识别主题词的方法,其特征在于:1)使用一个分类词库作为分类实现的主要数据模型。2)通过对短文本与分类词库的每条词条逐条比对,计算命中计数值,以最高命中计数值的词条作为分类结果。3)以短文本中对最高命中计数值贡献最大的词语作为主题词识别结果。2.如权利1所述的对短文本自动分类和识别主题词的方法所需的分类词库,其特征在于:1)存储于数据库或文件中;2)每条数据(词条)本身是一个短文本,或更简单的是一个词语;3)词...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:江苏引跑网络科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1