一种对短文本自动分类和识别主题词的方法技术

技术编号：15329494 阅读：77 留言：0更新日期：2017-05-16 13:09

本发明专利技术的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个预置的大容量分类词库，以此绕过对短文本分类的聚类算法要求。短文本将通过与大容量分类词库的词条逐一比对获取有助于分类和识别主题词的特征信息。其方法是，短文本通过分词，切分成若干词语序列；对首句或首个段落的词语增加权重；分类词库词条也同样分词，这样将获得两对词语序列，对这两对词语序列做交叉比对，如有匹配将按词语自身的权重倍率累加命中计数，对每个词条计算命中计数值并适当修正后，最终返回的分类是计数值最高的词条。

Method for automatically classifying and identifying subject words for short texts

The object of the present invention is to provide a method for automatically classifying and identifying subject words for short texts. The key to this method is to rely on a preset large volume thesaurus to circumvent the requirements of clustering algorithms for short text classification. The short text will be compared with the entries in the large volume thesaurus to obtain the feature information that helps classify and identify the subject words. The method is, this essay through segmentation, cut some sequence of words; the first paragraph of the first sentence or word thesaurus entries increase weight; also it will receive two of the word segmentation, word sequence, cross comparison of the above two of the word sequence, such as, according to the cumulative weight ratio the term itself hit count, calculate life counting value and appropriate modification for each entry, classification is eventually returned to the highest.

全部详细技术资料下载

【技术实现步骤摘要】
一种对短文本自动分类和识别主题词的方法
本专利技术涉及自然语言处理领域，以及互联网

技术介绍
随着互联网的广泛渗透，网民深度参与内容生产，以微博等自媒体为代表的互联网信息内容中，短文本呈现出活跃性强，与现实紧扣，传播迅速，社会影响力重大的特点，针对短文本的自然语言处理(NLP)技术也越来越重要。对短文本内容分类和识别主题词是最常见的需求之一。但由于文本短小，内容较少，基于统计和向量空间模型的一些算法，如聚类算法，由于数据稀疏的原因，处理效果较差。多种聚类算法都需要样本数据达到一定数量，样本可提取的词语数也需要达到一定数量才能计算出较为稳定的TDIDF词频数据，这是后续算法处理的基础。但对于短文本来说，很多样本在去除“应删除词”后可能仅有数个词语，其TDIDF数值严重失真，后续计算难以进行，更遑论识别其主题内容及分类了。
技术实现思路
本专利技术的目的是提供一种针对短文本进行自动分类和识别主题词的方法。此方法关键在于依赖于一个大容量预置的分类词库，以此摆脱对短文本分类时的聚类算法要求。整个方法的实现效果取决于两部分：一是分类词库的构建；二是将短文本与分类词库的比对计算。分类词库具有如下特征：1、存储于数据库或文件中；2、每条数据(词条)本身是一个短文本，或更简单的是一个词语；3、词条本身可以携带若干个属性，如按某种分类方式定义的类别，属于某类别的概率，数据的语义特征(动词、名词等)；属性本身可以表达一种关联性，将这条数据与另一条词条建立一个基于概率的关系；4、分类词库在运行期间是只读的。分类词库具有多种构建方式，不同的构建方式可适用不同的目的。可以是使...
一种对短文本自动分类和识别主题词的方法

【技术保护点】
一种对短文本自动分类和识别主题词的方法，其特征在于：1)使用一个分类词库作为分类实现的主要数据模型。2)通过对短文本与分类词库的每条词条逐条比对，计算命中计数值，以最高命中计数值的词条作为分类结果。3)以短文本中对最高命中计数值贡献最大的词语作为主题词识别结果。

【技术特征摘要】
1.一种对短文本自动分类和识别主题词的方法，其特征在于：1)使用一个分类词库作为分类实现的主要数据模型。2)通过对短文本与分类词库的每条词条逐条比对，计算命中计数值，以最高命中计数值的词条作为分类结果。3)以短文本中对最高命中计数值贡献最大的词语作为主题词识别结果。2.如权利1所述的对短文本自动分类和识别主题词的方法所需的分类词库，其特征在于：1)存储于数据库或文件中；2)每条数据(词条)本身是一个短文本，或更简单的是一个词语；3)词...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：江苏引跑网络科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人