一种文本信息分类方法及系统技术方案

技术编号：18083827 阅读：18 留言：0更新日期：2018-05-31 12:22

本发明专利技术实施例公开了一种文本信息分类方法及系统，用于用于提高文本情感分类的准确性。本发明专利技术实施例方法包括：获取文本信息；获取第一分词，所述第一分词根据第一预置规则对所述文本信息进行分词处理获得；将所述第一分词置入预置情感得分计数器计算得到第一分数；获取第二分词，所述第二分词根据第二预置规则对所述文本信息进行分词处理获得；将所述第二分词置入预置训练模型计算得到第二分数；当根据预置文本规则确定出所述文本信息的语言环境时，利用预置综合逻辑对所述第一分数与所述第二分数进行权重分配；根据预置综合逻辑所分配的权重得出文本信息的综合分数，根据所述综合分数得出所述文本信息的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息分类方法及系统
本专利技术涉及文本信息分类领域，特别涉及一种文本信息分类方法及系统。
技术介绍
情感分类是自然语言处理(NaturalLanguageProcessing，NLP)领域中的一个典型问题，问题的描述为，给定一段文字(可以是一句话或一篇文章)，判断这篇文章所表达的情感是正向、负向或中性。情感分类问题本身是一个无论学术界还是工业界都广泛与深入研究的话题。利用情感字典是一种解决情感分类问题的方法。通过人为设定一些情感词的打分，如正向情感词、负向情感词。对于输入的文本，通过看正负向情感词的占比，来决定文本的情感分类。现有技术的分类效果十分依赖情感词典的质量。如果情感词典的质量不够好，比方说一些词语错误的分类，或者一些存在情感分类模糊的词语，比方说”意想不到”，用在家电领域，一般是指家电出现了不可知的问题，但是如果用在电影领域，一般指电影剧情吸引人。现有技术利用单一的情感分类算法，不能根据特定的领域进行灵活的打分，使得情感分类的准确性不高。
技术实现思路
本专利技术实施例提供了一种文本信息分类方法及系统，用于提高文本情感分类的准确性。本专利技术实施例第一方面提供了一种文本信息分类方法，具体包括：获取文本信息；获取第一分词，第一分词根据第一预置规则对文本信息进行分词处理获得；将第一分词置入预置情感得分计数器计算得到第一分数；获取第二分词，第二分词根据第二预置规则对文本信息进行分词处理获得；将第二分词置入预置训练模型计算得到第二分数；利用预置综合逻辑对第一分数与第二分数进行权重分配；根据预置综合逻辑所分配的权重得出文本信息的综合分数，根据综合分数得...
一种文本信息分类方法及系统

【技术保护点】
一种文本信息分类方法，其特征在于，包括：获取文本信息；获取第一分词，所述第一分词根据第一预置规则对所述文本信息进行分词处理获得；将所述第一分词置入预置情感得分计数器计算得到第一分数；获取第二分词，所述第二分词根据第二预置规则对所述第一分词进行筛选处理获得；将所述第二分词置入预置训练模型计算得到第二分数；利用预置综合逻辑对所述第一分数与所述第二分数进行权重分配；根据所述预置综合逻辑所分配的权重得出所述文本信息的综合分数；根据所述综合分数得出所述文本信息的分类结果。

【技术特征摘要】
1.一种文本信息分类方法，其特征在于，包括：获取文本信息；获取第一分词，所述第一分词根据第一预置规则对所述文本信息进行分词处理获得；将所述第一分词置入预置情感得分计数器计算得到第一分数；获取第二分词，所述第二分词根据第二预置规则对所述第一分词进行筛选处理获得；将所述第二分词置入预置训练模型计算得到第二分数；利用预置综合逻辑对所述第一分数与所述第二分数进行权重分配；根据所述预置综合逻辑所分配的权重得出所述文本信息的综合分数；根据所述综合分数得出所述文本信息的分类结果。2.根据权利要求1所述的文本信息分类方法，其特征在于，所述将所述第一分词置入预置情感得分计数器计算得到第一分数包括：在所述预置情感得分计数器内设有的预置情感词典中查找是否存在第一子分词，所述第一子分词包含于所述第一分词，所述预置情感字典中存有所述第一子分词与分数的对应关系；若存在所述第一子分词，则提取存在的所述第一子分词所对应的分数；根据所述预置情感得分计数器对所述第一子分词所对应的分数进行计算得到所述第一分数。3.根据权利要求1所述的文本信息分类方法，其特征在于，所述将所述第二分词置入预置训练模型计算得到第二分数包括：根据预置训练模型将所述第二子分词转换成数值向量，所述第二子分词包含于所述第二分词；计算所述数值向量与预置分数向量间的间距；将与所述数值向量距离最近的预置分数向量所对应的分数作为所述第二子分词的分数；把各个第二子分词对应的分数相加得到所述第二分数。4.根据权利要求1所述的文本信息分类方法，其特征在于，所述根据所述综合分数得出所述文本信息的分类结果包括：判断所述综合分数所处的预置分数阈值范围，得出判断结果；根据所述判断结果得出所述文本信息的分类结果。5.根据权利要求1至4中任一项所述的文本信息分类方法，其特征在于，所述获取文本信息之后，所述方法还包括：利用情感分类方法获取所述文本信息的第三分数，所述情感分类方法为根据语言环境变化所配置的方法。6.一种文本分类系统，其特征在于，包括：第一获取单元，用于获取文本信息；第二获取单元，用于获取第一分词，...

【专利技术属性】
技术研发人员：郭秦龙，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人