一种文本信息分类方法及系统技术方案

技术编号:18083827 阅读:18 留言:0更新日期:2018-05-31 12:22
本发明专利技术实施例公开了一种文本信息分类方法及系统,用于用于提高文本情感分类的准确性。本发明专利技术实施例方法包括:获取文本信息;获取第一分词,所述第一分词根据第一预置规则对所述文本信息进行分词处理获得;将所述第一分词置入预置情感得分计数器计算得到第一分数;获取第二分词,所述第二分词根据第二预置规则对所述文本信息进行分词处理获得;将所述第二分词置入预置训练模型计算得到第二分数;当根据预置文本规则确定出所述文本信息的语言环境时,利用预置综合逻辑对所述第一分数与所述第二分数进行权重分配;根据预置综合逻辑所分配的权重得出文本信息的综合分数,根据所述综合分数得出所述文本信息的分类结果。

【技术实现步骤摘要】
一种文本信息分类方法及系统
本专利技术涉及文本信息分类领域,特别涉及一种文本信息分类方法及系统。
技术介绍
情感分类是自然语言处理(NaturalLanguageProcessing,NLP)领域中的一个典型问题,问题的描述为,给定一段文字(可以是一句话或一篇文章),判断这篇文章所表达的情感是正向、负向或中性。情感分类问题本身是一个无论学术界还是工业界都广泛与深入研究的话题。利用情感字典是一种解决情感分类问题的方法。通过人为设定一些情感词的打分,如正向情感词、负向情感词。对于输入的文本,通过看正负向情感词的占比,来决定文本的情感分类。现有技术的分类效果十分依赖情感词典的质量。如果情感词典的质量不够好,比方说一些词语错误的分类,或者一些存在情感分类模糊的词语,比方说”意想不到”,用在家电领域,一般是指家电出现了不可知的问题,但是如果用在电影领域,一般指电影剧情吸引人。现有技术利用单一的情感分类算法,不能根据特定的领域进行灵活的打分,使得情感分类的准确性不高。
技术实现思路
本专利技术实施例提供了一种文本信息分类方法及系统,用于提高文本情感分类的准确性。本专利技术实施例第一方面提供了一种文本信息分类方法,具体包括:获取文本信息;获取第一分词,第一分词根据第一预置规则对文本信息进行分词处理获得;将第一分词置入预置情感得分计数器计算得到第一分数;获取第二分词,第二分词根据第二预置规则对文本信息进行分词处理获得;将第二分词置入预置训练模型计算得到第二分数;利用预置综合逻辑对第一分数与第二分数进行权重分配;根据预置综合逻辑所分配的权重得出文本信息的综合分数,根据综合分数得出文本信息的分类结果。本专利技术实施例第二方面提供了一种文本分类系统,具体包括:第一获取单元,用于获取文本信息;第二获取单元,用于获取第一分词,第一分词根据第一预置规则对由第一获取单元获取到的文本信息进行分词处理获得;第一置入单元,用于将由第二获取单元获取到的第一分词置入预置情感得分计数器计算得到第一分数;第三获取单元,用于获取第二分词,第二分词根据第二预置规则对有第一单元获取到的文本信息进行分词处理获得;第二置入单元,用于将第二分词置入预置训练模型计算得到第二分数;第一分配单元,用于利用预置综合逻辑对第一分数与第二分数进行权重分配;计算单元,用于根据综合逻辑所分配的权重得出文本信息的综合分数;处理单元,用于根据计算单元得出的综合分数得出文本信息的分类结果。本专利技术实施例第三方面提供了一种终端,具体包括:输入装置、输出装置、处理器和存储器;输入装置执行如下步骤:获取文本信息;获取第一分词,第一分词根据第一预置规则对文本信息进行分词处理获得;获取第二分词,第二分词根据第二预置规则对文本信息进行分词处理获得;处理器通过调用存储器存储的操作指令,用于执行如下步骤:将第一分词置入预置情感得分计数器计算得到第一分数;将第二分词置入预置训练模型计算得到第二分数;利用预置综合逻辑对第一分数与第二分数进行权重分配;根据预置综合逻辑所分配的权重得出文本信息的综合分数,根据综合分数得出文本信息的分类结果。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例中,首先获取文本信息;通过该文本进行分词处理获取第一分词;将第一分词置入预置情感得分计数器计算得到第一分数;通过该文本进行分词处理获取第二分词;将第二分词置入预置训练模型计算得到第二分数;利用预置综合逻辑对第一分数与第二分数进行权重分配,根据预置综合逻辑所分配的权重得出文本信息的综合分数,根据综合分数得出文本信息的分类结果。本专利技术实施例利用一种串行化的情感分类方法,对不同算法得出来的分数再结合语言环境进行权重分配,提高了文本分类的准确性。附图说明图1为本专利技术实施例中网络结构示意图;图2为本专利技术实施例中文本信息分类方法一个实施例示意图;图3为本专利技术实施例中文本信息分类方法另一实施例示意图;图4为本专利技术实施例中系统一个实施例示意图;图5为本专利技术实施例中系统另一个实施例示意图;图6为本专利技术实施例中系统另一个实施例示意图。具体实施方式本专利技术实施例提供了一种文本信息分类方法及系统,用于提高文本情感分类的准确性。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例可应用于如图1所示的网络架构,该网络架构中,用户可使用用户设备(例如个人计算机、笔记本电脑、平板电脑、手机等)通过储存设备等获取到需要进行分类的文本。然后通过用户设备上的文本分类系统,对需要进行情感分类的文本进行分析,得到分析结果。本专利技术实施例中,首先获取要进行分类的文本信息,然后利用情感字典的算法获取文本信息的第一分数,利用基于机器学习的算法获取文本信息的第二分数,当根据预置文本规则确定出文本信息的语言环境时,利用综合逻辑对第一分数与第二分数进行权重分配,综合逻辑根据语言环境得出,最后根据综合逻辑所分配的权重得出文本信息的分类结果。本专利技术实施例利用一种串行化的情感分类方法,对不同算法得出来的分数再结合语言环境进行权重分配,提高了文本分类的准确性。请参阅图2,本专利技术实施例中文本信息分类方法一个实施例包括:201、获取文本信息。本实施例中,当需要对文本信息进行情感分类之前,首先需要获取需要分类的文本信息。需要说明的是,系统可以通过互联网获取文本信息,也可以从其他途径获取,例如从存储设备中获取,具体获取方式此处不做限定。202、获取第一分词。本实施例中,当系统获取到需要进行情感分析的文本信息时,将根据第一预置规则对文本信息进行分词处理获得,其中,第一预置规则为根据词语和/或句子划分文本模块的规则,第一分词为分词集合,包括该文本信息的所有子分词。需要说明的是,第一分词包括词语和句子。203、将第一分词置入预置情感得分计数器计算得到第一分数。本实施例中,当系统获取到第一分词之后,系统存有一个情感得分计数器,将第一分词置入预置情感得分计数器进行计算可得到第一分数。204、获取第二分词。本实施例中,当系统将第一分词置入预置情感得分计数器计算得到第一分数之后,将根据第二预置规则对第一分词进行筛选处理,其中第二预置规则为,把第一分词里面的所有第一子分词与预置的情感词典里面存有的词语作比对之后,把与预置情感词典中存有的第一子分词筛选去除,把筛选过后的第一子分词的集合作为第二分词。需要说明的是,第二分词包括词语和句子。20本文档来自技高网
...
一种文本信息分类方法及系统

【技术保护点】
一种文本信息分类方法,其特征在于,包括:获取文本信息;获取第一分词,所述第一分词根据第一预置规则对所述文本信息进行分词处理获得;将所述第一分词置入预置情感得分计数器计算得到第一分数;获取第二分词,所述第二分词根据第二预置规则对所述第一分词进行筛选处理获得;将所述第二分词置入预置训练模型计算得到第二分数;利用预置综合逻辑对所述第一分数与所述第二分数进行权重分配;根据所述预置综合逻辑所分配的权重得出所述文本信息的综合分数;根据所述综合分数得出所述文本信息的分类结果。

【技术特征摘要】
1.一种文本信息分类方法,其特征在于,包括:获取文本信息;获取第一分词,所述第一分词根据第一预置规则对所述文本信息进行分词处理获得;将所述第一分词置入预置情感得分计数器计算得到第一分数;获取第二分词,所述第二分词根据第二预置规则对所述第一分词进行筛选处理获得;将所述第二分词置入预置训练模型计算得到第二分数;利用预置综合逻辑对所述第一分数与所述第二分数进行权重分配;根据所述预置综合逻辑所分配的权重得出所述文本信息的综合分数;根据所述综合分数得出所述文本信息的分类结果。2.根据权利要求1所述的文本信息分类方法,其特征在于,所述将所述第一分词置入预置情感得分计数器计算得到第一分数包括:在所述预置情感得分计数器内设有的预置情感词典中查找是否存在第一子分词,所述第一子分词包含于所述第一分词,所述预置情感字典中存有所述第一子分词与分数的对应关系;若存在所述第一子分词,则提取存在的所述第一子分词所对应的分数;根据所述预置情感得分计数器对所述第一子分词所对应的分数进行计算得到所述第一分数。3.根据权利要求1所述的文本信息分类方法,其特征在于,所述将所述第二分词置入预置训练模型计算得到第二分数包括:根据预置训练模型将所述第二子分词转换成数值向量,所述第二子分词包含于所述第二分词;计算所述数值向量与预置分数向量间的间距;将与所述数值向量距离最近的预置分数向量所对应的分数作为所述第二子分词的分数;把各个第二子分词对应的分数相加得到所述第二分数。4.根据权利要求1所述的文本信息分类方法,其特征在于,所述根据所述综合分数得出所述文本信息的分类结果包括:判断所述综合分数所处的预置分数阈值范围,得出判断结果;根据所述判断结果得出所述文本信息的分类结果。5.根据权利要求1至4中任一项所述的文本信息分类方法,其特征在于,所述获取文本信息之后,所述方法还包括:利用情感分类方法获取所述文本信息的第三分数,所述情感分类方法为根据语言环境变化所配置的方法。6.一种文本分类系统,其特征在于,包括:第一获取单元,用于获取文本信息;第二获取单元,用于获取第一分词,...

【专利技术属性】
技术研发人员:郭秦龙
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1