一种文本信息的处理方法及装置制造方法及图纸

技术编号:12054330 阅读:92 留言:0更新日期:2015-09-16 18:22
本发明专利技术实施例公开一种文本信息的处理及装置,其中方法可包括:对目标文本由预设固定分词策略进行分词,并比较分词结果和预设分词列表得到新词;将新词添加到预设分词列表中,得到测试分词列表;根据预设分词列表对测试文本进行分类,得到第一文本,根据测试分词列表对测试文本进行分类,得到第二文本;比较第一文本的分类准确率和第二文本的分类准确率,根据比较结果从新词中确定目标新词;将目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表对目标文本进行分类。采用本发明专利技术实施例,可识别新词,并将目标新词添加到预设分词列表得到目标分词列表,根据目标分析列表对目标文本进行分类,提高了对文本信息分类的精准度。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种文本信息的处理方法及装置
技术介绍
现有技术中,可将用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息进行分类,可对文本信息进行分词,从文本信息中识别出词典中已收录的词条,通过预先设计的算法,将文本信息分成预设的分类,例如,可获取一年时间内所有用户对一应用程序的评论信息,对获取到的评论信息进行分词,与电子词典库中已收录的词条进行匹配,识别到电子词典库中已收到的词,通过支持矢量机分类算法,将该产品的评价信息分类到“好评”和“差评”两个类别中。现有技术中,词典中收录的词条为固定词库的词,若出现新词,无法在词典中固定词库中找到该新词,则无法识别该新词,导致对文本信息分类的精准度降低。
技术实现思路
本专利技术实施例提供一种文本信息的处理方法及装置,可解决现有技术中在对文本信息分类过程中无法识别新词导致对文本信息分类的精准度低的技术问题。本专利技术第一方面提供了一种文本信息的处理方法,可包括:对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词;将所述新词添加到所述预设分词列表中,得到测试分词列表;根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本;比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。本专利技术第二方面提供了一种文本信息的处理装置,可包括:新词处理模块,用于对目标文本由预设固定分词策略进行分词,并比较所述分词结果和所述预设分词列表得到新词;添加模块,用于将所述新词添加到所述预设分词列表中,得到测试分词列表;测试文本分类模块,用于根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对测试文本进行分类,得到第二文本;目标新词确定模块,用于比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;目标文本分类模块,用于将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。本专利技术第三方面提供了一种终端,可包括:如上述第二方面所述的装置。实施本专利技术实施例,具有如下有益效果:可由预设固定分词策略对目标文本进行分词,比较分词结果和预设分词列表可得到新词,可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率,从而根据比较结果可从新词中确定目标新词,进而将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,实现了识别新词,并将目标新词添加到分词列表进而对目标文本进行分类,提高了对文本信息分类的精准度。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文本信息的处理方法的流程示意图;图2是本专利技术实施例提供的一种文本信息的处理装置的结构示意图;图3是本专利技术实施例提供的新词处理模块的结构示意图;图4是本专利技术实施例提供的测试文本分类模块的结构示意图;图5是本专利技术实施例提供的目标新词确定模块的结构示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术实施例中,一种文本信息的处理装置可以为:个人电脑、平板电脑、智能手机等终端,也可以通过终端中的客户端模块实现,例如:邮件分类客户端、评论分类客户端等。本专利技术实施例中的文本信息具体可以包括:用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息,具体不受本专利技术实施例的限制。本专利技术实施例中,文本信息包括:目标文本、测试文本或训练文本等。目标文本为需要进行分类的文本信息,测试文本为在分类模型中用于测试分类准确率的文本信息,训练文本为用于构造分类模型时进行分类训练的文本信息。具体的,文本信息的分类可通过预设分类算法实现。进一步可选的,预设分类算法可以包括:统计方法、机器学习方法或决策树等。其中,分类的目的是根据数据集的特点构造一个分类函数或分类模型(也称作分类器),分类器需要由人工标注的分类训练语料训练得到。构造模型的过程可包括训练和测试两个阶段。在构造模型之前,可将数据集随机地分为训练数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元组来构造模型,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练文本,一个具体训练文本的形式可以为=U1,U2,……Ui ;C);其中Ui表示属性值,C表示类别。在测试阶段,使用测试数据集来评估模型的分类准确率,测试数据集中的单个元组也称作测试文本,如果模型的准确率满足预设条件,则可用该模型对其它数据元组进行分类。而现有技术中,词典中收录的词条为固定词库的词,若出现新词,无法在词典中固定词库中找到该新词,则无法识别该新词,导致对文本信息分类的精准度降低。通过本专利技术实施例,可识别新词,将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,提高了对文本信息分类的精准度。下面将结合附图1,对本专利技术实施例提供的文本信息的处理方法进行详细介绍。请参见图1,为本专利技术实施例提供了一种文本信息的处理方法的流程示意图,该方法可以包括以下步骤:S101?S105。S101,对目标文本由预设固定分词策略进行分词,并比较分词结果和预设分词列表得到新词。作为一种可选的实施方式,对目标文本由预设固定分词策略进行分词具体可以包括:对目标文本从第I个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于I的正整数。具体的,例如,对于目标文本I 抓狂,盗号的太垃圾了,由把我的号码盗走了,请允悲,还好有密保手机,帮我找回来了,感谢”,N可设为3,则从第一个字开始,每N个字进行截取,具体实现中,可以为对每个句子进行每N个字进行截取,对于句子中不足3个字的,则直接将其截取为一个词,则对于目标文本I的分词结果可以为:抓狂、盗号的、号的太、的太垃、太垃圾、垃圾了、由把我、把我的、我的号、的号码、号码盗、码盗走、盗走了、请允悲、还好有、好有密、有密保、密保手、保手机、帮我找、我找回、找回来、回来了、感谢”,进一步的,还可以将N设为2或4等,可对同一目标文本对应不同N值进行分词。具体实现中,可判断分词结果中的词是否与预设分词列表中的词匹配,若不匹配,统计不匹配的词的特征值,特征值包括不匹配的词在目标文本中出现的频率;若不匹配的词的特征值满足预设特征值,则将不匹配的词确定为新词。其中本文档来自技高网...

【技术保护点】
一种文本信息的处理方法,其特征在于,所述方法包括:对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词;将所述新词添加到所述预设分词列表中,得到测试分词列表;根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本;比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词;将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘杰李映辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1