一种文本信息的处理方法及装置制造方法及图纸

技术编号：12054330 阅读：92 留言：0更新日期：2015-09-16 18:22

本发明专利技术实施例公开一种文本信息的处理及装置，其中方法可包括：对目标文本由预设固定分词策略进行分词，并比较分词结果和预设分词列表得到新词；将新词添加到预设分词列表中，得到测试分词列表；根据预设分词列表对测试文本进行分类，得到第一文本，根据测试分词列表对测试文本进行分类，得到第二文本；比较第一文本的分类准确率和第二文本的分类准确率，根据比较结果从新词中确定目标新词；将目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表对目标文本进行分类。采用本发明专利技术实施例，可识别新词，并将目标新词添加到预设分词列表得到目标分词列表，根据目标分析列表对目标文本进行分类，提高了对文本信息分类的精准度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，尤其涉及一种文本信息的处理方法及装置。
技术介绍
现有技术中，可将用户对产品的评价信息、用户对产品的建议数据、用户在网络平台进行检索的数据等文本信息进行分类，可对文本信息进行分词，从文本信息中识别出词典中已收录的词条，通过预先设计的算法，将文本信息分成预设的分类，例如，可获取一年时间内所有用户对一应用程序的评论信息，对获取到的评论信息进行分词，与电子词典库中已收录的词条进行匹配，识别到电子词典库中已收到的词，通过支持矢量机分类算法，将该产品的评价信息分类到“好评”和“差评”两个类别中。现有技术中，词典中收录的词条为固定词库的词，若出现新词，无法在词典中固定词库中找到该新词，则无法识别该新词，导致对文本信息分类的精准度降低。
技术实现思路
本专利技术实施例提供一种文本信息的处理方法及装置，可解决现有技术中在对文本信息分类过程中无法识别新词导致对文本信息分类的精准度低的技术问题。本专利技术第一方面提供了一种文本信息的处理方法，可包括:对目标文本由预设固定分词策略进行分词，并比较所述分词结果和预设分词列表得到新词；将所述新词添加到所述预设分词列表中，得到测试分词列表；根据所述预设分词列表对测试文本进行分类，得到第一文本，根据所述测试分词列表对所述测试文本进行分类，得到第二文本；比较所述第一文本的分类准确率和所述第二文本的分类准确率，根据比较结果从所述新词中确定目标新词；将所述目标新词添加到所述预设分词列表中，得到目标预设分词列表，根据所述目标预设分词列表对所述目标文本进行分类。本专利技术第二方面提供了一种文本信息的处理装置，可...

【技术保护点】
一种文本信息的处理方法，其特征在于，所述方法包括：对目标文本由预设固定分词策略进行分词，并比较所述分词结果和预设分词列表得到新词；将所述新词添加到所述预设分词列表中，得到测试分词列表；根据所述预设分词列表对测试文本进行分类，得到第一文本，根据所述测试分词列表对所述测试文本进行分类，得到第二文本；比较所述第一文本的分类准确率和所述第二文本的分类准确率，根据比较结果从所述新词中确定目标新词；将所述目标新词添加到所述预设分词列表中，得到目标预设分词列表，根据所述目标预设分词列表对所述目标文本进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘杰，李映辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人