一种基于相似度匹配的文本分类方法技术

技术编号：19822015 阅读：20 留言：0更新日期：2018-12-19 14:47

本发明专利技术提供了一种基于相似度匹配的文本分类方法，通过服务器接收用户上传的待分类的第一文本，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。本发明专利技术公开的文本分类方法，在现有技术的基础上，增加了相似文本匹配的步骤，提高了文本分类的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似度匹配的文本分类方法
本专利技术数据处理领域，尤其涉及一种基于相似度匹配的文本分类方法。
技术介绍
现代社会是信息爆炸的社会，互联网上存在着海量的数据。现有技术中，用户可能会产生对多个文本进行分类存储的需求，例如：电子图书馆需要根据文本内容的不同进行分类，便于查找，专利文件需要进行文本分类，便于查找和处理相关文件。现有技术中的文件分类方法一般是由人工将稿件阅读完后总结出该稿件的核心思想，然后归纳出关键词，在根据文件的类型进行分类，或者简单的根据词频进行分类，前者效率低，后一种方法过于机械，无法取得较佳的分类效果。因此，现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处，本专利技术的目的在于为用户提供一种基于相似度匹配的文本分类方法，克服现有技术中文本分类效率低或者分类效果差的缺陷。本专利技术公开了一种基于相似度匹配的文本分类方法，其中，所述方法包括：服务器接收用户上传的待分类的第一文本；提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。可选的，所述方法还包括：预先在服务器内建立分类模型，所述分类模型中含有不同的词语所对应的第一级文本类别；预先在服务器内建立多个第二文本与第二级...

【技术保护点】
1.一种基于相似度匹配的文本分类方法，其特征在于，所述方法包括：服务器接收用户上传的待分类的第一文本；提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。

【技术特征摘要】
1.一种基于相似度匹配的文本分类方法，其特征在于，所述方法包括：服务器接收用户上传的待分类的第一文本；提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。2.根据权利要求1所述的基于相似度匹配的文本分类方法，其特征在于，所述方法还包括：预先在服务器内建立分类模型，所述分类模型中含有不同的词语所对应的第一级文本类别；预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表，并存储；所述第一级文本类别包含多个第二级文本类别；所述第一级文本类别为根据不同的技术领域划分出的文本类别，所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。3.根据权利要求2所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:所述服务器对所述第一文本进行拆解得到若干候选句子；所述服务器确定各候选句子的重要性分数；所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息；所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。4.根据权利要求3所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中，对第一文本进行拆分的方法为：按照标点符号进行拆解；其中，所述标点符号为分号、逗号、句号时，进行拆解，当标点符号为顿号、冒号、引号时，不进行拆解。5.根据权利要求4所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器确定各候选句子的重要性分数的步骤包括：判断所述候选句子中是否包含中文句子和/或网页链接地址；若仅仅含有中文句子，则将中文句子中各词组的权值之和作为所述候选句子的重要性分数；若仅仅含有网页链接地址，则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数；若同...

【专利技术属性】
技术研发人员：向湘杰，
申请(专利权)人：东莞市华睿电子科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人