一种基于相似度匹配的文本分类方法技术

技术编号:19822015 阅读:20 留言:0更新日期:2018-12-19 14:47
本发明专利技术提供了一种基于相似度匹配的文本分类方法,通过服务器接收用户上传的待分类的第一文本,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。本发明专利技术公开的文本分类方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本分类的效率和准确性。

【技术实现步骤摘要】
一种基于相似度匹配的文本分类方法
本专利技术数据处理领域,尤其涉及一种基于相似度匹配的文本分类方法。
技术介绍
现代社会是信息爆炸的社会,互联网上存在着海量的数据。现有技术中,用户可能会产生对多个文本进行分类存储的需求,例如:电子图书馆需要根据文本内容的不同进行分类,便于查找,专利文件需要进行文本分类,便于查找和处理相关文件。现有技术中的文件分类方法一般是由人工将稿件阅读完后总结出该稿件的核心思想,然后归纳出关键词,在根据文件的类型进行分类,或者简单的根据词频进行分类,前者效率低,后一种方法过于机械,无法取得较佳的分类效果。因此,现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处,本专利技术的目的在于为用户提供一种基于相似度匹配的文本分类方法,克服现有技术中文本分类效率低或者分类效果差的缺陷。本专利技术公开了一种基于相似度匹配的文本分类方法,其中,所述方法包括:服务器接收用户上传的待分类的第一文本;提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。可选的,所述方法还包括:预先在服务器内建立分类模型,所述分类模型中含有不同的词语所对应的第一级文本类别;预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表,并存储;所述第一级文本类别包含多个第二级文本类别;所述第一级文本类别为根据不同的
划分出的文本类别,所述第二级文本类别同一
下不同应用场景划分出的文本分类。可选的,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:所述服务器对所述第一文本进行拆解得到若干候选句子;所述服务器确定各候选句子的重要性分数;所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。可选的,所述服务器确定各候选句子的重要性分数的步骤包括:判断所述候选句子中是否包含中文句子和/或网页链接地址;若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。可选的,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:按照语义分析的方式再将每个候选句子拆分为若干个词组;进行全文检索,计算各词组出现的次数;按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。可选的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:服务器后台开启该网页链接地址对应的目标网页;服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。可选的,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:使用下面的公式确定目标网页的重要性分数;其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。可选的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;若余弦相似度高于预设值,则确定第一文本与第二文本近似。可选的,所述余弦相似度的计算方法为:将第一句子拆分为若干个词组;将第二句子拆分为若干个词组;将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。有益效果,本专利技术提供了一种基于相似度匹配的文本分类方法,通过服务器接收用户上传的待分类的第一文本;提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。本专利技术公开的文本分类方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本信息验证的准确性。附图说明图1为本专利技术所公开的一种基于文本密码的登录验证方法的具体实施例步骤流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术公开了一种基于相似度匹配的文本分类方法,如图1,所述方法包括:步骤S101、服务器接收用户上传的待分类的第一文本。服务器接收用户通过客户端或者直接在服务器中上传的第一文本,并需要对所述第一文本进行文本类别识别,并将所述文本归类到识别出的文本集中。具体的,本专利技术中设置有两个不同的文本类别,分别通过预先在服务器内建立分类模型,所述分类模型中含有不同的词语所对应的第一级文本类别,和预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表,并存储;所述第一级文本类别包含多个第二级文本类别;所述第一级文本类别为根据不同的
划分出的文本类别,所述第二级文本类别同一
下不同应用场景划分出的文本分类。步骤S102、提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别。为了便于更快速的识别第一文本的文本类型,首先提取所述第一文本的关键词,对提取到的关键词进行词频统计,并将词频统计结果输入到分类模型中,识别出所述第一文本所属的第一级文本类别,即是其所属
所在的文本类别。步骤S103、根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本。获取第一级文本本文档来自技高网
...

【技术保护点】
1.一种基于相似度匹配的文本分类方法,其特征在于,所述方法包括:服务器接收用户上传的待分类的第一文本;提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。

【技术特征摘要】
1.一种基于相似度匹配的文本分类方法,其特征在于,所述方法包括:服务器接收用户上传的待分类的第一文本;提取所述第一文本的关键词,对所述第一文本进行词频统计,将词频统计结果输入分类模型,通过分类模型识别出其所属的第一级文本类别;根据所述第一级文本类别,获取服务器中所述第一级文本类别下所对应的多个第二文本;服务器依次计算第一文本与各个第二文本之间的相似度;判断计算出的相似度最大值是否超出预设阈值;若超出,则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别;否则,将第一文本归类到未识别文本集中。2.根据权利要求1所述的基于相似度匹配的文本分类方法,其特征在于,所述方法还包括:预先在服务器内建立分类模型,所述分类模型中含有不同的词语所对应的第一级文本类别;预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表,并存储;所述第一级文本类别包含多个第二级文本类别;所述第一级文本类别为根据不同的技术领域划分出的文本类别,所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。3.根据权利要求2所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:所述服务器对所述第一文本进行拆解得到若干候选句子;所述服务器确定各候选句子的重要性分数;所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。4.根据权利要求3所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。5.根据权利要求4所述的基于相似度匹配的文本分类方法,其特征在于,所述服务器确定各候选句子的重要性分数的步骤包括:判断所述候选句子中是否包含中文句子和/或网页链接地址;若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;若同...

【专利技术属性】
技术研发人员:向湘杰
申请(专利权)人:东莞市华睿电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1