一种文本分类方法、装置及计算机可读存储介质制造方法及图纸

技术编号:21477621 阅读:24 留言:0更新日期:2019-06-29 04:49
本发明专利技术公开了一种文本分类方法、装置及计算机可读存储介质,首先获取测试文本;之后提取所述测试文本中的关键词;再通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此,本发明专利技术通过提取出具有skip‑gram特性的带有语义特征的搭配,可以更好的支持文本分类,从而大大提高文本分类的可靠性。而且,由于Skip‑gram算法是有语义的,故通过对不同分类的支持程度,可以转化成文本模型,这将在基于语义的推荐模型上起到很大的作用。

【技术实现步骤摘要】
一种文本分类方法、装置及计算机可读存储介质
本专利技术涉及文本自动化处理
,尤其涉及一种文本分类方法、装置及计算机可读存储介质。
技术介绍
随着文本自动化处理技术的不断演进,对文本分类的精确性要求越来越高。相关技术中,通常采用包括几种可能的分类方式来确定文本类别:方式1,利用深度神经网络(如CNN或RNN)来自动发现文本特征,并进一步利用soft-max方法进行文本分类;方式2,利用tf-idf或者chi-squares关键词提取得到文本特征,并进行文本分类;方式3,利用n-gram提取,得到文本特征,并进行文本分类。然而,上述所提及的几种分类方式均存在明显的缺陷:1)CNN/RNN可以自动提取skip-grampairs(搭配)作为文本分类特征,但是提取的特征搭配往往是人类无法理解的字符级配对,无法用语义解释;2)传统的关键词文本分类特征提取方法,没有考虑到词组间的配对搭配特征对文本分类的重要性;3)利用n-gram文本分类特征提取方法,忽略了skip-gram的配对特征对文本分类的重要性。
技术实现思路
本专利技术实施例为了解决上述提及的文本分类方式所存在的种种问题,创造性的提供一种文本分类方法、装置及计算机可读存储介质。根据本专利技术实施例的第一方面,提供一种文本分类方法,该方法包括:获取测试文本;提取所述测试文本中的关键词;通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;根据所述测试文本的语义配对特征确定所述测试文本的文本类别。根据本专利技术一实施方式,所述提取所述测试文本中的关键词,包括:对所述测试文本进行分词处理,得到分词处理结果;从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。根据本专利技术一实施方式,所述语义配对算法为Skip-gram算法。根据本专利技术一实施方式,所述通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征,包括:利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。根据本专利技术一实施方式,根据所述测试文本的语义配对特征确定所述测试文本的文本类别,包括:从所述测试文本的语义配对特征中提取关键语义配对特征;根据所述关键语义配对特征确定所述测试文本的文本类别。根据本专利技术实施例的第二方面,提供一种文本分类装置,所述装置包括:获取模块,用于获取测试文本;关键词提取模块,用于提取所述测试文本中的关键词;语义配对特征模块,用于通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;分类模块,用于根据所述测试文本的语义配对特征确定所述测试文本的文本类别。根据本专利技术一实施方式,所述关键词提取模块包括:分词处理单元,用于对所述测试文本进行分词处理,得到分词处理结果;关键词提取单元,用于从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。根据本专利技术一实施方式,所述语义配对特征模块包括:原始配对特征提取单元,用于利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;语义配对特征提取单元,用于通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。根据本专利技术一实施方式,所述分类模块包括:关键语义配对特征提取单元,用于从所述测试文本的语义配对特征中提取关键语义配对特征;分类单元,用于根据所述关键语义配对特征确定所述测试文本的文本类别。根据本专利技术实施例的第三方面,提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一文本分类方法。本专利技术实施例文本分类方法、装置及计算机可读存储介质,首先获取测试文本;之后提取所述测试文本中的关键词;再通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;最后根据所述测试文本的语义配对特征确定所述测试文本的文本类别。如此,本专利技术通过提取出具有skip-gram特性的带有语义特征的搭配,可以更好的支持文本分类,从而大大提高文本分类的可靠性。而且,由于Skip-gram算法是有语义的,故通过对不同分类的支持程度,可以转化成文本模型,这将在基于语义的推荐模型上起到很大的作用。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1示出了本专利技术实施例文本分类方法的实现流程示意图;图2示出了本专利技术实施例文本分类装置的组成结构示意图。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为使本专利技术更加透彻和完整,并能够将本专利技术的范围完整地传达给本领域的技术人员。下面结合附图和具体实施例对本专利技术的技术方案进一步详细阐述。图1示出了本专利技术实施例文本分类方法的实现流程示意图。参考图1,本专利技术实施例文本分类方法包括:操作101,获取测试文本;操作102,提取测试文本中的关键词;操作103,通过语义配对算法根据所提取的关键词进行配对特征提取,得到测试文本的语义配对特征;操作104,根据测试文本的语义配对特征确定测试文本的文本类别。在操作101,可以获取任意大小,任意文本内容的测试文本。在操作102,提取测试文本中的关键词具体包括:对所述测试文本进行分词处理,得到分词处理结果;从分词处理结果中进行关键词提取,得到测试文本的关键词。其中,通常可以利用tf-idf或者Chi-square的方法来进行关键词提取。以tf-idf为例,如果某个词或短语在测试文本中出现的频率TF高,并且在其他文本中很少出现,则认为该词或者短语具有很好的类别区分能力,适合用来分类。在操作103,本专利技术所采用的语义配对算法为Skip-gram算法。具体地,通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征,包括:先利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;之后通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。这里,n-gram算法主要采用固定长度N的滑动窗口进行切分,目前常用的n-gram模型是二元的Bi-gram和三元的Tri-gram模型,对两种模型的切分方法进行比较,比如“北京欢迎你的到来”,Bi-gram切分就是“北京欢迎欢迎你的你的到来”,Tri-gram切分就是“北京欢迎你的欢迎你的到来”。Skip-gram算法/模型,就是给定一个关键词后,预测在该关键词左右两边可能会出现什么词。当然这个预测是有范围的,也是采用固定窗口来表示。这样,通过操作103可以提取出具有Skip-g本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:获取测试文本;提取所述测试文本中的关键词;通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;根据所述测试文本的语义配对特征确定所述测试文本的文本类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取测试文本;提取所述测试文本中的关键词;通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;根据所述测试文本的语义配对特征确定所述测试文本的文本类别。2.根据权利要求1所述的方法,其特征在于,所述提取所述测试文本中的关键词,包括:对所述测试文本进行分词处理,得到分词处理结果;从所述分词处理结果中进行关键词提取,得到所述测试文本的关键词。3.根据权利要求1所述的方法,其特征在于,所述语义配对算法为Skip-gram算法。4.根据权利要求1或3所述的方法,其特征在于,所述通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征,包括:利用n-gram算法根据所提取的关键词进行配对特征提取,得到所述测试文本的原始配对特征;通过Skip-gram算法结合所得到的原始配对特征,提取所述测试文本的语义配对特征。5.根据权利要求1所述的方法,其特征在于,根据所述测试文本的语义配对特征确定所述测试文本的文本类别,包括:从所述测试文本的语义配对特征中提取关键语义配对特征;根据所述关键语义配对特征确定所述测试文本的文本类别。6.一种文本分类装置,其特征在于,所述装置包括:获取模块,用于获取...

【专利技术属性】
技术研发人员:崔燕红
申请(专利权)人:北京泰迪熊移动科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1