开放领域的短文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号:25690189 阅读:15 留言:0更新日期:2020-09-18 21:01
本申请涉及文本数据处理领域,具体而言,本申请公开一种开放领域的短文本分类方法、装置、设备及存储介质,其中,开放领域的短文本分类方法包括步骤:获取待分类短文本、根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本、对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合、根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。本申请具有待分类关键词不受词典限制、能够不经过训练步骤即对短文本进行分类的优点。同时,本申请具有计算简洁的优点。

【技术实现步骤摘要】
开放领域的短文本分类方法、装置、设备及存储介质
本申请涉及文本数据处理领域,尤其涉及一种开放领域的短文本分类方法、装置、设备及存储介质。
技术介绍
随着技术的发展,短文本在搜索引擎、自动问答和话题跟踪等领域发挥着重要的作用。目前,在短文本的分类过程中,现有的短文本的分类方法对待分类关键词有词典限制,而使得短文本的分类不够灵活。
技术实现思路
本申请目的在于公开一种开放领域的短文本分类方法、装置、设备及存储介质。本申请第一方面公开一种开放领域的短文本分类方法,所述方法包括步骤:获取待分类短文本;根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本;对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合;根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。在本申请第一方面中,通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本,进而能够根据反馈文本得到扩展词集合,最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比,本申请能够避免词典对待分类关键词的限制。作为一种可选的实施方式,所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别之前,所述方法还包括:检索文本数据并生成语料;根据所述语料构建所述若干类语料库;匹配所述若干类语料库的搜索索引。在本可选的实施方式中,能够根据检索的文本数据构建若干类语料库,并能够为每个语料库关联搜索索引。作为一种可选的实施方式,所述文本数据为百科类数据。在本可选的实施方式中,文本数据为从维基百科网站获取的百科类数据。作为一种可选的实施方式,所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别,包括:根据所述待分类短文本的扩展词集合在所述若干类语料库中搜索并得到若干类语料库的检索结果;根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别。在本可选的实施方式中,能够所述若干类语料库的检索得分确定所述待分类短文本的分类类别。作为一种可选的实施方式,所述根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别,包括:根据所述若干类语料库的检索结果确定检索得分;比较每个所述语料库的检索得分,并根据比较结果确定所述待分类短文本的分类类别。在本可选的实施方式中,能够通过比较每个所述语料库的检索得分确定所述待分类短文本的分类类别。作为一种可选的实施方式,每个类别的所述语料库的语料的数目相同,每个类别的所述语料库的语料的篇幅长短相同。在本可选的实施方式中,由于每个类别语料库中的语料数目相同,篇幅长短相同,因此与现有技术相比,能够不经过训练步骤即对短文本进行分类。作为一种可选的实施方式,所述根据所述若干类语料库的检索结果确定检索得分,包括:基于所述若干类语料库的检索结果,根据最邻近分类算法确定检索得分。在本可选的实施方式中,基于最邻近分类算法能够对所述待分类短文本进行分类。本申请第二方面公开一种开放领域的短文本分类装置,该装置包括:获取模块,用于获取待分类短文本;计算模块,用于根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本;提取模块,用于对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合;分类模块,用于根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。在本申请第二方面中,开放领域的短文本分类装置通过执行开放领域的短文本分类方法,能够通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本,进而能够根据反馈文本得到扩展词集合,最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比,本申请能够避免词典对待分类关键词的限制。本申请第三方面公开一种开放领域的短文本分类设备,所述设备包括:处理器;以及存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时执行本申请的开放领域的短文本分类方法。在本申请第三方面中,开放领域的短文本分类设备通过执行开放领域的短文本分类方法,能够通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本,进而能够根据反馈文本得到扩展词集合,最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比,本申请能够避免词典对待分类关键词的限制。本申请第四方面公开一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,执行本申请的开放领域的短文本分类方法。在本申请第四方面中,存储介质通过执行开放领域的短文本分类方法,能够通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本,进而能够根据反馈文本得到扩展词集合,最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比,本申请能够避免词典对待分类关键词的限制。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例一公开的一种开放领域的短文本分类方法的流程示意图;图2为本申请实施例二公开的一种开放领域的短文本分类方法的流程示意图;图3为本申请实施例三公开的一种开放领域的短文本分类装置的结构示意图;图4为本申请实施例四公开的一种开放领域的短文本分类装置的结构示意图;图5为本申请实施例五公开的一种开放领域的短文本分类设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。需要说明的是,本申请的一种开放领域的短文本分类方法、装置设备及存储介质可以应用于自动问答问题分类、网页页面广告投放、搜索分类等场景中,与现有技术相比,具有适用范围更广的特点。实施例一请参阅图1,图1是本申请实施例公开的一种开放领域的短文本分类方法的流程示意图。本文档来自技高网...

【技术保护点】
1.一种开放领域的短文本分类方法,其特征在于,所述方法包括:/n获取待分类短文本;/n根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本;/n对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合;/n根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。/n

【技术特征摘要】
1.一种开放领域的短文本分类方法,其特征在于,所述方法包括:
获取待分类短文本;
根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本;
对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合;
根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。


2.如权利要求1所述的方法,其特征在于,在所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别之前,所述方法还包括:
检索文本数据并生成语料;
根据所述语料构建所述若干类语料库;
匹配若干类语料库的搜索索引。


3.如权利要求2所述的方法,其特征在于,所述文本数据为百科类数据。


4.如权利要求2所述的方法,其特征在于,所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别,包括:
根据所述待分类短文本的扩展词集合在所述若干类语料库中搜索并得到若干类语料库的检索结果;
根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别。


5.如权利要求4所述的方法,其特征在于,所述根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别,包括:
根据所述若干类语料库的检索结果确定检...

【专利技术属性】
技术研发人员:张发恩王一川
申请(专利权)人:创新奇智青岛科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1