当前位置: 首页 > 专利查询>深圳大学专利>正文

文本类标训练方法和识别方法、相关装置及存储介质制造方法及图纸

技术编号:21629247 阅读:27 留言:0更新日期:2019-07-17 11:11
一种文本类标训练方法和识别方法、相关装置及存储介质,其中,该文本类标训练方法包括:获取第一文本和第二文本,所述第一文本为目标类标的正例样本,所述第二文本为目标类标的负例样本;分别对所述第一文本和所述第二文本进行文本向量化处理,分别得到第一文本向量和第二文本向量;所述文本向量化处理是根据文本中特征词的词向量和词频进行的;根据所述第一文本向量和所述第二文本向量训练文本类标分类器。

Training and Recognition Methods of Text Class Markers, Related Devices and Storage Media

【技术实现步骤摘要】
文本类标训练方法和识别方法、相关装置及存储介质
本申请涉及电子
,尤其涉及一种文本类标训练方法和识别方法、相关装置及存储介质。
技术介绍
文本分类在包括金融、新闻、社交网络等等领域都有着十分广泛的应用。目前的文本数据中包含多种类型,例如众多网络媒体的文章、社交媒体的评论与文章数据以及法律领域的裁判文书等等,其存在形式往往为短文本,有着关键信息少,噪声多的特点。文本分类的定义是按照预先拟定的类别,按照每个类别对应的规则来将未知类别多文档进行归类的过程。最早使用文本分类这一概念的是Maron,采用了朴素贝叶斯公式来进行分类,这是发展的第一阶段。到了第二阶段,主要是采用基于规则的方法来建立文本分类器。直到第三阶段,机器学习和统计学习方法的出现为文本分类提供了新的思路,补充了之前基于规则分类的不足之处。目前,文本分类已经应用到多种语言和多种领域,中文领域也是如此。新闻分类、文摘提取等诸多领域也开始使用文本分类来进行工作。经典统计文本分类方法基于众所周知的机器学习模型,例如生成模型例如朴素贝叶斯或支持向量机等判别模型。它们主要考虑文档的单词表示(单词或句子的顺序丢失),并尝试通过查看整个文档内容来计算类别分数。这些方法考虑了文档的整个单词集,以决定它所属的类别。基本假设是类别信息均匀的分散在文档内部。这非常适用于文档很短,噪声很小的语料库,因此全局词频可以很容易地与主题相关联。然而,这些方法不能很好地预测大型文档的类别,其中主题信息仅集中在几个句子中。另外,为了使这些方法适用,必须在分类时知道整个文件。在与获取文本信息相关的成本的情况下,考虑整个文档的方法不能被有效或可靠地应用,因为我们不知道文本包含几个类标信息,也不知道文本的哪几句话对应哪一个类标。
技术实现思路
本申请实施例提供一种文本类标训练方法和识别方法、相关装置及存储介质,用于进行准确的文本类标识别。本申请实施例第一方面提供一种文本类标训练方法,包括:获取第一文本和第二文本,所述第一文本为目标类标的正例样本,所述第二文本为目标类标的负例样本;分别对所述第一文本和所述第二文本进行文本向量化处理,分别得到第一文本向量和第二文本向量;所述文本向量化处理是根据文本中特征词的词向量和词频进行的;根据所述第一文本向量和所述第二文本向量训练文本类标分类器。进一步地,所述进行文本向量化处理,包括:在语料库中选择N个目标词构成目标词典,所述N为大于零的整数;以所述目标词典中的目标词作为特征词进行训练,获得所述特征词的词向量;根据文本中特征词的词频以及特征词的词向量,将文本向量化表示。进一步地,所述根据文本中特征词的词频以及特征词的词向量,将文本向量化表示,包括:将所述特征词的词频乘以所述特征词的词向量,得到新向量;将文本中包含的各个特征词对应的新向量相加,得到文本对应的文本向量。本申请实施例第二方面提供一种文本类标识别方法,包括:获取目标文本,根据标点符号对所述目标文本进行断句,切割成多个句子形成句子序列;依次将所述句子序列中的一个句子输入至文本类标分类器集合进行匹配识别,所述文本类标分类器集合包含有至少两个文本类标分类器,所述文本类标分类器根据第一文本向量和第二文本向量训练得到,所述所述第一文本向量为目标类标的正例样本对应的文本向量,所述第二文本为目标类标的负例样本对应的文本向量。进一步地,所述文本类标分类器集合包括:第一文本类标分类器和第二文本类标分类器;所述第一文本类标分类器和所述第二文本类标分类器分别对应第一类标和第二类标;所述依次将所述句子序列中的一个句子输入至文本类标分类器集合进行匹配识别,包括:将所述句子序列中的一个句子输入至第一文本类标分类器中进行匹配识别,若匹配成功,则所述句子对应所述第一类标;若匹配不成功,则将所述句子输入至第二文本类标分类器中进行匹配识别,则所述句子对应所述第二类标;若匹配不成功,则将所述句子输入至下一个文本类标分类器,若所述文本类标分类器集合中所有文本类标分类器都匹配不成功,则将所述句子重置。进一步地,所述将所述句子重置,包括:将所述句子与所述句子序列中的下一个句子进行合并,得到新句子;所述将所述句子重置之后,包括:将所述新句子输入至所述文本类标分类器集合进行匹配识别。本申请实施例第三方面提供文本类标训练装置,包括:文本获取单元,用于获取第一文本和第二文本,所述第一文本为目标类标的正例样本,所述第二文本为目标类标的负例样本;向量化处理单元,用于分别对所述第一文本和所述第二文本进行文本向量化处理,分别得到第一文本向量和第二文本向量;所述文本向量化处理是根据文本中特征词的词向量和词频进行的;训练单元,用于根据所述第一文本向量和所述第二文本向量训练文本类标分类器。本申请实施例第四方面提供文本类标识别装置,包括:文本处理单元,用于获取目标文本,根据标点符号对所述目标文本进行断句,切割成多个句子形成句子序列;匹配识别单元,用于依次将所述句子序列中的一个句子输入至文本类标分类器集合进行匹配识别,所述文本类标分类器集合包含有至少两个文本类标分类器,所述文本类标分类器根据第一文本向量和第二文本向量训练得到,所述所述第一文本向量为目标类标的正例样本对应的文本向量,所述第二文本为目标类标的负例样本对应的文本向量。本申请实施例第五方面提供另一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述本申请实施例第一方面提供的文本类标训练方法。本申请实施例第六方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的文本类标训练方法。由上可见,本申请方案先获取第一文本和第二文本,再分别对所述第一文本和所述第二文本进行文本向量化处理,分别得到第一文本向量和第二文本向量,最后根据正例样本对应的第一文本向量和福例样本对应的第二文本向量训练文本类标分类器,由于用于训练的文本向量体现了文本中特征词的词向量和词频信息,因此,能够准确地对文本进行类标识别。附图说明图1-a为本申请实施例提供的文本类标训练方法的实现流程示意图;图1-b为本申请实施例提供的文本类标识别方法的实现流程示意图;图1-c为本申请实施例提供的文本类标识别方法的应用示意图;图2为本申请一实施例提供的文本类标训练装置结构示意图;图3为本申请一实施例提供的文本类标识别装置结构示意图;图4为本申请另一实施例提供的电子装置硬件结构示意图。具体实施方式为使得本申请的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括本文档来自技高网
...

【技术保护点】
1.一种文本类标训练方法,其特征在于,包括:获取第一文本和第二文本,所述第一文本为目标类标的正例样本,所述第二文本为目标类标的负例样本;分别对所述第一文本和所述第二文本进行文本向量化处理,分别得到第一文本向量和第二文本向量;所述文本向量化处理是根据文本中特征词的词向量和词频加权进行的;根据所述第一文本向量和所述第二文本向量训练文本类标分类器。

【技术特征摘要】
1.一种文本类标训练方法,其特征在于,包括:获取第一文本和第二文本,所述第一文本为目标类标的正例样本,所述第二文本为目标类标的负例样本;分别对所述第一文本和所述第二文本进行文本向量化处理,分别得到第一文本向量和第二文本向量;所述文本向量化处理是根据文本中特征词的词向量和词频加权进行的;根据所述第一文本向量和所述第二文本向量训练文本类标分类器。2.根据权利要求1所述的方法,其特征在于,所述进行文本向量化处理,包括:在语料库中选择N个目标词构成目标词典,所述N为大于零的整数;以所述目标词典中的目标词作为特征词进行训练,获得所述特征词的词向量;根据文本中特征词的词频以及特征词的词向量,将文本向量化表示。3.根据权利要求2所述的方法,其特征在于,所述根据文本中特征词的词频以及特征词的词向量,将文本向量化表示,包括:将所述特征词的词频乘以所述特征词的词向量,得到新向量;将文本中包含的各个特征词对应的新向量相加,得到文本对应的文本向量。4.一种文本类标识别方法,其特征在于,包括:获取目标文本,根据标点符号对所述目标文本进行断句,切割成多个句子形成句子序列;依次将所述句子序列中的一个句子输入至文本类标分类器集合进行匹配识别,所述文本类标分类器集合包含有至少两个文本类标分类器,所述文本类标分类器根据第一文本向量和第二文本向量训练得到,所述所述第一文本向量为目标类标的正例样本对应的文本向量,所述第二文本为目标类标的负例样本对应的文本向量。5.根据权利要求4所述的方法,其特征在于,所述文本类标分类器集合包括:第一文本类标分类器和第二文本类标分类器;所述第一文本类标分类器和所述第二文本类标分类器分别对应第一类标和第二类标;所述依次将所述句子序列中的一个句子输入至文本类标分类器集合进行匹配识别,包括:将所述句子序列中的一个句子输入至第一文本类标分类器中进行匹配识别,若匹配成功,则所述句子对应...

【专利技术属性】
技术研发人员:李俊杰许书华
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1