文本分类方法、装置、设备以及存储介质制造方法及图纸

技术编号:25043385 阅读:23 留言:0更新日期:2020-07-29 05:33
本申请公开了一种文本分类方法、装置、设备以及存储介质,涉及数据处理领域,尤其涉及人工智能技术。具体实现方案为:根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征,得到特征序列;利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到;根据所述至少两种语义关联信息,确定所述文本块的分类结果。本申请实施例提供了一种文本分类方法、装置、设备以及存储介质,提高了文本块的分类准确率,进而基于准确的分类结果可以实现对用户需要内容的快速定位和抽取。

【技术实现步骤摘要】
文本分类方法、装置、设备以及存储介质
本申请实施例涉及数据处理领域,尤其涉及人工智能技术。具体地,本申请实施例提供一种文本分类方法、装置、设备以及存储介质。
技术介绍
段落分类任务本质上是先将文档切分成以段落为单位的文本块,然后为每个文本块分配适当的主题标签。只有完成段落分类,才能将不规范的文档章节与标准段落主题对齐,进而提高文档内容的定位效率,也有利于进一步的文档信息抽取。段落分类的准确率直接影响后续主题对齐效果,进而影响内容定位和信息抽取的效果。若段落分类错误,文档章节与标准段落的主题将无法对齐,用户需要的内容也无法被快速定位和抽取,从而使得用户体验下降。
技术实现思路
本申请实施例提供了一种文本分类方法、装置、设备以及存储介质。第一方面,本申请实施例提供一种文本分类方法,该方法包括:根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征,得到特征序列;利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到;根据所述至少两种语义关联信息,确定所述文本块的分类结果。第二方面,本申请实施例还提供了一种文本分类装置,该装置包括:序列确定模块,用于根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征,得到特征序列;信息确定模块,用于利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到;结果确定模块,用于根据所述至少两种语义关联信息,确定所述文本块的分类结果。第三方面,本专利技术实施例提供了一种电子设备,该设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例中任一项所述的方法。第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请实施例中任一项所述的方法。第五方面,本申请实施例还提供了一种文本分类方法,该方法包括:确定至少两个文本块中各文本块的文本特征,其中所述至少两个文本块通过切分同一待分类文档获得;根据所述文本特征和所述文本块在所述待分类文档中的位置,确定文本块间至少两种深度的语义关联信息;根据所述语义关联信息,确定所述文本块的分类结果。本申请实施例的技术方案,提高了文本块的分类准确率,进而基于准确的分类结果可以实现对用户需要内容的快速定位和抽取。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请实施例提供的一种文本分类方法的流程图;图2是本申请实施例提供的另一种文本分类方法的流程图;图3是本申请实施例提供的一种模型结构示意图;图4是本申请实施例提供的又一种文本分类方法的流程图;图5是本申请实施例提供的另一种模型结构示意图;图6是本申请实施例提供的又一种文本分类方法的流程图;图7是本申请实施例提供的又一种文本分类方法的流程图;图8是本申请实施例提供的又一种文本分类方法的流程图;图9是本申请实施例提供的又一种文本分类方法的流程图;图10是本申请实施例提供的一种特征构造示意图;图11是本申请实施例提供的一种模型预测示意图;图12是本申请实施例提供的又一种文本分类方法的流程图;图13是本申请实施例提供的又一种文本分类装置的结构示意图;图14是用来实现本申请实施例的文本分类方法的电子设备框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是本申请实施例提供的一种文本分类方法的流程图。本申请实施例可适用于对文本块进行准确分类,以实现对用户需要内容的快速定位和抽取的情况。该方法可以由一种文本分类装置执行,该装置可以由软件和/或硬件的方式实现。参见图1,本申请实施例提供的文本分类方法包括:S110、根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征,得到所述待分类文档的特征序列。其中,文本块是指待分类文档中的部分连续内容。具体地,文本块可以是一个句子、一个段落、连续的多个句子或连续的多个段落等。上述至少两个文本块通过切分待分类文档获得。待分类文档是指待进行文本块分类的文档。文本特征是指描述文本块特性的数据。具体地,文本特征可以是文本块在待分类文档中的位置、文本块的语义或文本块包括的关键词。可选地,文本特征也可以是上述特征的任意组合。具体地,文本块的文本特征的确定可以根据现有技术中任一种方法确定,本申请实施例对此不进行任何限定。具体地,可以根据文本块在待分类文档中的位置,将至少两个文本块的文本特征进行首尾相连或按设定顺序排列,得到所述待分类文档的特征序列。S120、利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到。其中,目标处理逻辑是挖掘文本块间不同层次的语义关联信息的逻辑目标处理子逻辑是挖掘文本块间一个层次的语义关联信息的逻辑。语义关联信息是指文本块之间语义上的关联关系。换而言之,语义关联信息也可以理解为上文和下文之间的关联关系。此处的上文和下文均是以文本块为基本单位。具体地,目标处理逻辑可以通过数学运算的方式实现。例如,将目标处理逻辑中的各目标处理子逻辑转换为数学表达式,依次利用各数学表达式对特征序列进行运算,得到至少两种文本块间的语义关联信息。S130、根据所述至少两种语义关联信息,确定所述文本块的分类结果。其中分类结果也即文本块的分类标签。具体地,可以基于语义关联信息与分类结果的映射关系,根据所述至少两种语义关联信息,确定所述文本块的分类结果。本申请实施例的技术方案,通过利用至少两个目标处理逻辑,对所述特征序列进行处理,因为目标处理逻辑通过级联不同数量的目标处理子逻辑得到,所以本申请实施例可以实现对文本块间不同层次的语义关联信息的挖掘,以得到不同深度的语义关联信息,从而实现对文本块间语义关联信本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征,得到特征序列;/n利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到;/n根据所述至少两种语义关联信息,确定所述文本块的分类结果。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征,得到特征序列;
利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到;
根据所述至少两种语义关联信息,确定所述文本块的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述利用至少两个目标处理逻辑,对所述特征序列进行处理,得到至少两种文本块间的语义关联信息,所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到,包括:
将所述特征序列输入至少两个模型分支,得到所述至少两种文本块间的语义关联信息;
所述模型分支由级联有不同数量的目标处理组件构成,所述目标处理组件关联有所述目标处理子逻辑。


3.根据权利要求2所述的方法,其特征在于,所述将所述待运算数据输入至少两个模型分支之后,所述方法还包括:
对所述目标处理组件的输入和所述目标处理组件的输出求和;
对求和结果进行归一化,并利用归一化结果替代所述目标处理组件的输出。


4.根据权利要求2所述的方法,其特征在于,所述目标处理组件由动态的双向长短期记忆网络BiLSTM构成。


5.根据权利要求1-4任一所述的方法,其特征在于,所述根据文本块在待分类文档中的位置,组合所述待分类文档中至少两个文本块的文本特征之前,所述方法还包括:
确定所述待分类文档的至少一个关键词;
根据所述文本块包括所述关键词的信息,确定所述文本块的文本特征。


6.根据权利要求5所述的方法,其特征在于,所述确定所述待分类文档的至少一个关键词,包括:
对所述待分类文档进行词语切分;
统计切分得到的词语在所述待分类文档中的出现频次;
根据所述出现频次,从所述切分得到的词语中确定所述至少一个关键词。


7.根据权利要求5所述的方法,其特征在于,所述根据所述文本块包括所述关键词的信息,确定所述文本块的文本特征,包括:
根据所述文本块包括所述关键词的信息,以及所述文本块的位置信息、文本块内容的语义信息和所述文本块的内容类型中的至少一种,确定所述文本块的文本特征。


8.根据权利要求1-4所述的方法,其特征在于,所述利用至少两个目标处理逻辑,对所述特征序列进行处理之前,所述方法还包括:
根据所述特征序列中的各文本特征,确定降维后特征序列中的各特征,得到降维后的特征序列;
将降维后的特征序列作为所述目标处理逻辑的输入。


9.根据权利要求1-4中任一所述的方法,其特征在于,所述根据所述至少两种语义关联信息,确定所述文本块的分类结果,包括:
根据所述至少两种语义关联信息,确定目标关联信息;
根据所述目标关联信息,确定所述文本块的分类结果。


10.根据权利要求9所述的方法,其特征在于,所述根据所述至少两种语义关联信息,确定目标关联信息,包括:
对所述至少两种语义关联信息进行加权求和,得到所述目标关联信息;
其中权重根据所述目标处理子逻辑的级联数量与所述文本块的匹配度确定。


11.根据权利要求1-4中任一所述的方法,其特征在于,所述根据所述目...

【专利技术属性】
技术研发人员:张亦鹏张真刘明浩姚荣洁郭江亮
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1