文本分类方法、装置、设备以及存储介质制造方法及图纸

技术编号：25043385 阅读：23 留言：0更新日期：2020-07-29 05:33

本申请公开了一种文本分类方法、装置、设备以及存储介质，涉及数据处理领域，尤其涉及人工智能技术。具体实现方案为：根据文本块在待分类文档中的位置，组合所述待分类文档中至少两个文本块的文本特征，得到特征序列；利用至少两个目标处理逻辑，对所述特征序列进行处理，得到至少两种文本块间的语义关联信息，所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到；根据所述至少两种语义关联信息，确定所述文本块的分类结果。本申请实施例提供了一种文本分类方法、装置、设备以及存储介质，提高了文本块的分类准确率，进而基于准确的分类结果可以实现对用户需要内容的快速定位和抽取。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、设备以及存储介质
本申请实施例涉及数据处理领域，尤其涉及人工智能技术。具体地，本申请实施例提供一种文本分类方法、装置、设备以及存储介质。
技术介绍
段落分类任务本质上是先将文档切分成以段落为单位的文本块，然后为每个文本块分配适当的主题标签。只有完成段落分类，才能将不规范的文档章节与标准段落主题对齐，进而提高文档内容的定位效率，也有利于进一步的文档信息抽取。段落分类的准确率直接影响后续主题对齐效果，进而影响内容定位和信息抽取的效果。若段落分类错误，文档章节与标准段落的主题将无法对齐，用户需要的内容也无法被快速定位和抽取，从而使得用户体验下降。
技术实现思路
本申请实施例提供了一种文本分类方法、装置、设备以及存储介质。第一方面，本申请实施例提供一种文本分类方法，该方法包括：根据文本块在待分类文档中的位置，组合所述待分类文档中至少两个文本块的文本特征，得到特征序列；利用至少两个目标处理逻辑，对所述特征序列进行处理，得到至少两种文本块间的语义关联信息，所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到；根据所述至少两种语义关联信息，确定所述文本块的分类结果。第二方面，本申请实施例还提供了一种文本分类装置，该装置包括：序列确定模块，用于根据文本块在待分类文档中的位置，组合所述待分类文档中至少两个文本块的文本特征，得到特征序列；信息确定模块，用于利用至少两个目标处理逻辑，对所述特征序列进行处理，得到至少两种文本块间的...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：/n根据文本块在待分类文档中的位置，组合所述待分类文档中至少两个文本块的文本特征，得到特征序列；/n利用至少两个目标处理逻辑，对所述特征序列进行处理，得到至少两种文本块间的语义关联信息，所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到；/n根据所述至少两种语义关联信息，确定所述文本块的分类结果。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：
根据文本块在待分类文档中的位置，组合所述待分类文档中至少两个文本块的文本特征，得到特征序列；
利用至少两个目标处理逻辑，对所述特征序列进行处理，得到至少两种文本块间的语义关联信息，所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到；
根据所述至少两种语义关联信息，确定所述文本块的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述利用至少两个目标处理逻辑，对所述特征序列进行处理，得到至少两种文本块间的语义关联信息，所述至少两个目标处理逻辑通过级联不同数量的目标处理子逻辑得到，包括：
将所述特征序列输入至少两个模型分支，得到所述至少两种文本块间的语义关联信息；
所述模型分支由级联有不同数量的目标处理组件构成，所述目标处理组件关联有所述目标处理子逻辑。

3.根据权利要求2所述的方法，其特征在于，所述将所述待运算数据输入至少两个模型分支之后，所述方法还包括：
对所述目标处理组件的输入和所述目标处理组件的输出求和；
对求和结果进行归一化，并利用归一化结果替代所述目标处理组件的输出。

4.根据权利要求2所述的方法，其特征在于，所述目标处理组件由动态的双向长短期记忆网络BiLSTM构成。

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据文本块在待分类文档中的位置，组合所述待分类文档中至少两个文本块的文本特征之前，所述方法还包括：
确定所述待分类文档的至少一个关键词；
根据所述文本块包括所述关键词的信息，确定所述文本块的文本特征。

6.根据权利要求5所述的方法，其特征在于，所述确定所述待分类文档的至少一个关键词，包括：
对所述待分类文档进行词语切分；
统计切分得到的词语在所述待分类文档中的出现频次；
根据所述出现频次，从所述切分得到的词语中确定所述至少一个关键词。

7.根据权利要求5所述的方法，其特征在于，所述根据所述文本块包括所述关键词的信息，确定所述文本块的文本特征，包括：
根据所述文本块包括所述关键词的信息，以及所述文本块的位置信息、文本块内容的语义信息和所述文本块的内容类型中的至少一种，确定所述文本块的文本特征。

8.根据权利要求1-4所述的方法，其特征在于，所述利用至少两个目标处理逻辑，对所述特征序列进行处理之前，所述方法还包括：
根据所述特征序列中的各文本特征，确定降维后特征序列中的各特征，得到降维后的特征序列；
将降维后的特征序列作为所述目标处理逻辑的输入。

9.根据权利要求1-4中任一所述的方法，其特征在于，所述根据所述至少两种语义关联信息，确定所述文本块的分类结果，包括：
根据所述至少两种语义关联信息，确定目标关联信息；
根据所述目标关联信息，确定所述文本块的分类结果。

10.根据权利要求9所述的方法，其特征在于，所述根据所述至少两种语义关联信息，确定目标关联信息，包括：
对所述至少两种语义关联信息进行加权求和，得到所述目标关联信息；
其中权重根据所述目标处理子逻辑的级联数量与所述文本块的匹配度确定。

11.根据权利要求1-4中任一所述的方法，其特征在于，所述根据所述目...

【专利技术属性】
技术研发人员：张亦鹏，张真，刘明浩，姚荣洁，郭江亮，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人