一种基于预训练模型的政务文件归属省份分类方法技术

技术编号:32578678 阅读:11 留言:0更新日期:2022-03-09 17:08
本发明专利技术一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区

【技术实现步骤摘要】
一种基于预训练模型的政务文件归属省份分类方法


[0001]本专利技术属于人工智能
,特别涉及一种基于预训练模型的政务文件归属省份分类方法。

技术介绍

[0002]文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。
[0003]文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。
[0004]后来兴起过一段时间的知识工程的方法则借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。但这种方法的缺点仍然明显,例如分类的质量严重依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏;再比如制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受;而知识工程最致命的弱点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。

技术实现思路

[0005]为了克服上述现有技术的缺点,针对政务文件省份标签分类问题,本专利技术的目的在于提供一种基于预训练模型的政务文件归属省份分类方法,能够对政务类csv、excel文件所归属的省份进行分类,并有效避免了同一文件内部的省份重叠问题。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种基于预训练模型的政务文件归属省份分类方法,所述政务文件为csv和/或excel文件,分类方法包括以下步骤:
[0008]步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典;
[0009]步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型Bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量;
[0010]步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1;
[0011]步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典
中的地区,并依据中国行政区规划表将之打上对应的省份标签,进行地区

省份映射的训练,得到地区

省份映射模型model2;
[0012]步骤5:利用model1、model2,对新的excel、csv文件进行省份标签分类。
[0013]在一个实施例中,所述步骤1包括:
[0014]步骤1.1:将csv文件中的表格表示为具有五个键值对的字典,字典的五个键分别为name_chineseall,heading,row_attribute,column_attribute和allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表头,row_attribute表示原文件表格中的全部行属性,column_attribute表示原文件表格中的全部列属性,allcsv_chinese表示原文件中的全部中文内容;
[0015]步骤1.2:对excel文件,根据其中所包含的sheet数量n,先生成n个临时csv文件,然后依据步骤1.1中的方法,对所有临时csv文件分别生成一个特征字典,将得到的n个特征字典按照键将对应的值全部连结起来,生成一个总的特征字典,该总的特征字典即为该excel文件所对应的特征字典;
[0016]步骤1.3:将所有政务文件和与其对应的特征字典按照索引顺序存入json文件中。
[0017]在一个实施例中,所述步骤2包括:
[0018]步骤2.1:对每个特征字典中五个键所对应的值进行分字,并对分完字后的文本数据t随机生成15%的mask数据,在文本数据的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的不包含位置信息的中间向量即为被mask的字符的语义信息嵌入向量,即不包含位置信息的嵌入向量;
[0019]步骤2.2:步骤2.1处理完的五个键所对应的值,对每个字符的位置生成位置索引嵌入信息,并与步骤2.1生成的语义信息嵌入向量整合,最终分别生成五个键所对应的值的句向量。
[0020]在一个实施例中,所述步骤3包括:
[0021]步骤3.1:将步骤2中生成的值的句向量[c1,c2,c3,c4,c5,c6,...]经过4层Bi

LSTM层,生成隐含层向量[h1,h2,h3,h4,...],并将隐含层向量用于同时捕捉句向量前项和后项的依赖关系;
[0022]步骤3.2:将隐含层向量[h1,h2,h3,h4,...]经过CRF层,输出符合标注转移约束条件即最大可能的预测标注序列,并经过softmax函数归一化,生成标注概率序列[p1,p2,p3,p4,...],标注概率序列[p1,p2,p3,p4,...]中最大的概率值对应的即为预测的地区实体,从而得到地区命名实体识别模型model1。
[0023]在一个实施例中,所述步骤3.1,正方向的LSTM层用于捕获c1到c
n
的长距依赖关系,负方向的LSTM层用于捕获c
n
到c1的长距依赖关系,从而同时捕捉句向量正方向和负方向的依赖关系,生成隐含层向量[h1,h2,h3,h4,...],LSTM一共有三个门来维持和调整细胞状态,包括遗忘门,输入门,输出门,其中对于细胞状态,遗忘门,输入门,输出门的定义如下:
[0024]f
t
=σ(W
xf
x
t
+W
hf
h
t
‑1+W
cf
c
t
‑1+b
f
)
[0025]i
t
=σ(W
xi
x
t
+W
hi
h
t
‑1+W
ci
c
t
‑1+b
i
)
[0026]c
t
=f
t
c
t
‑1+i
t
tanh(W
xi
x
t
+W
h本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的政务文件归属省份分类方法,所述政务文件为csv和/或excel文件,其特征在于,分类方法包括以下步骤:步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典;步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型Bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量;步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1;步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典中的地区,并依据中国行政区规划表将之打上对应的省份标签,进行地区

省份映射的训练,得到地区

省份映射模型model2;步骤5:利用model1、model2,对新的excel、csv文件进行省份标签分类。2.根据权利要求1所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤1包括:步骤1.1:将csv文件中的表格表示为具有五个键值对的字典,字典的五个键分别为name_chineseall,heading,row_attribute,column_attribute和allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表头,row_attribute表示原文件表格中的全部行属性,column_attribute表示原文件表格中的全部列属性,allcsv_chinese表示原文件中的全部中文内容;步骤1.2:对excel文件,根据其中所包含的sheet数量n,先生成n个临时csv文件,然后依据步骤1.1中的方法,对所有临时csv文件分别生成一个特征字典,将得到的n个特征字典按照键将对应的值全部连结起来,生成一个总的特征字典,该总的特征字典即为该excel文件所对应的特征字典;步骤1.3:将所有政务文件和与其对应的特征字典按照索引顺序存入json文件中。3.根据权利要求2所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤2包括:步骤2.1:对每个特征字典中五个键所对应的值进行分字,并对分完字后的文本数据t随机生成15%的mask数据,在文本数据的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的不包含位置信息的中间向量即为被mask的字符的语义信息嵌入向量,即不包含位置信息的嵌入向量;步骤2.2:步骤2.1处理完的五个键所对应的值,对每个字符的位置生成位置索引嵌入信息,并与步骤2.1生成的语义信息嵌入向量整合,最终分别生成五个键所对应的值的句向量。4.根据权利要求3所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤3包括:步骤3.1:将步骤2中生成的值的句向量[c1,c2,c3,c4,c5,c6,...]经过4层Bi

LSTM层,生成隐含层向量[h1,h2,h3,h4,...],并将隐含层向量用于同时捕捉句向量前项和后项的依赖关系;
步骤3.2:将隐含层向量[h1,h2,h3,h4,...]经过CRF层,输出符合标注转移约束条件即最大可能的预测标注序列,并经过softmax函数归一化,生成标注概率序列[p1,p2,p3,p4,...],标注概率序列[p1,p2,p3,p4,...]中最大的概率值对应的即为预测的地区实体,从而得到地区命名实体识别模型model1。5.根据权利要求4所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤3.1中,正方向的LSTM层用于捕获c1到c
i
的长距依赖关系,负方向的LSTM层用于捕获c
i
到c1的长距依赖关系,从而同时捕捉句向量正方向和负方向的依赖关系,生成隐含层向量[h1,h2,h3,h4,...],LSTM一共有三个门来维持和调整细胞状态,包括遗忘门,输入门,输出门,其中对于细胞状态,遗忘门,输入门,输出门的定义如下:f
t
=σ(W
xf
x
t
+W
hf
h
t
‑1+W
cf
c
t
‑1+b
f
)i
t
=σ(W
xi
x
t
+W
hi
h
t
‑1+W
ci
c
t
‑1+b
i
...

【专利技术属性】
技术研发人员:沈超朱皓宬周亚东刘晓明
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1