【技术实现步骤摘要】
一种公开文本的标签抽取方法、装置、设备及存储介质
[0001]本专利技术实施例涉及机器学习
,尤其涉及一种公开文本的标签抽取方法、装置、设备及存储介质。
技术介绍
[0002]随着互联网技术的快速发展,各类信息公开的趋势日益增加,如何对公共文本进行挖掘已经成为了研究热点。
[0003]在众多公共文本挖掘任务中,从公共文本中抽取特征标签,是一个很重要的任务。基于特征标签,我们可以对公共文本进行内容检索、内容分类、文本推荐。
[0004]当前,基于人工的特征标签抽取方法,需要耗费大量的人力和时间。
技术实现思路
[0005]本专利技术提供了一种公开文本的标签抽取方法、装置、设备及存储介质,以解决现有技术中由于抽取标签时需要使用不同的模型而导致的效率低下的问题。
[0006]根据本专利技术的一方面,提供了一种公开文本的标签抽取方法,包括:
[0007]获取多个公开文本,将所述多个公开文本按照预设比例划分为训练集和测试集;
[0008]将训练集中的公开文本分割成多个句子; ...
【技术保护点】
【技术特征摘要】
1.一种公开文本的标签抽取方法,其特征在于,所述方法包括:获取多个公开文本,将所述多个公开文本按照预设比例划分为训练集和测试集;将训练集中的公开文本分割成多个句子;将所述多个句子分别标注上对应的真实特征标签;将所述真实特征标签以及所述训练集公开文本输入机器阅读理解模型进行模型训练得到最终机器阅读理解模型;将测试集中的公开文本输入所述最终机器阅读理解模型中得到多个抽取的特征标签。2.根据权利要求1所述的方法,其特征在于,所述真实特征标签包括标签类别以及位置信息,所述位置信息为对应句子在公开文本中的起始位置和终止位置。3.根据权利要求1所述的方法,其特征在于,所述将训练集中的公开文本分割成多个句子,包括:将训练集中的公开文本的文本标题作为一个句子;根据换行符和句号将所述公开文本的正文分割成多个句子。4.根据权利要求1所述的方法,其特征在于,所述抽取的特征标签包括标签类别以及位置信息,相应的,所述将测试集公开文本输入最终机器阅读理解模型中得到多个抽取的特征标签,包括:将测试集公开文本输入训练好的机器阅读理解模型中;通过片段抽取任务从所述测试集公开文本中确定出多个问句以及多个问句的抽取位置;针对每个问句,将问句所属的类别作为所述问句的标签类别,将问句的抽取位置作为位置信息。5.根据权利要求1所述的方法,其特征在于,还包括:使用预设规则将多个抽取的特征标签进行规范化处理;计算多个规范化后的特征标签的标签权重。6.根据权利要求5所述的方法,其特征在于,所述计算多个规范化后的特征标签的标签权重,包括:获取每个规范化后的特征标签的出现频率;根据多个规范化后的特征标签中的位置信息确定出每个规范化后的特征标签在预设位置的出现频率;根据所述出现频率、所述预设位置对应的...
【专利技术属性】
技术研发人员:李宁宁,
申请(专利权)人:长沙爱得自在信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。