文本处理方法、文本处理装置及计算机可读存储介质制造方法及图纸

技术编号:38758072 阅读:21 留言:0更新日期:2023-09-10 09:43
本发明专利技术公开了文本处理方法、文本处理装置及计算机可读存储介质,其中,所述文本处理方法包括以下步骤:根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。本发明专利技术通过爬虫爬取大量数据进行LDA主题建模学习,基于无监督学习算法构建标签体系,再根据具体标签体系以及需求,通过Mybert模型自动为文本打上相应的标签,解决了基于人工标注的方式导致标签挖掘效率低的问题。式导致标签挖掘效率低的问题。式导致标签挖掘效率低的问题。

【技术实现步骤摘要】
文本处理方法、文本处理装置及计算机可读存储介质


[0001]本专利技术涉及数据表示领域,尤其涉及文本处理方法、文本处理装置及计算机可读存储介质。

技术介绍

[0002]为体现文章的特征,通常需要挖掘文章相应的主题标签,以便基于挖掘出的主题标签对文章进行分类管理、查询或推送。例如文章中出现城管、市容等内容时,可以为其打上“城市、行政、街道管理以及城乡”等标签。
[0003]在相关的文本的标注方法中,通常在已构建好的标签体系的基础上,基于人工标注的方式进行的对目标文本进行标注。然而,当标签体系的标签无法表征当前的文本时,需要人工花费较多时间检索相关的数据,并在标签体系中添加新的标签。而在需要对大量的文章挖掘相应的主题标签时,当前的基于人工标注的方式存在标注周期长的缺陷,导致文本的标签挖掘效率较低。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种文本处理方法、文本处理装置及计算机可读存储介质,解决现有技术中文本的标签挖本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述文本处理方法包括:根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。2.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。3.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤包括:将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。4.如权利要求3所述的文本处理方法,其特征在于,所述将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值的步骤包括:将所述关键词组及其对应的所述预处理后的所述特征数据,输入到所述LDA主题模型中,得到所述预处理后的所述特征数据的困惑度:根据所述困惑度的极小值和/或极小区间确定所述主题数。5.如权利要求1所述的文本处理方法,...

【专利技术属性】
技术研发人员:张惠玲黄思敏叶嘉健沈吉祥
申请(专利权)人:深圳市智城软件技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1