一种基于albert预训练模型和kmean算法的评论标签提取的方法技术

技术编号:27031464 阅读:58 留言:0更新日期:2021-01-12 11:14
本发明专利技术涉及自然语言处理技术领域,具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:步骤一、爬取门店的评论数据,数据导入到数据库中;步骤二、对数据库的数据进行数据清洗;步骤三、利用albert预训练模型获得词向量;步骤四、评估模型的平均准确率,本发明专利技术利用albert作为预训练模型,模型小,训练速度快,对于大规模数据情况下,效果更好,本发明专利技术利用kmean算法作为无监督的聚类算法,通过获取albert的最后一层词向量作为输入,并最终通过kmean聚类算法聚类,达到更为准确的预估准确率。

【技术实现步骤摘要】
一种基于albert预训练模型和kmean算法的评论标签提取的方法
本专利技术涉及自然语言处理
,具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法。
技术介绍
在外卖领域中,针对外卖评论数据,客户的评论内容作为和商家的沟通桥梁,从评论中提取有用的信息对于商家改进自身的情况有着重要的作用,将自然语言处理技术应用到外卖评论的标签提提取中能够达到较为理想的效果,在该过程中一般利用tfidf算法进行识别分析,但在tf不断增加时,TFScore会无限制增加,导致文本相关性的逻辑偏离,外卖评论数据一般长度短,因此前文利用的信息有限,一般的训练模型在短时序中效果有限,训练速度慢,消耗的算理资源多。鉴于此,我们提出一种基于albert预训练模型和kmean算法的评论标签提取的方法。
技术实现思路
本专利技术的目的在于提供一种基于albert预训练模型和kmean算法的评论标签提取的方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:步骤一、爬取门店的评论数据,数据导入到数据库中;步骤二、对数据库的数据进行数据清洗;步骤三、利用albert预训练模型获得词向量;步骤四、评估模型的平均准确率。作为本专利技术优选的技术方案,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中。作为本专利技术优选的技术方案,步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。作为本专利技术优选的技术方案,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。作为本专利技术优选的技术方案,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。作为本专利技术优选的技术方案,步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、TransformerBlock1、TransformerBlock2、TransformerBlock3、TransformerBlock4、TransformerBlock5、TransformerBlock6、TransformerBlock7、TransformerBlock8、TransformerBlock9、TransformerBlock10、TransformerBlock11、TransformerBlock12以及下游任务。作为本专利技术优选的技术方案,步骤四中的kmean算法具体的算法内容如下:1)随机选择K个中心点;2)把每个数据点分配到离它最近的中心点;3)重新计算每类中的点到该类中心点距离的平均值;4)分配每个数据到它最近的中心点;5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。作为本专利技术优选的技术方案,步骤四中评估模型的平均准确率的具体步骤如下:1)人工标注好的1500条数据测试集;2)将训练好的模型对测试集进行预测,得到结果;3)将预测结果和已有结果进行比较,算出准确率;4)重复3步骤5次,取平均结果即可得到平均准确率。与现有技术相比,本专利技术的有益效果是:本专利技术利用albert作为预训练模型,模型小,训练速度快,对于大规模数据情况下,效果更好,本专利技术利用kmean算法作为无监督的聚类算法,通过获取albert的最后一层词向量作为输入,并最终通过kmean聚类算法聚类,达到更为准确的预估准确率。附图说明图1为本专利技术的主流程图;图2为本专利技术中albert预训练模型的网络结构;图3为本专利技术中kmean算法训练流程图。具体实施方式下面将结合本专利技术实施例对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例本实施例提供的技术方案为:一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:步骤一、爬取门店的评论数据,数据导入到数据库中;步骤二、对数据库的数据进行数据清洗;步骤三、利用albert预训练模型获得词向量;步骤四、评估模型的平均准确率。作为本实施例的优选,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中,下面用实际样例进行分析,数据如下表所示:作为本实施例的优选,步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。作为本实施例的优选,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。作为本实施例的优选,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。作为本实施例的优选,步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、TransformerBlock1、TransformerBlock2、TransformerBlock3、TransformerBlock4、TransformerBlock5、TransformerBlock6、TransformerBlock7、TransformerBlock8、TransformerBlock9、TransformerBlock10、TransformerBlock11、TransformerBlock12以及下游任务。作为本实施例的优选,步骤四中的kmean算法具体的算法内容如下:1)随机选择K个中心点;2)把每个数据点分配到离它最近的中心点;3)重新计算每类中的点到该类中心点距离的平均值;4)分配每个数据到它最近的中心点;5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。作为本实施例的优选,步本文档来自技高网...

【技术保护点】
1.一种基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:该方法的步骤如下:/n步骤一、爬取门店的评论数据,数据导入到数据库中;/n步骤二、对数据库的数据进行数据清洗;/n步骤三、利用albert预训练模型获得词向量;/n步骤四、评估模型的平均准确率。/n

【技术特征摘要】
1.一种基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用albert预训练模型获得词向量;
步骤四、评估模型的平均准确率。


2.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中。


3.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。


4.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。


5.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。


6.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步...

【专利技术属性】
技术研发人员:廖杰邓方华张衍彬
申请(专利权)人:深圳市洪堡智慧餐饮科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1