一种基于albert预训练模型和kmean算法的评论标签提取的方法技术

技术编号：27031464 阅读：58 留言：0更新日期：2021-01-12 11:14

本发明专利技术涉及自然语言处理技术领域，具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法，该方法的步骤如下：步骤一、爬取门店的评论数据,数据导入到数据库中；步骤二、对数据库的数据进行数据清洗；步骤三、利用albert预训练模型获得词向量；步骤四、评估模型的平均准确率，本发明专利技术利用albert作为预训练模型，模型小，训练速度快，对于大规模数据情况下，效果更好，本发明专利技术利用kmean算法作为无监督的聚类算法，通过获取albert的最后一层词向量作为输入，并最终通过kmean聚类算法聚类，达到更为准确的预估准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于albert预训练模型和kmean算法的评论标签提取的方法
本专利技术涉及自然语言处理
，具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法。
技术介绍
在外卖领域中，针对外卖评论数据，客户的评论内容作为和商家的沟通桥梁，从评论中提取有用的信息对于商家改进自身的情况有着重要的作用，将自然语言处理技术应用到外卖评论的标签提提取中能够达到较为理想的效果，在该过程中一般利用tfidf算法进行识别分析，但在tf不断增加时，TFScore会无限制增加，导致文本相关性的逻辑偏离，外卖评论数据一般长度短，因此前文利用的信息有限，一般的训练模型在短时序中效果有限，训练速度慢，消耗的算理资源多。鉴于此，我们提出一种基于albert预训练模型和kmean算法的评论标签提取的方法。
技术实现思路
本专利技术的目的在于提供一种基于albert预训练模型和kmean算法的评论标签提取的方法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于albert预训练模型和kmean算法的评论标签提取的方法，该方法的步骤如下：步骤一、爬取门店的评论数据，数据导入到数据库中；步骤二、对数据库的数据进行数据清洗；步骤三、利用albert预训练模型获得词向量；步骤四、评估模型的平均准确率。作为本专利技术优选的技术方案，步骤二中的清洗步骤包括：去停用词、去html格式、去掉空格，对少量数据进行人工标注，将清洗的数据导...

【技术保护点】
1.一种基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：该方法的步骤如下：/n步骤一、爬取门店的评论数据，数据导入到数据库中；/n步骤二、对数据库的数据进行数据清洗；/n步骤三、利用albert预训练模型获得词向量；/n步骤四、评估模型的平均准确率。/n

【技术特征摘要】
1.一种基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：该方法的步骤如下：
步骤一、爬取门店的评论数据，数据导入到数据库中；
步骤二、对数据库的数据进行数据清洗；
步骤三、利用albert预训练模型获得词向量；
步骤四、评估模型的平均准确率。

2.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：步骤二中的清洗步骤包括：去停用词、去html格式、去掉空格，对少量数据进行人工标注，将清洗的数据导入到数据库中。

3.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：步骤三的具体操作为：基于少量的标注数据，取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。

4.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：步骤四的具体操作为：将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。

5.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量，embedding的过程中以词为单位。

6.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法，其特征在于：步...

【专利技术属性】
技术研发人员：廖杰，邓方华，张衍彬，
申请(专利权)人：深圳市洪堡智慧餐饮科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人