热词挖掘方法、系统、计算机设备和存储介质技术方案

技术编号:28839200 阅读:41 留言:0更新日期:2021-06-11 23:37
本发明专利技术提供了一种热词挖掘方法,所述方法通过获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理,并按照员工群体类别进行数据串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典;对词频矩阵进行逆文档频率计算,以获得第一tf‑idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf‑idf矩阵进行处理,以获得第二tf‑idf矩阵;对第二tf‑idf矩阵中各员工群体的tf‑idf权重进行排序,以得到各员工群体的热词。因此,本发明专利技术所述热词挖掘方法可以提炼不同人群各自独有的热点词汇,展现各类人群的差异性偏好。同时,本发明专利技术还涉及区块链技术。

【技术实现步骤摘要】
热词挖掘方法、系统、计算机设备和存储介质
本专利技术涉及数据处理
,特别是涉及热词挖掘方法、系统、计算机设备和存储介质。
技术介绍
企业自建的学习平台在企业员工培训环节中起到非常重要的作用,是贯穿员工职涯的学习交流平台。员工在学习平台的角色既是学习参与者,又可以是内容制造者。通过挖掘员工在学习平台的搜索内容可以洞察员工的关注点和兴趣点,进而聚焦在员工亟需被满足的培训内容。再进一步,识别不同企业员工人群的关注点有利于使内容输出做到更加精细化、差异化。总之,合理利用搜索文本数据可以帮助培训环节做到有的放矢。TF-IDF(termfrequency-inversedocumentfrequency)技术是一种常被用于关键词提炼的加权技术,用以评估一个词对一个文档的重要程度。其随着一个词在文档中出现的次数(TF)上升而上升,同时随着其在文档库中出现频率(IDF)的上升而下降。对TF-IDF的使用方法一般分为两种。一种是将待挖掘文本中的字词和提前准备好的能够模拟语言使用环境的特定语料库(例如清华新闻语料库、人民日报新闻语料库等)做比本文档来自技高网...

【技术保护点】
1.一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,其特征在于,所述热词挖掘方法包括:/n获取员工群体标签,并根据标签对员工群体进行分类;/n获取已分类员工群体的搜索数据,并对搜索数据进行预处理;/n将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;/n对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;/n对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;/n根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;/n对第二tf-i...

【技术特征摘要】
1.一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,其特征在于,所述热词挖掘方法包括:
获取员工群体标签,并根据标签对员工群体进行分类;
获取已分类员工群体的搜索数据,并对搜索数据进行预处理;
将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;
对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;
对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;
根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;
对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。


2.如权利要求1所述的热词挖掘方法,其特征在于,所述对搜索数据进行预处理包括:
以词为语义最小单元对中文进行结巴切词,词间以空格分离;
将切词后的搜索数据进行去重。


3.如权利要求2所述的热词挖掘方法,其特征在于,所述对搜索数据进行预处理还包括:
利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;
对所述搜索数据去停词、去单字和/或替换歧义词的处理。


4.如权利要求1所述的热词挖掘方法,其特征在于,所述对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,包括:
对搜索词群进行m*n矩阵排列,以获得字典矩阵;
对字典矩阵进行词频和归一化处理,以获得词频矩阵。


5.如权利要求4所述的热词挖掘方法,其特征在于,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。


6.如权利要求1所述的热词挖掘方法,其特征在于,...

【专利技术属性】
技术研发人员:许丹杨德杰叶聆音
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1