热词挖掘方法、系统、计算机设备和存储介质技术方案

技术编号:28839200 阅读:26 留言:0更新日期:2021-06-11 23:37
本发明专利技术提供了一种热词挖掘方法,所述方法通过获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理,并按照员工群体类别进行数据串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典;对词频矩阵进行逆文档频率计算,以获得第一tf‑idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf‑idf矩阵进行处理,以获得第二tf‑idf矩阵;对第二tf‑idf矩阵中各员工群体的tf‑idf权重进行排序,以得到各员工群体的热词。因此,本发明专利技术所述热词挖掘方法可以提炼不同人群各自独有的热点词汇,展现各类人群的差异性偏好。同时,本发明专利技术还涉及区块链技术。

【技术实现步骤摘要】
热词挖掘方法、系统、计算机设备和存储介质
本专利技术涉及数据处理
,特别是涉及热词挖掘方法、系统、计算机设备和存储介质。
技术介绍
企业自建的学习平台在企业员工培训环节中起到非常重要的作用,是贯穿员工职涯的学习交流平台。员工在学习平台的角色既是学习参与者,又可以是内容制造者。通过挖掘员工在学习平台的搜索内容可以洞察员工的关注点和兴趣点,进而聚焦在员工亟需被满足的培训内容。再进一步,识别不同企业员工人群的关注点有利于使内容输出做到更加精细化、差异化。总之,合理利用搜索文本数据可以帮助培训环节做到有的放矢。TF-IDF(termfrequency-inversedocumentfrequency)技术是一种常被用于关键词提炼的加权技术,用以评估一个词对一个文档的重要程度。其随着一个词在文档中出现的次数(TF)上升而上升,同时随着其在文档库中出现频率(IDF)的上升而下降。对TF-IDF的使用方法一般分为两种。一种是将待挖掘文本中的字词和提前准备好的能够模拟语言使用环境的特定语料库(例如清华新闻语料库、人民日报新闻语料库等)做比较算出IDF。这种方法虽然可以成功地弱化一些常用字词如‘你’、‘我’、‘的’等的权重,但是特定领域专业词汇的重要性依然会被如‘销售’、‘服务’等非专业词会掩盖,人群差异性进而不能凸显。同时,语料库同待挖掘文本一样需要经过切词等数据预处理,会增加时间成本。第二种常用方法是使用Scikit-learn的CountVectorizer和TfidfTransformer工具。其专门用来矢量化文本类数据并给出TF-IDF矩阵。CountVectorizer和TfidfTransformer工具支持以分好词的文档序列作为输入。这样做既能构建专业领域语料库,又能提炼差异化的文档关键词。但是,员工搜索短文本并不适合作为文档序列直接输入,至此我们亟待解决构造合适的模型输入,优化TF-IDF矩阵提炼流程的问题,以达到提炼不同员工人群差异化关键词的目的。
技术实现思路
基于此,本专利技术提供了一种热词挖掘方法、系统、计算机设备和存储介质,以能够满足不同类型人群的差异化分类培训需求。为实现上述目的,本专利技术提供一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,所述热词挖掘方法包括:获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理;将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。优选的,所述对搜索数据进行预处理包括:以词为语义最小单元对中文进行结巴切词,词间以空格分离;将切词后的搜索数据进行去重。优选的,所述对搜索数据进行预处理还包括:利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;对所述搜索数据去停词、去单字、替换歧义词的处理。优选的,所述对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,包括:对搜索词群进行m*n矩阵排列,以获得字典矩阵;对字典矩阵进行词频和归一化处理,以获得词频矩阵。优选的,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。优选的,所述对词频矩阵进行逆文档频率计算采用逆文档频率计算公式:其中,t代表词项,d∈D代表一类人的所有搜索词序列,D表示所有搜索词序列d组成的文集,N是搜索词总数量,nt指搜索词在多少搜索词群中出现过。优选的,所述根据词性字典获得词性权重,包括:根据词性字典获得词性权重,所述词性权重以占比最大的词性的搜索词个数为基准,对其它词性搜索词分别算和并分别计算占比最大的词性的搜索词数量的比值,以所述比值作为其他词性搜索词的词性权重。为实现上述目的,本专利技术还提供了一种基于TF-IDF技术的热词挖掘系统,用于企业培训平台的搜索数据处理,所述热词挖掘系统包括:分类模块,用于获取员工群体标签,并根据标签对员工群体进行分类;数据处理模块,用于获取已分类员工群体的搜索数据,并对搜索数据进行预处理;串联模块,用于将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;词频词性模块,用于对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;逆文档频率模块,用于对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;权重模块,用于根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;排序模块,用于对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。为实现上述目的,本专利技术还提供一种计算机设备,包括储存器和处理器,所述储存器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上所述热词挖掘方法的步骤。为实现上述目的,本专利技术还提供一种存储介质,存储有能够实现如上所述热词挖掘方法的程序文件。上述本专利技术提供了一种热词挖掘方法、系统、计算机设备和存储介质,其中,所述方法通过获取员工群体标签,并根据标签对员工群体进行分类;获取已分类员工群体的搜索数据,并对搜索数据进行预处理;将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。因此,本专利技术所述热词挖掘方法可以提炼不同人群各自独有的热点词汇,展现各类人群的差异性偏好,此外,本专利技术无需准备额外的语料库,只需对有用信息进行分词处理,无需对庞大的额外语料库进行处理,减少模型成本。附图说明图1为一个实施例中提供的计算方法的实施环境图;图2为一个实施例中计算机设备的内部结构框图;图3为一个实施例中热词挖掘方法的流程图;图4为一个实施例中热词挖掘系统的示意图;图5为一个实施例中的计算本文档来自技高网
...

【技术保护点】
1.一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,其特征在于,所述热词挖掘方法包括:/n获取员工群体标签,并根据标签对员工群体进行分类;/n获取已分类员工群体的搜索数据,并对搜索数据进行预处理;/n将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;/n对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;/n对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;/n根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;/n对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。/n

【技术特征摘要】
1.一种基于TF-IDF技术的热词挖掘方法,用于企业培训平台的搜索数据处理,其特征在于,所述热词挖掘方法包括:
获取员工群体标签,并根据标签对员工群体进行分类;
获取已分类员工群体的搜索数据,并对搜索数据进行预处理;
将预处理之后的搜索数据按照员工群体类别进行串联并形成搜索词群;
对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,其中,m的矩阵内容为员工群体类别,n的矩阵内容为搜索词群;
对词频矩阵进行逆文档频率计算,以获得第一tf-idf矩阵;
根据词性字典获得词性权重,根据词性权重对第一tf-idf矩阵进行处理,以获得第二tf-idf矩阵;
对第二tf-idf矩阵中各员工群体的tf-idf权重进行排序,选取排名靠前预设个数的搜索词作为各员工群体的热词。


2.如权利要求1所述的热词挖掘方法,其特征在于,所述对搜索数据进行预处理包括:
以词为语义最小单元对中文进行结巴切词,词间以空格分离;
将切词后的搜索数据进行去重。


3.如权利要求2所述的热词挖掘方法,其特征在于,所述对搜索数据进行预处理还包括:
利用字符串清除函数结合正则表达式删除所述搜索数据中的标点符号和阿拉伯数字;
对所述搜索数据去停词、去单字和/或替换歧义词的处理。


4.如权利要求1所述的热词挖掘方法,其特征在于,所述对搜索词群进行m*n矩阵排列处理和词性处理,以获得词频矩阵和词性字典,包括:
对搜索词群进行m*n矩阵排列,以获得字典矩阵;
对字典矩阵进行词频和归一化处理,以获得词频矩阵。


5.如权利要求4所述的热词挖掘方法,其特征在于,所述词性处理还包括:利用预训练的LC-CRF模型提取所述搜索词群的前后信息以及局部特征信息,并对词性进行标注。


6.如权利要求1所述的热词挖掘方法,其特征在于,...

【专利技术属性】
技术研发人员:许丹杨德杰叶聆音
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1