【技术实现步骤摘要】
一种融合行业分类和wvLDA主题模型的政策匹配方法
[0001]本专利技术涉及数据处理
,具体为一种融合行业分类和
wvLDA
主题模型的政策匹配方法
。
技术介绍
[0002]政府部门和其他组织通常会依据当前情况或者未来规划等发布一些政策文件,这些政策文件往往包含了各种规定
、
措施
、
指导和要求等内容
。
但是,不同的部门或组织所发布的文件所涉及的行业或者领域有所不同,而且政策文件的文本通常数量庞大且复杂,对于政策的理解和适用往往成为一个挑战
。
用户在面对政策时也常常面临理解政策内容繁琐的问题,这导致政策的推动和应用困难
。
[0003]尤其是用户群体是企业时,许多利好政策或者对于行业规定
、
措施
、
指导和要求等,企业若是不能及时知晓或者理解,对于企业的发展是一个弊端
。
尤其是部分企业不能及时关注到所需了解的政策,亦或者是查阅到但是由于政策文本自身的文本量繁多,企业未仔细阅读便认为和自身不相关,进而错过所需了解的政策
。
[0004]因此,需要一种能够准确匹配政策和用户需求的方法,以提高政策的可用性和适用性,进一步为企业纾困解难
。
技术实现思路
[0005]基于此,有必要针对现有因政策文件数量大且文本量多造成企业容易错失与其相关的政策的问题,提供一种融合行业分类和
wvLDA
主题模型的政策 ...
【技术保护点】
【技术特征摘要】
1.
一种融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,其包括以下步骤:获取企业信息,并与行业标签库进行匹配得到企业对应的企业行业标签;获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集;将所述数据集通过
wvLDA
主题模型进行主题提取,并将提取的政策主题词和所述企业行业标签进行相似度计算,筛选出符合预设相似度的政策主题词;其中,所述
wvLDA
主题模型包括
LDA
模块和
Word2Vec
模块,所述数据集通过
wvLDA
主题模型进行主题提取的具体步骤如下:预先获取与企业行业标签相关的数据构建训练集,输入至
wvLDA
主题模型结合困惑度和
JS
散度对
wvLDA
主题模型的预设主题值进行微调,得到微调后的主题值
K
;将所述数据集通过
LDA
模块进行初步提取,获取
K
个主题以及每个主题下的
TopN
个词作为初选关键词,形成初步主题词数据;采用基于
Word2Vec
模块的
CBOW
方法对所述数据集进行训练,结合初步主题词数据得到政策主题词;获取筛选出的政策主题词所对应的政策文件或新闻文件,按照相似度由大到小排列并以列表形式展示
。2.
根据权利要求1所述的融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,所述困惑度越低,对应的
wvLDA
主题模型泛化能力越强;困惑度
perplexity(D)
的计算公式为:;其中,
N
d
表示第
d
个文档的词汇数;
D
为文档个数;
P(W
d
)
为第
d
个文档中词汇的概率分布
。3.
根据权利要求1所述的融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,两个主题之间的差异性越大,
wvLDA
主题模型的主题识别效果越强;其中,
JS
散度的计算公式如下: ;其中,
K
表示主题数目,
T
表示抽取的主题,
T
i
表示第
i
个主题,
T
j
表示第
j
个主题,
JS(T
i
||T
j
)
表示
T
i
和
T
j
主题之间的散度,表示
T
i
和
T
j
主题之间的差异性
。4.
根据权利要求1所述的融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,通过
Jaccard
相似度方式对提取的...
【专利技术属性】
技术研发人员:华绿绿,沈钰峰,徐晓康,
申请(专利权)人:苏州市吴江区盛泽镇人民政府,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。