一种融合行业分类和制造技术

技术编号:39734898 阅读:14 留言:0更新日期:2023-12-17 23:37
本发明专利技术提供一种融合行业分类和

【技术实现步骤摘要】
一种融合行业分类和wvLDA主题模型的政策匹配方法


[0001]本专利技术涉及数据处理
,具体为一种融合行业分类和
wvLDA
主题模型的政策匹配方法


技术介绍

[0002]政府部门和其他组织通常会依据当前情况或者未来规划等发布一些政策文件,这些政策文件往往包含了各种规定

措施

指导和要求等内容

但是,不同的部门或组织所发布的文件所涉及的行业或者领域有所不同,而且政策文件的文本通常数量庞大且复杂,对于政策的理解和适用往往成为一个挑战

用户在面对政策时也常常面临理解政策内容繁琐的问题,这导致政策的推动和应用困难

[0003]尤其是用户群体是企业时,许多利好政策或者对于行业规定

措施

指导和要求等,企业若是不能及时知晓或者理解,对于企业的发展是一个弊端

尤其是部分企业不能及时关注到所需了解的政策,亦或者是查阅到但是由于政策文本自身的文本量繁多,企业未仔细阅读便认为和自身不相关,进而错过所需了解的政策

[0004]因此,需要一种能够准确匹配政策和用户需求的方法,以提高政策的可用性和适用性,进一步为企业纾困解难


技术实现思路

[0005]基于此,有必要针对现有因政策文件数量大且文本量多造成企业容易错失与其相关的政策的问题,提供一种融合行业分类和
wvLDA
主题模型的政策匹配方法

[0006]为实现上述目的,本专利技术采用了以下技术方案:一种融合行业分类和
wvLDA
主题模型的政策匹配方法,其包括以下步骤:获取企业信息,并与行业标签库进行匹配得到企业对应的企业行业标签;获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集;将数据集通过
wvLDA
主题模型进行主题提取,并将提取的政策主题词和企业行业标签进行相似度计算,筛选出符合预设相似度的政策主题词;其中,
wvLDA
主题模型包括
LDA
模块和
Word2Vec
模块,数据集通过
wvLDA
主题模型进行主题提取的具体步骤如下:预先获取与企业行业标签相关的数据构建训练集,输入至
wvLDA
主题模型结合困惑度和
JS
散度对
wvLDA
主题模型的预设主题值进行微调,得到微调后的主题值
K
;将数据集通过
LDA
模块进行初步提取,获取
K
个主题以及每个主题下的
TopN
个词作为初选关键词,形成初步主题词数据;采用基于
Word2Vec
模块的
CBOW
方法对所述数据集进行训练,结合初步主题词数据得到政策主题词;获取筛选出的政策主题词所对应的政策文件或新闻文件,按照相似度由大到小排列并以列表形式展示

[0007]进一步的,困惑度越低,对应的
wvLDA
主题模型泛化能力越强;困惑度
perplexity
(D)
的计算公式为:;其中,
N
d
表示第
d
个文档的词汇数;
D
为文档个数;
P(W
d
)
为第
d
个文档中词汇的概率分布

[0008]进一步的,两个主题之间的差异性越大,
wvLDA
主题模型的主题识别效果越强;其中,
JS
散度的计算公式如下:
ꢀꢀ
;其中,
K
表示主题数目,
T
表示抽取的主题,
T
i
表示第
i
个主题,
T
j
表示第
j
个主题,
JS(T
i
||T
j
)
表示
T
i

T
j
主题之间的散度,表示
T
i

T
j
主题之间的差异性,衡量了
T
i

T
j
主题之间的稳定性和差异性,越大时,主题之间的差异性越大,主题之间的区分性就越好,这样的主题结构就越稳定

[0009]进一步的,通过
Jaccard
相似度方式对提取的政策主题词和企业行业标签进行相似度计算,具体步骤如下:将提取的政策主题词和企业行业标签转换成相应的字符串集合
A

B
;将字符串集合
A

B
进行
Jaccard
相似度计算得到二者的相似度
J(A,B)


[0010]进一步的,
LDA
模块输出包括用于保存数据集中的所有单词唯一编号的
wordidmap.dat
文件

用于保存每个主题所对应向量的
model_phi.dat
文件

用于保存文档

主题向量的
model_theta.dat
文件和用于保存每个主题下的关键从属概率的
model_twords.dat
文件;其中,从
model_twords.dat
文件中获取每个主题下的
TopN
个词作为初选关键词

[0011]进一步的,政策文档的预处理的具体步骤如下:采用自然语言处理方法对政策文档提取政策文档的标题及摘要,通过添加词典

文本分词以及去停用词方式得到干净的数据集

[0012]进一步的,企业信息包括企业名称

注册类型

注册资金

所属行业

规模

[0013]进一步的,行业标签库是结合行业分类信息及行业标准信息建立而成

[0014]进一步的,列表包括政策文件或新闻文件的标题

发布的时间以及政策文件的相似度

[0015]本专利技术还涉及一种融合行业分类和
wvLDA
主题模型的政策匹配系统,其采用如前述的融合行业分类和
wvLDA
主题模型的政策匹配方法,包括数据采集模块

企业行业标签获取模块

数据集获取模块

政策主题提取模块和结果展示模块

[0016]数据采集模块用于采集企业信息以及政策文档;企业行业标签获取模块,其用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,其包括以下步骤:获取企业信息,并与行业标签库进行匹配得到企业对应的企业行业标签;获取由新闻文件和政策文件构成的政策文档并进行预处理得到数据集;将所述数据集通过
wvLDA
主题模型进行主题提取,并将提取的政策主题词和所述企业行业标签进行相似度计算,筛选出符合预设相似度的政策主题词;其中,所述
wvLDA
主题模型包括
LDA
模块和
Word2Vec
模块,所述数据集通过
wvLDA
主题模型进行主题提取的具体步骤如下:预先获取与企业行业标签相关的数据构建训练集,输入至
wvLDA
主题模型结合困惑度和
JS
散度对
wvLDA
主题模型的预设主题值进行微调,得到微调后的主题值
K
;将所述数据集通过
LDA
模块进行初步提取,获取
K
个主题以及每个主题下的
TopN
个词作为初选关键词,形成初步主题词数据;采用基于
Word2Vec
模块的
CBOW
方法对所述数据集进行训练,结合初步主题词数据得到政策主题词;获取筛选出的政策主题词所对应的政策文件或新闻文件,按照相似度由大到小排列并以列表形式展示
。2.
根据权利要求1所述的融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,所述困惑度越低,对应的
wvLDA
主题模型泛化能力越强;困惑度
perplexity(D)
的计算公式为:;其中,
N
d
表示第
d
个文档的词汇数;
D
为文档个数;
P(W
d
)
为第
d
个文档中词汇的概率分布
。3.
根据权利要求1所述的融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,两个主题之间的差异性越大,
wvLDA
主题模型的主题识别效果越强;其中,
JS
散度的计算公式如下: ;其中,
K
表示主题数目,
T
表示抽取的主题,
T
i
表示第
i
个主题,
T
j
表示第
j
个主题,
JS(T
i
||T
j
)
表示
T
i

T
j
主题之间的散度,表示
T
i

T
j
主题之间的差异性
。4.
根据权利要求1所述的融合行业分类和
wvLDA
主题模型的政策匹配方法,其特征在于,通过
Jaccard
相似度方式对提取的...

【专利技术属性】
技术研发人员:华绿绿沈钰峰徐晓康
申请(专利权)人:苏州市吴江区盛泽镇人民政府
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1