公文所属产业识别方法及装置制造方法及图纸

技术编号:39045779 阅读:25 留言:0更新日期:2023-10-10 11:58
本发明专利技术公开了一种公文所属产业识别方法及装置,该方法包括:预先采集公文数据构建产业关键词词典;获取待识别公文;根据所述产业关键词词典计算所述待识别公文对应的各产业得分;选取产业得分最高的产业作为所述待识别公文所属产业。利用本发明专利技术方案,可以提升公文所属产业识别的准确性和效率,节约企业和咨询机构工作人员对公文产业分类的时间花费,节省人工成本。人工成本。人工成本。

【技术实现步骤摘要】
公文所属产业识别方法及装置


[0001]本专利技术涉及信息处理
,具体涉及一种公文所属产业识别方法及装置。

技术介绍

[0002]企业或者咨询研究机构在开展产业相关的业务研究工作中,常常需要研读、参考政府发布的产业政策公文。各级政府机关每年都会发布各行各业相关的公文,因此企业或咨询机构的工作人员需要从海量公文库中识别出关注产业的公文。
[0003]目前虽然存在个别的文本产业识别方法,但现有方案对产业识别结果的准确性和工作效率都有待提高。

技术实现思路

[0004]本专利技术提供一种公文所属产业识别方法及装置,以提升公文所属产业识别的准确性和效率。
[0005]为此,本专利技术提供如下技术方案:一种公文所属产业识别方法,所述方法包括:预先采集公文数据构建产业关键词词典;获取待识别公文;根据所述产业关键词词典计算所述待识别公文对应的各产业得分,所述待识别公文对应的各产业得分是指所述待识别公文属于各产业的得分;选取产业得分最高的产业作为所述待识别公文所属产业。
[0006]可选地,所述采集公文数据构建产业本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种公文所属产业识别方法,其特征在于,所述方法包括:预先采集公文数据构建产业关键词词典;获取待识别公文;根据所述产业关键词词典计算所述待识别公文对应的各产业得分,所述待识别公文对应的各产业得分是指所述待识别公文属于各产业的得分;选取产业得分最高的产业作为所述待识别公文所属产业。2.根据权利要求1所述的方法,其特征在于,所述采集公文数据构建产业关键词词典包括:采集公文语料,所述公文语料包括多篇公文;对每篇公文进行所属产业标注,得到各产业的样本集合;对各产业的样本集合中的每篇公文进行分词,得到分词集合;对所述分词集合进行关键词抽取,得到所述产业的关键词;根据所述关键词生成所述产业的关键词词典。3.根据权利要求2所述的方法,其特征在于,所述对所述分词集合进行关键词抽取,得到所述产业的关键词词表包括:利用2

gram模型对所述分词集合进行重组,得到组合词集合;分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词。4.根据权利要求3所述的方法,其特征在于,所述分别从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词包括:利用TF

IDF算法从所述分词集合和所述组合词集合中抽取一定数量的词语作为所述产业的关键词。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述产业关键词词典计算所述待识别公文对应的各产业得分包括:确定所述待识别公文中出现的所述产业关键词词典中的各关键词,将这些关键词作为所述产业关键词词典中与所述待识别公文相匹配的各关键词;记录相匹配的各关键词的长度、在所述待识别公文中第一次匹配的位置、以及全文匹配的频数;计算相匹配的各关键词在对应产业下的位置分数;对相匹配的各关键词在对应产业下的位置分数进行加权计算,得到所述待识别公文对应所述产业的产业得分。6.根据权利要求5所述的方法,其特征在于,所述根据所述产业关键词词...

【专利技术属性】
技术研发人员:薛彦凯谭敏孔德智杨迪丹洒科进
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1