一种关于新技术的领域分类方法技术

技术编号:27248096 阅读:19 留言:0更新日期:2021-02-04 12:23
本发明专利技术提供一种关于新技术的领域分类方法,其特征在于,包括:步骤1,对新技术提取关键词并计算关键词频率;步骤2,建立新技术领域分类模型并确定领域类别阈值;步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别。本发明专利技术的关于新技术的领域分类方法,通过计算机对新技术所属领域进行划分,优点是:根据训练集的知识学习,统计领域划分的标准。计算机自动对新技术的所属领域进行划分,能够有效提高工作效率。分类模型的可扩展性较强,同时具备学习性。具备更新能力,计算机自动计算的领域,可作为新技术领域的参考,技术所属人员可进行纠错,分类模型可根据纠错信息,不断更新,以保证更高的准确率。以保证更高的准确率。以保证更高的准确率。

【技术实现步骤摘要】
一种关于新技术的领域分类方法


[0001]本专利技术涉及领域分类信息
,具体涉及一种关于新技术的领域分类方法。

技术介绍

[0002]对于新技术所属领域的划分,采用人工手动方式进行划分,其专业需求较高,需要具备一定知识的广度,同时对分类的类别比较熟悉且清晰的认知。同时,可能存在多领域应用的新技术,所以在新技术所属领域确定上,需要技术人员具备一定的经验知识和各领域的知识储备。
[0003]新
技术实现思路
中,通常是描述新技术解决的问题,以及新技术所用到的技术和材料等,用语比较简洁。采用人工分类的方法,费事费力,且因为人员流动、人员的知识储备、对知识领域划分的理解不同等原因,可能会造成新技术划分领域的偏差或不完整。

技术实现思路

[0004]本专利技术的目的是:针对
技术介绍
描述的问题,本专利技术提出一种关于新技术的领域分类方法,能够替代大部分人工领域划分的工作,并且保证其精确性和划分效率。
[0005]为了解决上述问题,本专利技术所采用的技术方案是:
[0006]一种关于新技术的领域分类方法,其特征在于,包括如下步骤:
[0007]步骤1,对新技术提取关键词并计算关键词频率,包括:
[0008]步骤1.1:对新技术的成果简介或成果介绍提取关键词汇句子;
[0009]步骤1.2:对新技术提取的关键词汇句子提取关键词;
[0010]步骤1.3:对关键词频率进行计算及统一;
[0011]步骤2,建立新
分类模型并确定领域类别阈值,包括:/>[0012]步骤2.1:准备新技术训练集;训练集包含的内容有:新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词;
[0013]步骤2.2:计算支持度;包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度;
[0014]步骤2.3:提取关键词组合及对应词频;
[0015]步骤2.4:计算关键词的置信度;
[0016]步骤2.5:建立领域分类模型;领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度;
[0017]步骤2.6:确定领域类别阈值;领域类别阈值表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
[0018]步骤3,应用新
分类模型和领域类别阈值确认新技术所属领域类别,包括:
[0019]步骤3.1:确定新技术的关键词和对应词频;
[0020]步骤3.2:计算新技术的对应所有领域类别的TV矩阵;每个领域类别对应一个TV
值;
[0021]步骤3.3:确认领域类别;新技术的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术属于该领域类别;
[0022]步骤3.4:领域类别排序;根据确认的领域类别集合的值进行排序,值越高,说明新
类别属性中,该领域类别属性越高。
[0023]进一步的,所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库、停用词库,对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用;保留的词性包括,名词、动名词、英语、语素词等;
[0024]所述步骤1.2对新技术的提取的关键词汇句子提取关键词,具体方法包括:利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤1.1关键词汇句子进行分词;按照对应词频,由高到低进行排序;选择前K个关键词作为新技术的关键词,对关键词和对应的词频进行保存,保证后续操作继续使用,表示为{Key,M},其中Key表示关键词,M表示对应的词频;当关键词不足K个时,以关键词的实际个数为准;
[0025]所述步骤1.3对关键词频率进行计算及统一,具体方法包括:
[0026](1)计算新技术中关键词的频率:
[0027][0028]其中,f
key
为关键词key的频率,M
key
为关键词key在该新技术中出现的次数,∑M为该新技术中关键词的词频之和;
[0029](2)统一
[0030]采用归一化的方法,将新技术关键词的频率进行统一,降低新技术描述中,因文字本身的数量造成的词频差距;
[0031][0032]其中,F
key
为关键词key的归一化后的词频,max(f)为当前新技术中关键词频率的最大值,从而将关键词key的词频,归一化到[0,1]之间。
[0033]进一步的,所述步骤2.1准备新技术训练集,其中训练集包含的内容有:
[0034](1)新技术序号:训练集中的新技术个数为n,设定初始n的值,后续根据新技术的增加,而随之增加,以保证训练集中新技术的多样性和先进性;
[0035](2)序号:N,是训练集中的新
类别单一表示之后的数量;以下称新技术时,均表示领域类别单一表示之后的新技术;新技术训练集,是领域类别单一表示之后新技术与对应领域类别组成的训练集;
[0036](3)领域类别:分别使用L1,L2,L3,

,L
i


,L
tn
,1≤i≤tn;其中,领域类别的个数为tn,tn的值会跟随新
的扩增或减少,随之发生变化;同时,一个新技术能够对应多个领域类别,即多领域应用的新技术;
[0037](4)关键词:每个新技术的关键词个数不同,但均不超过关键词个数K;新技术中的实际关键词的个数使用k1,k2,

,ki,

,kn表示;Key
ij
表示,序号为i的新技术的第j个关键
词。
[0038]进一步的,所述步骤2.2计算支持度,具体方法包括:
[0039](1)领域类别的支持度:
[0040][0041]其中,表示新
分类L
i
的支持度,即表示领域分类L
i
在新技术数据集中出现的频率;N,表示训练集中的新
类别单一表示之后的数量;T表示新技术集合;表示新
分类为L
i
的新技术的数量;
[0042](2)关键词的支持度:
[0043][0044]其中,S
key
,表示关键词key在新技术中出现的频率;∑
T∈key T,表示包含关键词key的新技术的数量;
[0045](3)关键词在某领域分类中的支持度:
[0046][0047]其中,S
key
,表示关键词key在分类属于L
i
的新技术中出现的频率;表示包含分类属性为L
i
且包含关键词key的新技术数量。
[0048]进一步的,所述步骤2.3:提取关键词组合即对应词频:
[0049][0050][本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种关于新技术的领域分类方法,其特征在于,包括如下步骤:步骤1,对新技术提取关键词并计算关键词频率,包括:步骤1.1:对新技术的成果简介或成果介绍提取关键词汇句子;步骤1.2:对新技术提取的关键词汇句子提取关键词;步骤1.3:对关键词频率进行计算及统一;步骤2,建立新技术领域分类模型并确定领域类别阈值,包括:步骤2.1:准备新技术训练集;训练集包含的内容有:新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词;步骤2.2:计算支持度;包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度;步骤2.3:提取关键词组合及对应词频;步骤2.4:计算关键词的置信度;步骤2.5:建立领域分类模型;领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度;步骤2.6:确定领域类别阈值;领域类别阈值表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别,包括:步骤3.1:确定新技术的关键词和对应词频;步骤3.2:计算新技术的对应所有领域类别的TV矩阵;每个领域类别对应一个TV值;步骤3.3:确认领域类别;新技术的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术属于该领域类别;步骤3.4:领域类别排序;根据确认的领域类别集合的值进行排序,值越高,说明新技术领域类别属性中,该领域类别属性越高。2.如权利要求1所述的关于新技术的领域分类方法,其特征在于,所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库、停用词库,对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用;保留的词性包括,名词、动名词、英语、语素词;所述步骤1.2对新技术的提取的关键词汇句子提取关键词,具体方法包括:利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤1.1关键词汇句子进行分词;按照对应词频,由高到低进行排序;选择前K个关键词作为新技术的关键词,对关键词和对应的词频进行保存,保证后续操作继续使用,表示为{Key,M},其中Key表示关键词,M表示对应的词频;当关键词不足K个时,以关键词的实际个数为准;所述步骤1.3对关键词频率进行计算及统一,具体方法包括:(1)计算新技术中关键词的频率:其中,f
key
为关键词key的频率,M
key
为关键词key在该新技术中出现的次数,∑M为该新技术中关键词的词频之和;
(2)统一采用归一化的方法,将新技术关键词的频率进行统一,降低新技术描述中,因文字本身的数量造成的词频差距;其中,F
key
为关键词key的归一化后的词频,max(f)为当前新技术中关键词频率的最大值,从而将关键词key的词频,归一化到[0,1]之间。3.如权利要求2所述的关于新技术的领域分类方法,其特征在于,所述步骤2.1准备新技术训练集,其中训练集包含的内容有:(1)新技术序号:训练集中的新技术个数为n,设定初始n的值,后续根据新技术的增加,而随之增加,以保证训练集中新技术的多样性和先进性;(2)序号:N,是训练集中的新技术领域类别单一表示之后的数量;以下称新技术时,均表示领域类别单一表示之后的新技术;新技术训练集,是领域类别单一表示之后新技术与对应领域类别组成的训练集;(3)领域类别:分别使用L1,L2,L3,

,L
i


,L
tn
,l≤i≤tn;其中,领域类别的个数为tn,tn的值会跟随新技术领域的扩增或减少,随之发生变化;同时,一个新技术能够对应多个领域类别,即多领域应用的新技术;(4)关键词:每个新技术的关键词个数不同,但均不超过关键词个数K;新技术中的实际关键词的个数使用k1,k2,

,ki,

,kn表示;Key
ij
表示,序号为i的新技术的第j个关键词。4.如权利要求3所述的关于新技术的领域分类方法,其特征在于,所述步骤2.2计算支持度,具体方法包括:(1)领域类别的支持度:其中,表示新技术领域分类L
i
的支持度,即表示领域分类L
i...

【专利技术属性】
技术研发人员:郑鑫于德尚陈世坤徐楠楠
申请(专利权)人:青岛檬豆网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1