System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种改进的文本关键词提取方法、系统、设备及应用技术方案_技高网

一种改进的文本关键词提取方法、系统、设备及应用技术方案

技术编号:40596720 阅读:6 留言:0更新日期:2024-03-12 21:59
本发明专利技术属于语义网络技术领域,公开了一种改进的文本关键词提取方法、系统、设备及应用。综合关键词在文本中所处的位置、关键词在文本中词性权重因素,并将向量化后的关键词进行降维处理,基于降维处理后的关键词,再求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量。本发明专利技术提供的方法克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。本发明专利技术为后续的文本相似度与文本聚类技术提供良好的理论基础。本发明专利技术解决了文本关键词高维稀疏的问题,本发明专利技术计算了特征词汇中不同词汇对文本思想的贡献度。

【技术实现步骤摘要】

本专利技术属于语义网络,尤其涉及一种改进的文本关键词提取方法、系统、设备及应用


技术介绍

1、常用的文本关键词提取方法有词频-反文档频率方法、信息增益方法。词频-反文档频率方法的简单结构不能体现词汇或短语的位置信息,例如文本的标题、文本的首末句等含有较重要的信息,但此方法提取关键词时没有赋予较高的权重,因此词频-反文档频率方法准确度不高。信息增益方法只适合用来提取一个类别的文本特征,不能用于提取多个文本类别关键词。词频-反文档频率方法和信息增益方法存在同义词、多义词问题,不能进行准确区分。


技术实现思路

1、为克服相关技术中存在的问题,本专利技术公开实施例提供了一种改进的文本关键词提取方法、系统、设备及应用。

2、本专利技术是这样实现的,改进的文本关键词提取方法,综合关键词在文本中所处的位置、关键词在文本中词性权重因素,将向量化后的关键词进行降维处理;基于降维处理后的关键词,求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量。

3、进一步,综合关键词在文本中所处的位置、关键词在文本中词性权重因素,包括:

4、步骤1,利用中文分词技术对文本进行分词处理;

5、步骤2,根据停用表对文本词汇进行去停用词处理;

6、步骤3,根据关键词在文本中的位置得到位置权重值;

7、步骤4,根据词汇在文本中的词性得到一系列词汇词性权重值β1,β2,β3,β4。

8、在步骤2中,去停用词处理,包括:将特征项与停用词表中的词进行比较,如果匹配就将该特征项删除。

9、在步骤3中,根据关键词在文本中的位置得到位置权重值,包括:关键词在文本中的分布不同,而不同位置关键词对于表示文本内容能力也不同,根据统计调查得出一系列的位置权重值。

10、在步骤4中,根据词汇在文本中的词性得到一系列词汇词性权重值β1,β2,β3,β4,包括:根据调查统计得出名词、动词、形容词、副词的权重值依次为β1,β2,β3,β4,且β1>β2>β3>β4。

11、进一步,所述将向量化后的关键词进行降维处理,包括:

12、计算关键词在文本中的期望e(ci)与方差s(ci),实现文本关键词进一步降维,具体计算过程如下:

13、步骤s5.1,关键词在文本库中的期望s(ci),表达式为:

14、

15、

16、式中,e(ci)为关键词在文本库中的期望,n为文本库中文本数量,pj(ci)为关键词集合中关键词ci在第j文本中的概率值,nj(ci)为关键词集合中关键词ci在第j文本中出现的次数,nj为第j文本中关键词的总个数;

17、步骤s5.2,关键词在文本库中的方差s(ci),表达式为:

18、

19、

20、式中,s(ci)为关键词在文本库中的方差,为关键词集合中关键词ci在文本库中平均概率;

21、步骤s5.3,构造目标权重函数mw(ci),表达式为:

22、

23、式中,mw(ci)为构造目标权重函数,αm为上述位置权重值,m∈(1,2,…,r),βk为上述词性权重,k∈(1,2,3,4);词汇期望越小,同时方差越大,则关键词区分文本的能力就越强,mw(ci)越大关键词区分文本的能力就越强;

24、步骤s5.4,设定阈值条件f,关键词集合降维到词汇集合t'为:

25、t′={c1,c2,…,ci,…,cz'}

26、条件为:

27、mw(ci)≥f,i∈{1,2,…,z'}

28、式中,t'为特征词汇集合,f由实验迭代测试出来。

29、进一步,求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量,包括:

30、步骤s6.1,把特征词汇集合t'中的词汇映射到概念,求解两词汇的词汇相似度构造两本体概念(g1,g2)的语义相似度sim(g1,g2),如下式所示;

31、

32、式中,n为概念(g1,g2)的直接子节点中共有子节点个数,α为其权重系数;d1为两本体概念的语义信息距离;d2为从子集中找出概念经共同父节点的最长路径,β为其权重系数;α和β可根据实验结果迭代解得,且α+β=1;

33、计算d1可通过基于信息内容的计算相似度方法i(·),如下式所示,

34、d1=[i(g1)+i(g2)]-2·i(icn)

35、其中,i(g1)和i(g2)分别为两本体概念g1和g2在树状层次结构中的信息量,本体概念是对祖先节点的继承,是祖先节点的又一次细化,所以可通过祖先节点包含的信息量i(icn)来衡量g1和g2共享信息;

36、步骤s6.2,设定阈值g,合并相似度高的词汇,重新分配其权重,表达式为:

37、定义语义相似度阈值g,有下式,且g可由实验迭代测试求得:

38、sim(g1,g2)≥g

39、若两词汇ci、ci+x对应本体概念的语义相似度满足上述条件,则保留权重更大的词汇ci,更新其权重mw(ci)'为两词汇原权重的平均值,如下式所示:

40、

41、mw(ci)和mw(ci+x)分别为词汇ci和ci+x合并前的权重;

42、步骤s6.3,迭代计算两两词汇间的相似度,直到没有满足上述条件的关键词为止。

43、本专利技术的另一目的在于提供一种实施所述改进的文本关键词提取方法的改进的文本关键词提取系统,该提取系统包括:

44、分词处理模块,用于利用中文分词技术对文本进行分词处理;

45、去停用词处理模块,用于根据停用表对文本词汇进行去停用词处理;去停用词的过程就是将特征项与停用词表中的词进行比较,如果匹配就将该特征项删除;

46、位置权重值获取模块,用于根据关键词在文本中的位置得到位置权重值;

47、词汇词性权重值获取模块,用于根据词汇在文本中的词性得到一系列词汇词性权重值;

48、文本关键词降维模块,计算关键词在文本中的期望e(ci)与方差s(ci)实现文本关键词进一步降维;

49、相似度高的词汇合并模块,用于求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量。

50、本专利技术的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述改进的文本关键词提取方法。

51、本专利技术的另一目的在于提供一种所述的改进的文本关键词提取方法在社交网络平台话题、新闻、关键词查询上的应用。

52、结合上述的所有技术方案,本专利技术所具备的优点及积极效果为:本专利技术提供的方法克服了信息增益方法只适合用来提取一个类别的文本特本文档来自技高网...

【技术保护点】

1.一种改进的文本关键词提取方法,其特征在于,该方法综合关键词在文本中所处的位置、关键词在文本中词性权重因素,将向量化后的关键词进行降维处理;基于降维处理后的关键词,求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量。

2.根据权利要求1所述的改进的文本关键词提取方法,其特征在于,综合关键词在文本中所处的位置、关键词在文本中词性权重因素,包括:

3.根据权利要求2所述的改进的文本关键词提取方法,其特征在于,在步骤2中,去停用词处理,包括:将特征项与停用词表中的词进行比较,如果匹配就将该特征项删除。

4.根据权利要求2所述的改进的文本关键词提取方法,其特征在于,在步骤3中,根据关键词在文本中的位置得到位置权重值,包括:关键词在文本中的分布不同,而不同位置关键词对于表示文本内容能力也不同,根据统计调查得出一系列的位置权重值。

5.根据权利要求2所述的改进的文本关键词提取方法,其特征在于,在步骤4中,根据词汇在文本中的词性得到一系列词汇词性权重值β1,β2,β3,β4,包括:根据调查统计得出名词、动词、形容词、副词的权重值依次为β1,β2,β3,β4,且β1>β2>β3>β4。

6.根据权利要求1所述的改进的文本关键词提取方法,其特征在于,所述将向量化后的关键词进行降维处理,包括:

7.根据权利要求1所述的改进的文本关键词提取方法,其特征在于,求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量,包括:

8.一种实施权利要求1-7任意一项所述改进的文本关键词提取方法的改进的文本关键词提取系统,其特征在于,该提取系统包括:

9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-7任意一项所述改进的文本关键词提取方法。

10.一种如权利要求1-7任意一项所述的改进的文本关键词提取方法在社交网络平台话题、新闻、关键词查询上的应用。

...

【技术特征摘要】

1.一种改进的文本关键词提取方法,其特征在于,该方法综合关键词在文本中所处的位置、关键词在文本中词性权重因素,将向量化后的关键词进行降维处理;基于降维处理后的关键词,求解两本体概念间的相似度,根据语义相似度条件,合并相似度高的词汇,获取文本的关键词向量。

2.根据权利要求1所述的改进的文本关键词提取方法,其特征在于,综合关键词在文本中所处的位置、关键词在文本中词性权重因素,包括:

3.根据权利要求2所述的改进的文本关键词提取方法,其特征在于,在步骤2中,去停用词处理,包括:将特征项与停用词表中的词进行比较,如果匹配就将该特征项删除。

4.根据权利要求2所述的改进的文本关键词提取方法,其特征在于,在步骤3中,根据关键词在文本中的位置得到位置权重值,包括:关键词在文本中的分布不同,而不同位置关键词对于表示文本内容能力也不同,根据统计调查得出一系列的位置权重值。

5.根据权利要求2所述的改进的文本关键词提取方法,其特征在于,在步骤4中,根据词汇在文本中的词性得...

【专利技术属性】
技术研发人员:刘汪洋林文伟廖伟张立灿罗琛
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1