System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语言概念向量表示的方法技术_技高网
当前位置: 首页 > 专利查询>南通大学专利>正文

一种语言概念向量表示的方法技术

技术编号:40067801 阅读:6 留言:0更新日期:2024-01-16 23:42
本发明专利技术涉及自然语言技术领域,尤其涉及一种语言概念向量表示的方法。本发明专利技术解决了如何通过使用基于信息量词的语义权重来向量表示语言概念的问题。其技术方案为:S1:使用Word2Vec方法开发语言概念向量;S2:基于信息量词的语言概念语义权重计算;S3:使用基于信息量词的语义权重对语言概念进行向量表示。本发明专利技术的有益效果为:本发明专利技术通过公式(2),计算了语言概念的基于信息量词的语义权重。通过公式(3),提出了基于信息量词的语义权重和基于Word2Vec方法的向量的语言概念的向量。

【技术实现步骤摘要】

本专利技术涉及自然语言,尤其涉及一种语言概念向量表示的方法。这项创新属于处理领域。


技术介绍

1、语言概念的矢量表示在许多基于人工智能的自然语言处理应用程序的发展中发挥着重要作用,如文档分类、信息检索、语言翻译和情感分析。通过提高语言概念向量表示的质量可以提高这些应用程序的效率。现有word2vec方法(https://radimrehurek.com/gensim/mo dels/word2vec.html)没有考虑相关向量表示中语言概念的基于信息量词(ic)的语义权重,这降低了word2vec方法。本专利技术提出了一种新方法,命名为ic2vec:information conten t-based vector representation of linguistic concepts。ic2vec方法通过将语言概念的基于信息量词(ic)的语义权重合并到相关的基于word2vec方法的语言概念向量中,改进了语言概念的向量表示。

2、目前,现有技术需要解决如下问题:

3、(1)如何基于信息量词(ic)的语言概念语义权重的计算。

4、(2)如何通过使用基于信息量词(ic)的语义权重来向量表示语言概念。


技术实现思路

1、本专利技术的目的在于提供一种语言概念向量表示的方法,本专利技术的思想为:word2vec方法在学习语言概念的向量表示时没有考虑语言概念的基于信息量词(ic)的语义权重,这降低了word2vec方法的效率。本专利技术提出了一种语言概念向量表示的方法,命名为ic2ve c。ic2vec方法通过将基于信息量词(ic)的语义权重合并到相关的基于word2vec方法的向量中,改进了语言概念的向量表示。本专利技术利用gigaword英语第五版(https://catalog.ldc.upenn.edu/ldc2011t07)作为文本数据集来训练word2vec方法(https://radimrehurek.com/gensim/models/word2vec.html)。wordnet 3.1(http://wordnetweb.princeton.edu/perl/webwn)词汇数据库用于计算语言概念的基于信息量词(ic)的语义权重。将计算出的基于信息量词(ic)的语言概念语义权重合并到现有的基于word2vec方法的向量中,以提高语言概念向量的质量。

2、为了实现上述专利技术目的,本专利技术采用技术方案具体为:

3、一种语言概念向量表示的方法,包括以下步骤:

4、对数据收集和预处理

5、本专利技术利用gigaword英语第五版(https://catalog.ldc.upenn.edu/ldc2011t07)作为文本数据集来训练word2vec方法(https://radimrehurek.com/gensim/models/word2vec.html)。使用python编程语言3.7版本和python的自然语言工具包库(nltk)进行数据预处理。从gigaword获得的所有文本数据都会转换为文本单词标记并聚合为单个大型文本数据集。

6、s1:使用word2vec方法开发语言概念向量

7、s2:基于信息量词(ic)的语言概念语义权重计算

8、s3:使用基于信息量词(ic)的语义权重对语言概念进行向量表示

9、步骤s1具体包括:

10、利用word2vec方法(https://radimrehurek.com/gensim/models/word2vec.html)生成语言概念向量,并在gigaword数据集上进行训练,公式如下:

11、

12、其中con代表一个语言概念,函数word2vecmethod(con)提供其相应的语言概念向量该向量在gigaword数据集上进行训练。

13、步骤s2具体包括:

14、利用wordnet 3.1(http://wordnetweb.princeton.edu/perl/webwn)词汇数据库计算语言概念的基于信息量词(ic)的语义权重,如下:

15、

16、函数sweight(con)wordnet表示wordnet中语言概念的基于信息量词(ic)的语义权重,函数|descendant(con)wordnet|表示wordnet中语言概念的后代数量,函数|total(con)wordnet|表示wordnet中语言概念的总数。

17、步骤s3具体包括:

18、语言概念通过组合基于信息量词(ic)的语义权重和相关的基于word2vec方法的向量来表示为向量,如下所示:

19、

20、函数表示新发的语言概念向量,该向量结合了基于信息量词(ic)的语义权重和基于word2vec方法的向量,函数sweight(con)wordnet表示语言概念的基于信息量词(ic)的语义权重,其计算公式为(2),函数表示语言概念的基于word2vec方法的向量,其计算公式为等式(1),其中二元运算符*表示标量值与向量的乘积。

21、步骤s1和步骤s2同时进行,相互独立。

22、与现有技术相比,本专利技术的有益效果为:

23、1、通过公式(2),其计算语言概念的基于信息量词(ic)的语义权重。

24、2、通过公式(3),提出了基于信息量词(ic)的语义权重和基于word2vec方法的向量的语言概念的向量。

本文档来自技高网...

【技术保护点】

1.一种语言概念向量表示的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种语言概念向量表示的方法,其特征在于,步骤S1具体包括:

3.根据权利要求2所述的一种语言概念向量表示的方法,其特征在于,步骤S2具体包括:

4.根据权利要求3所述的一种语言概念向量表示的方法,其特征在于,步骤S3具体包括:

5.根据权利要求1-4任一项所述的一种语言概念向量表示的方法,其特征在于,步骤S1和步骤S2同时进行,相互独立。

【技术特征摘要】

1.一种语言概念向量表示的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种语言概念向量表示的方法,其特征在于,步骤s1具体包括:

3.根据权利要求2所述的一种语言概念向量表示的方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:侯赛因穆罕穆德贾瓦德白鹤鸣
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1