当前位置: 首页 > 专利查询>重庆大学专利>正文

一种领域化词向量的优化方法及基于其的融合排序方法技术

技术编号:20389932 阅读:24 留言:0更新日期:2019-02-20 02:52
本发明专利技术提供了一种领域化词向量的优化方法及基于其的融合排序方法,其中,领域化词向量的优化方法包括如下步骤:S11、进行无领域词向量的训练并获得需求词向量;S12、进行领域词向量的训练并得到需求词向量后使用RWMD算法进行相似度的计算;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF值,IDF值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值。领域化词向量的优化方法及基于其的融合排序方法解决现有技术中因不能将无领域词向量和有领域词向量融合而导致新生成的领域化词向量不能适应与某一类特定的垂直领域问答系统的问题。

【技术实现步骤摘要】
一种领域化词向量的优化方法及基于其的融合排序方法
本专利技术涉及信息检索领域,具体涉及一种领域化词向量的优化方法及基于其的融合排序方法。
技术介绍
随着社会经济与互联网的飞速发展,各种各样的事务与信息都被当作数据存储起来。如何使用这些数据并且对其进行科学有效的管理是目前信息检索领域非常热门的一个研究方向。搜索引擎的数据库是多领域杂交的,对于某些专业领域的问题,大规模的搜索引擎会返回较多的无用结果,增加检索难度,从大量无用信息中寻找相关答案不仅会侧面增加检索系统的负担,也会降低使用体验。专家系统属于信息检索的一种应用,针对其主要实现的内容可以将其定义为自然语言处理范畴,即短文本相似度匹配问题。专家系统的底层实现是一个固定专业领域的问答系统,因此返回结果的好坏在一定程度上会影响提问者的体验。排序学习目前在信息检索被广泛的使用。专家系统正是这一监督学习的一个典型应用,区别于单一的传统评价模型,排序学习引入了多个传统模型融合的机制,目前排序学习主要分为三大类,为别是单文档方法(PointWiseApproach)、文档对方法(PaireWiseApproach)以及文档列表方法(ListWiseApproach)。短文本匹配是通过信息检索的方式,通过相似问题对来进行所需信息的查找,主要包括语义匹配和词义匹配,语义匹配需要通过大量的标注数据对其进行语义模型的学习,工程量比较大,针对于知识库这种数据量相对语言模型较小,难以学习到有效的模型,对于词义层级上的匹配,则较为简单快捷,根据TF/IDF或者自然语言模型构建每个词的特征向量解决了文本序列的概率表示化;BiGram和TriGram模型的建立并通过欧式距离进行相似度的计算;Word2Vec模型简化了训练过程,减少了训练时间。但是上述方法中均存在以下问题:生成的词向量仅是受到无领域词向量的影响,或仅是受到了领域内词向量的影响,不能将无领域词向量与领域词向量融合,而导致新生成的领域化词向量不能适应于某一类特定的垂直领域问答系统,导致查找时反应过慢的现象出现。
技术实现思路
本专利技术要提供一种领域化词向量的优化方法及基于其的融合排序方法,解决现有技术中因不能将无领域词向量和有领域词向量融合而导致新生成的领域化词向量不能适应与某一类特定的垂直领域问答系统的问题。为实现上述目的,本专利技术采用了如下的技术方案:本专利技术首先提供一种领域化词向量的优化方法,包括如下步骤:S11、进行无领域词向量的训练;S12、进行领域词向量的训练并得到需求词向量;S11具体步骤如下:S111、对无领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对无领域语料库本身进行分词处理;S112、使用Word2Vec模型对整体的语料库进行训练,得到初始词向量Vold(w);S113、根据每个词在无领域语料库中的频率p(w)为其设置权重,并根据下列公式计算无领域语料库中无领域词向量:Vundomain(w)=exp(p(w))×Vold(w)式中,Vundomain(w)表示无领域词向量,p(w)为每个词在语料库中的频率;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF(w)值,IDF(w)值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值,设所有词语在领域语料库中出现的频率的中间值为IDFmo,所有词语在在领域语料库中出现的频率的平均值为则S123、进行领域语料库词向量的训练,采用Skip-gram与cBOW进行对比,使用负采样优化,数量设置依据具体场景和测试结果而定,在进行模型训练时采用下采样,窗口大小依据具体场景而定,得领域词向量Vold(w)';S124、根据每个词在领域语料库内出现的频率p(w)'进行空间映射得到计算公式如下:S125、将领域语料库内领域词向量与无领域词向量进行融合,得到需求词向量Vnew(w)。本专利技术还提供一种领域化词向量的融合排序方法,包括如下步骤:S21、设置融合模型包括单文档模型以及文档对模型;S21、为每一条数据使用LTP进行分词,并进行去停用词操作;S22、将TF/IDF余弦值、BM25、Word2Vec欧式距离、RWMD、知网语义相似度计算作为排序学习模型特征;S23、进行融合模型第一部分的训练,根据特征选择,将每一条文本与原问题之间进行相似度向量的映射,将其送入单文档模型的单层神经网络基底模型中进行训练,中间层神经元个数为8个,Batchsize设置为128;S24、进行融合模型第二部分的训练,在选中该条数据正确答案的基础上,随机抽取其他错误文本,进行文档对之间相似度向量的映射,并将其送入文档对模型的双层神经网络基底模型进行训练,每层神经元个数均设置为8个,Batchsize设置为128。相比于现有技术,本专利技术具有如下有益效果:1)通过建立无领域语料库的建立和驯化,得到了无领域词向量;同时通过条件设置将无领域词向量与领域词向量融合在一起,增加问句与问句、问句与文档之间的相关性的特征作为补充,使得专家机器人在进行答案排序时将多个特征融合在一起,最终使得回复最佳答案的概率得以提高,提高了检索的响应效率以及响应结果的正确性;2)专家系统对于最终的排序结果要求较高,对于效果较好的文档列表模型,时间复杂度较高,无法满足专家系统所要求的高响应速度,本申请的领域化词向量的融合排序方法采用时间复杂度较小的单文档模型与文档对模型相结合的融合排序模型做最终的排序模型,在效果上与文档列表模型相近,但是时间复杂度小于文档列表模型,能够满足专家系统对于快速响应的要求。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1为使用领域化词向量的RWMD进行短文本相似度对比的过程图;图2为融合排序模型示意图。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与作用更加清楚及易于了解,下面结合附图和具体实施方式对本专利技术作进一步阐述:本专利技术提出了一种领域化词向量的优化方法,包括以下步骤:S11、进行无领域词向量的训练;S12、进行领域词向量的训练并得到需求词向量;S11、步骤如下:S111、对无领域的大规模语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对语料库本身进行分词处理;S112、使用Word2Vec模型对整体的语料库进行训练;(由于Skip-gram对于出现较少的稀有词汇较为友好,不会出现漏词现象的发生,因此可以使用cBOW模型对其进行对比分析,分别进行两套模型训练,使用负采样优化,数量设置依据具体使用场景进行相应的调整,在进行模型训练时采用下采样,窗口大小根据实际场景和测试效果进行相应的调整)S113、根据每个词在语料库中的频率为其设置权重,并根据相对应的规则将其映射到新的空间中;(第一部分主要是进行两套模型的词向量训练,并对其进行去潜在停用词处理,即对每个词对应的权值的计算,将权值与训练好的初始词向量进行映射得到无领域词向量。)(第二部分是在第一部分的基础之上完成的。在得到去潜在停用词后的无领域词向量后,进行某个特定领域语料库的词向量训本文档来自技高网
...

【技术保护点】
1.一种领域化词向量的优化方法,其特征在于,包括如下步骤:S11、进行无领域词向量的训练;S12、进行领域词向量的训练并得到需求词向量;S11具体步骤如下:S111、对无领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对无领域语料库本身进行分词处理;S112、使用Word2Vec模型对整体的语料库进行训练,得到初始词向量Vold(w);S113、根据每个词在无领域语料库中的频率p(w)为其设置权重,并根据下列公式计算无领域语料库中无领域词向量:Vundomain(w)=exp(p(w))×Vold(w)式中,Vundomain(w)表示无领域词向量,p(w)为每个词在语料库中的频率;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF(w)值,IDF(w)值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值,设所有词语在领域语料库中出现的频率的中间值为IDFmo,所有词语在在领域语料库中出现的频率的平均值为

【技术特征摘要】
1.一种领域化词向量的优化方法,其特征在于,包括如下步骤:S11、进行无领域词向量的训练;S12、进行领域词向量的训练并得到需求词向量;S11具体步骤如下:S111、对无领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对无领域语料库本身进行分词处理;S112、使用Word2Vec模型对整体的语料库进行训练,得到初始词向量Vold(w);S113、根据每个词在无领域语料库中的频率p(w)为其设置权重,并根据下列公式计算无领域语料库中无领域词向量:Vundomain(w)=exp(p(w))×Vold(w)式中,Vundomain(w)表示无领域词向量,p(w)为每个词在语料库中的频率;S12具体步骤如下:S121、对领域语料库进行数据清洗,将表情符号以及无法识别的乱码进行清除,并对领域语料库本身使用LTP的分词模型进行分词处理;S122、计算每个词语的IDF(w)值,IDF(w)值为每个词语在领域语料库中出现的概率,并计算出IDF_weight的值,设所有词语在领域语料库中出现的频率的中间值为IDFmo,所有词语在在领域语料库中出现的频率的平均值为则S123、进行领域语料库词向量的训练,采用Skip-gram与cBOW进行对比,使用负采样优化,数量设置依据具体场景和测试结果而定,在进行模型训练时采用下采样,窗口大小依据具体场景而定,得领域词向量Vold(w)';S124、根据每个词在领域语料库内出现的频率p(w)'进行空间映射得到计算公式如下:S125、将领域语料库内领域词向量与无领域词向量进行融合,得到需求词向量Vnew(w)。2.根据权利要求1所述的一种领域化词向量的优化方法,其特征在于,在计算完步骤S12后进行步骤S13,步骤13中进行对需求词向量进行修正,步骤13具体包括以下步骤:S131、使用在专业领域的相似问题对,对每条文本进行分词操作,并为每一个词语查找步骤S123中训练好的领域词向量Vold(w)'以及步骤S125中得到的需求词向量Vnew(w),使用RWMD算法对Vold(w)'于Vnew(w)进行相似度ρ(w),判断...

【专利技术属性】
技术研发人员:刘慧君李傲曾一乔猛周明强邬小燕
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1