一种领域化词向量的优化方法及基于其的融合排序方法技术

技术编号：20389932 阅读：24 留言：0更新日期：2019-02-20 02:52

本发明专利技术提供了一种领域化词向量的优化方法及基于其的融合排序方法，其中，领域化词向量的优化方法包括如下步骤：S11、进行无领域词向量的训练并获得需求词向量；S12、进行领域词向量的训练并得到需求词向量后使用RWMD算法进行相似度的计算；S12具体步骤如下：S121、对领域语料库进行数据清洗，将表情符号以及无法识别的乱码进行清除，并对领域语料库本身使用LTP的分词模型进行分词处理；S122、计算每个词语的IDF值，IDF值为每个词语在领域语料库中出现的概率，并计算出IDF_weight的值。领域化词向量的优化方法及基于其的融合排序方法解决现有技术中因不能将无领域词向量和有领域词向量融合而导致新生成的领域化词向量不能适应与某一类特定的垂直领域问答系统的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种领域化词向量的优化方法及基于其的融合排序方法
本专利技术涉及信息检索领域，具体涉及一种领域化词向量的优化方法及基于其的融合排序方法。
技术介绍
随着社会经济与互联网的飞速发展，各种各样的事务与信息都被当作数据存储起来。如何使用这些数据并且对其进行科学有效的管理是目前信息检索领域非常热门的一个研究方向。搜索引擎的数据库是多领域杂交的，对于某些专业领域的问题，大规模的搜索引擎会返回较多的无用结果，增加检索难度，从大量无用信息中寻找相关答案不仅会侧面增加检索系统的负担，也会降低使用体验。专家系统属于信息检索的一种应用，针对其主要实现的内容可以将其定义为自然语言处理范畴，即短文本相似度匹配问题。专家系统的底层实现是一个固定专业领域的问答系统，因此返回结果的好坏在一定程度上会影响提问者的体验。排序学习目前在信息检索被广泛的使用。专家系统正是这一监督学习的一个典型应用，区别于单一的传统评价模型，排序学习引入了多个传统模型融合的机制，目前排序学习主要分为三大类，为别是单文档方法(PointWiseApproach)、文档对方法(PaireWiseApproach)以及文档列表方法(ListWiseApproach)。短文本匹配是通过信息检索的方式，通过相似问题对来进行所需信息的查找，主要包括语义匹配和词义匹配，语义匹配需要通过大量的标注数据对其进行语义模型的学习，工程量比较大，针对于知识库这种数据量相对语言模型较小，难以学习到有效的模型，对于词义层级上的匹配，则较为简单快捷，根据TF/IDF或者自然语言模型构建每个词的特征向量解决了文本序列的概率表示化；BiGram...

【技术保护点】
1.一种领域化词向量的优化方法，其特征在于，包括如下步骤：S11、进行无领域词向量的训练；S12、进行领域词向量的训练并得到需求词向量；S11具体步骤如下：S111、对无领域语料库进行数据清洗，将表情符号以及无法识别的乱码进行清除，并对无领域语料库本身进行分词处理；S112、使用Word2Vec模型对整体的语料库进行训练，得到初始词向量Vold(w)；S113、根据每个词在无领域语料库中的频率p(w)为其设置权重，并根据下列公式计算无领域语料库中无领域词向量：Vundomain(w)＝exp(p(w))×Vold(w)式中，Vundomain(w)表示无领域词向量，p(w)为每个词在语料库中的频率；S12具体步骤如下：S121、对领域语料库进行数据清洗，将表情符号以及无法识别的乱码进行清除，并对领域语料库本身使用LTP的分词模型进行分词处理；S122、计算每个词语的IDF(w)值，IDF(w)值为每个词语在领域语料库中出现的概率，并计算出IDF_weight的值，设所有词语在领域语料库中出现的频率的中间值为IDFmo，所有词语在在领域语料库中出现的频率的平均值为

【技术特征摘要】
1.一种领域化词向量的优化方法，其特征在于，包括如下步骤：S11、进行无领域词向量的训练；S12、进行领域词向量的训练并得到需求词向量；S11具体步骤如下：S111、对无领域语料库进行数据清洗，将表情符号以及无法识别的乱码进行清除，并对无领域语料库本身进行分词处理；S112、使用Word2Vec模型对整体的语料库进行训练，得到初始词向量Vold(w)；S113、根据每个词在无领域语料库中的频率p(w)为其设置权重，并根据下列公式计算无领域语料库中无领域词向量：Vundomain(w)＝exp(p(w))×Vold(w)式中，Vundomain(w)表示无领域词向量，p(w)为每个词在语料库中的频率；S12具体步骤如下：S121、对领域语料库进行数据清洗，将表情符号以及无法识别的乱码进行清除，并对领域语料库本身使用LTP的分词模型进行分词处理；S122、计算每个词语的IDF(w)值，IDF(w)值为每个词语在领域语料库中出现的概率，并计算出IDF_weight的值，设所有词语在领域语料库中出现的频率的中间值为IDFmo，所有词语在在领域语料库中出现的频率的平均值为则S123、进行领域语料库词向量的训练，采用Skip-gram与cBOW进行对比，使用负采样优化，数量设置依据具体场景和测试结果而定，在进行模型训练时采用下采样，窗口大小依据具体场景而定，得领域词向量Vold(w)'；S124、根据每个词在领域语料库内出现的频率p(w)'进行空间映射得到计算公式如下：S125、将领域语料库内领域词向量与无领域词向量进行融合，得到需求词向量Vnew(w)。2.根据权利要求1所述的一种领域化词向量的优化方法，其特征在于，在计算完步骤S12后进行步骤S13，步骤13中进行对需求词向量进行修正，步骤13具体包括以下步骤：S131、使用在专业领域的相似问题对，对每条文本进行分词操作，并为每一个词语查找步骤S123中训练好的领域词向量Vold(w)'以及步骤S125中得到的需求词向量Vnew(w)，使用RWMD算法对Vold(w)'于Vnew(w)进行相似度ρ(w)，判断...

【专利技术属性】
技术研发人员：刘慧君，李傲，曾一，乔猛，周明强，邬小燕，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人