【技术实现步骤摘要】
多粒度词向量的评估方法、装置、电子设备及存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种多粒度词向量的评估方法、装置、电子设备及存储介质。
技术介绍
[0002]对于某一领域的文本数据,例如债券领域的债市文本,其中蕴藏着丰富的知识,且知识体系又极为复杂,人工挖掘知识难度极大且低效。如何高效地挖掘文本中蕴藏的特征是当前自然处理领域一大挑战。
[0003]目前,文本数据的特征选择多依赖于人工设计,比如关键字匹配、模板匹配等。这些方法虽然在短期内高效,但是缺乏灵活性,不具备语义“理解”能力。词向量研究作为一种融合语言学、统计学、自然语言处理、大数据挖掘等多学科的研究领域,能够较好地弥补人工设计特征的缺陷。该技术本质是一种将词映射为数字向量的技术,这些向量在空间中的距离可以衡量词间的语义。因此,词向量是一种从自然语言文本中自动生成的特征,不仅具备一定的语义表达能力,而且向量表示灵活,可以根据文本分布而变化。
[0004]然而,针对相同的领域文本,不同的词向量构建方法,可生成不同的词向量。为保证词 ...
【技术保护点】
【技术特征摘要】
1.一种多粒度词向量的评估方法,其特征在于,包括:获取目标领域的多个预处理后的目标文本,并将多个所述目标文本划分为训练集和测试集;构建多个词向量训练模型,所述多个词向量训练模型包括基于字、词和字组件的联合词向量训练模型和基于字和/或词的词向量训练模型;所述字组件为字的组成部分;针对每个所述词向量训练模型,利用所述词向量训练模型对所述训练集进行词向量训练,得到词向量训练集,并将所述词向量训练集输入初始文本分类模型中进行训练,得到训练好的文本分类模型;利用所述词向量训练模型对所述测试集进行词向量训练,得到词向量测试集,并将所述词向量测试集输入所述训练好的文本分类模型中进行测试,得到所述训练好的文本分类模型的多个模型性能指标,所述多个模型性能指标用于基于多角度对所述词向量测试集的性能进行评估。2.根据权利要求1所述的多粒度词向量的评估方法,其特征在于,针对所述基于字、词和字组件的联合词向量训练模型,所述利用所述词向量训练模型对所述训练集进行词向量训练,得到词向量训练集,包括:分别统计所述训练集中各字、词和字组件的出现频率;基于所述训练集中各字、词和字组件的出现频率的顺序,分别构建字表、词表和字组件表;将所述字表中的每个字、所述词表中的每个词和所述字组件表中的每个字组件分别初始化为预设维数的初始化向量;依次将所述训练集中的每个所述目标文本中的各字、词和字组件分别映射为所述预设维数的初始化向量,并输入所述基于字、词和字组件的联合词向量训练模型中进行词向量训练,直至模型收敛,得到所述词向量训练集。3.根据权利要求1所述的多粒度词向量的评估方法,其特征在于,针对基于字和词的词向量训练模型,所述利用所述词向量训练模型对所述训练集进行词向量训练,得到词向量训练集,包括:分别统计所述训练集中各字和词的出现频率;基于所述训练集中各字和词的出现频率的顺序,分别构建字表和词表;将所述字表中的每个字和所述词表中的每个词分别初始化为预设维数的初始化向量;依次将所述训练集中的每个所述目标文本中的各字和词分别映射为所述预设维数的初始化向量,并输入所述基于字和词的词向量训练模型中进行词向量训练,直至模型收敛,得到所述词向量训练集。4.根据权利要求1所述的多粒度词向量的评估方法,其特征在于,针对基于词的词向量训练模型,所述利用所述词向量训练模型对所述训练集进行词向量训练,得到词向量训练集,包括:统计所述训练集中各词的出现频率;基于所述训练集中各词的出现频率的顺序,构建词表;将所述词表中的每个词初始化为预设维数的初始化向量;依次将所述训练集中的每个所述目标文本中的各词分别映射为所述预设维数的初始
化向量,并输入所述基于词的词向量训练模型中进行词向量...
【专利技术属性】
技术研发人员:华娇娇,唐华云,李荣,王延昭,黄鑫玉,孙爽,商丽丽,
申请(专利权)人:中债金科信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。