一种电信客服垂直领域的词库构建方法及工具技术

技术编号:24708185 阅读:123 留言:0更新日期:2020-06-30 23:59
一种电信客服垂直领域的词库构建方法,包括:将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF‑IDF统计模型、信息熵模型和TextRank模型;提取后的词集导出作为专业领域词库。“种子词筛选结合词向量的优化”的词库构建方法及工具,快速、高效的发现行业专业领域词汇,构建主题词库,可用于专业的领域词汇挖掘,新词发现,关键词挖掘,相似主题挖掘等领域。

【技术实现步骤摘要】
一种电信客服垂直领域的词库构建方法及工具
本专利技术涉及计算机网络
,更具体地,涉及一种电信客服垂直领域的词库构建方法及工具。
技术介绍
随着语言处理技术的不断发展,各行业基于此技术而构建智能化的呼叫中心客服业务应用需求不断增加。而基于此技术的应用建设离不开行业的通用词库。通过该词库的数据来支撑呼叫中心相关交互文本的语义理解,知识库的构建等。电信客服垂直领域词库的构建是电信客服垂直领域词库应用的基础,随着词库构建的理论研究逐步深入和在工程实践中的广泛应用,形成了许多的构建方法和构建工具。传统构建方式往往是通过积累的大量的文本数据(例如如行业的科研论文,项目报告,服务规程,各类操作手册等等)依靠人工批注的模式去筛选该行业的专业领域词汇。但该构建过程仍需要通过人工的参与,人们凭借一定专业领域知识,依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的词库构建方式非常费时费力,成为基于NLP业务应用发展的一个瓶颈。现有的领域词库的构建方法是依靠人工批注的模式去筛选该行业的专业领域词汇。该方法受专业领域限制,耗时耗力,效率低下,且无固化的工具来辅助完成词库的构建。
技术实现思路
本专利技术提供的一种“种子词筛选结合词向量的优化”的词库构建方法及工具,快速、高效的发现行业专业领域词汇,构建主题词库,可用于专业的领域词汇挖掘,新词发现,关键词挖掘,相似主题挖掘等领域。本专利技术提供一种电信客服垂直领域的词库构建方法,包括:步骤一、将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;步骤二、利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;步骤三、提取后的词集导出作为专业领域词库。在本公开的一实施例中,所述步骤二中,通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。在本公开的一实施例中,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。在本公开的一实施例中,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。在本公开的一实施例中,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。在本公开的一实施例中,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用投票形式,按照投票结果进行排序。本专利技术提供一种电信客服垂直领域的词库构建工具,包括:语料库管理模块,用于将需要提取领域词库的语料库导入,语料数据作为训练集数据;词库构建核心模块,用于对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;词库管理模块,用于构建的专业领域词库的管理。在本公开的一实施例中,词库构建核心模块通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。在本公开的一实施例中,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。在本公开的一实施例中,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。在本公开的一实施例中,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。在本公开的一实施例中,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用投票形式,按照投票结果进行排序。本专利技术提供的电信客服垂直领域的词库构建工具,具有的技术效果为,本专利技术采用“种子词加Word2Vec”比对核心构建方法提供一套完整的词库构建工具,词库在构建过程中无需使用任何标注数据,是一种无监督的机器学习的构建工具,且不需要模型设计人员具备该专业领域的知识,具有良好的机器学习泛化能力,可用以作为其它专业领域词库的通用构建方法。本专利技术解决了词库构建需要专业人工标注,有监督学习训练的耗时耗力的效率低下,准确性差的构建问题。本专利技术实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术实施例的技术方案做进一步的详细描述。附图说明图1是词库构建工具功能框架示意图;图2是整体词库管理流程图;图3是词库构建核心流程图;图4是语料库列表示例;图5是词语列表示例;图6是分词组合示例;图7是分词结果组成图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。一.实现思路本专利技术采用“种子词加Word2Vec”比对构建的固化词库构建工具,种子词的选取方式采用多种分词技术,验证分词交集,并将交集数据作为种子词,重新进入训练集优化分词结果。最终利用种子词与候选词的空间向量的相似性,找出目标词语构建成词库。该词库管理工具中模型在构建过程中无需使用任何标注数据,是一种无监督学习的模型,且不需要模型设计人员具备该专业领域的知识,具有良好的机器学习泛化能力,可用以作为其它专业领域词库的通用构建方法。图1是本专利技术词库构建工具的功能框架图。本专利技术的词库构建工具分为三个部分。语料库管理部分,针对需要进行构建词库的领域语料进行管理,包括:语料导入、语料更新、语料删除等。词库构建核心部分,通过该部分完成语料中词库的抓取构建,包括:关联需要提取词库的语料,算法模型的简单配置,以及一些分词模型工具等。本实施例的分词模型工具有Jieba工具、TF-IDF模型、信息熵模型和TextRank模型,但不限于此。词库管理部分,该部分为其构建的领域词库进行管理,通过该界面能进行词库的查看、添加新词和词管理等操作。图2所示为本专利技术词库构建流程。首先进行语料导入,然后利用词库构建工具对导入的语料进行分词提取。分词提取工具有Jieba工具、TF-IDF模型、信息熵模型和TextRank模型,但不限于此。提取后的词集作为词库导出。图3所示为本专利技术工具的核心方法,采用无监督学习的分词词库构建法。首先,通过Jieba分词法在语料库中初步分词得到分词集,获得构建分词词库。然后,基于该分词词库利用TF-IDF统计模型、信息熵模型和TextRank模型等多种分词模型对其语料库重新进行分词,并通过多模型交叉比对出种子词,种子词交集以本文档来自技高网...

【技术保护点】
1.一种电信客服垂直领域的词库构建方法,其特征在于,包括:/n步骤一、将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;/n步骤二、利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;/n步骤三、提取后的词集导出作为专业领域词库。/n

【技术特征摘要】
20191227 CN 20191138896511.一种电信客服垂直领域的词库构建方法,其特征在于,包括:
步骤一、将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;
步骤二、利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;
步骤三、提取后的词集导出作为专业领域词库。


2.如权利要求1所述的方法,其特征在于,所述步骤二中,通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。


3.如权利要求2所述的方法,其特征在于,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。


4.如权利要求3所述的方法,其特征在于,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。


5.如权利要求4所述的方法,其特征在于,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。


6.如权利要求5所述的方法,其特征在于,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用...

【专利技术属性】
技术研发人员:王鸿强雷晓宇王福君张宇
申请(专利权)人:北京合力亿捷科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1