一种电信客服垂直领域的词库构建方法及工具技术

技术编号：24708185 阅读：123 留言：0更新日期：2020-06-30 23:59

一种电信客服垂直领域的词库构建方法，包括：将需要提取领域词库的语料库导入词库构建工具，语料数据作为训练集数据；利用词库构建工具对训练集数据进行分词提取，分词提取工具有Jieba工具、TF‑IDF统计模型、信息熵模型和TextRank模型；提取后的词集导出作为专业领域词库。“种子词筛选结合词向量的优化”的词库构建方法及工具，快速、高效的发现行业专业领域词汇，构建主题词库，可用于专业的领域词汇挖掘，新词发现，关键词挖掘，相似主题挖掘等领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种电信客服垂直领域的词库构建方法及工具
本专利技术涉及计算机网络
，更具体地，涉及一种电信客服垂直领域的词库构建方法及工具。
技术介绍
随着语言处理技术的不断发展，各行业基于此技术而构建智能化的呼叫中心客服业务应用需求不断增加。而基于此技术的应用建设离不开行业的通用词库。通过该词库的数据来支撑呼叫中心相关交互文本的语义理解，知识库的构建等。电信客服垂直领域词库的构建是电信客服垂直领域词库应用的基础，随着词库构建的理论研究逐步深入和在工程实践中的广泛应用，形成了许多的构建方法和构建工具。传统构建方式往往是通过积累的大量的文本数据(例如如行业的科研论文，项目报告，服务规程，各类操作手册等等)依靠人工批注的模式去筛选该行业的专业领域词汇。但该构建过程仍需要通过人工的参与，人们凭借一定专业领域知识，依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的词库构建方式非常费时费力，成为基于NLP业务应用发展的一个瓶颈。现有的领域词库的构建方法是依靠人工批注的模式去筛选该行业的专业领域词汇。该方法受专业领域限制，耗时耗力，效率低下，且无固化的工具来辅助完成词库的构建。
技术实现思路
本专利技术提供的一种“种子词筛选结合词向量的优化”的词库构建方法及工具，快速、高效的发现行业专业领域词汇，构建主题词库，可用于专业的领域词汇挖掘，新词发现，关键词挖掘，相似主题挖掘等领域。本专利技术提供一种电信客服垂直领域的词库构建方法，包括：步骤一、将需要提取领域词库的语料库导入...

【技术保护点】
1.一种电信客服垂直领域的词库构建方法，其特征在于，包括：/n步骤一、将需要提取领域词库的语料库导入词库构建工具，语料数据作为训练集数据；/n步骤二、利用词库构建工具对训练集数据进行分词提取，分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型；/n步骤三、提取后的词集导出作为专业领域词库。/n

【技术特征摘要】
20191227 CN 20191138896511.一种电信客服垂直领域的词库构建方法，其特征在于，包括：
步骤一、将需要提取领域词库的语料库导入词库构建工具，语料数据作为训练集数据；
步骤二、利用词库构建工具对训练集数据进行分词提取，分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型；
步骤三、提取后的词集导出作为专业领域词库。

2.如权利要求1所述的方法，其特征在于，所述步骤二中，通过Jieba分词法在语料库中初步分词得到分词集，构建分词词库。

3.如权利要求2所述的方法，其特征在于，基于所述分词词库，利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。

4.如权利要求3所述的方法，其特征在于，将重新分词的结果“词”，重新作为Jieba的词典，重新对训练集数据进行分词，使用word2vec词向量模型计算得到各个词的向量空间。

5.如权利要求4所述的方法，其特征在于，将重新分词的结果“词”中有交集的，作为种子词；剩余的其它词作为候选词。

6.如权利要求5所述的方法，其特征在于，利用各个词的向量空间结果，将种子词与候选词进行相似度匹配，找出相似度高的K个词；然后采用...

【专利技术属性】
技术研发人员：王鸿强，雷晓宇，王福君，张宇，
申请(专利权)人：北京合力亿捷科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人