【技术实现步骤摘要】
短文自动化萃取分类及关键字方法及采用该方法的装置
[0001]本专利技术是指一种短文自动化萃取分类及关键字方法,尤指一种可在小样本量通过关键字进行词向量分类训练的短文自动化萃取分类及关键字方法。
技术介绍
[0002]目前的短文分类模型的训练数据集多为新闻资料库,且大多是应用于新闻采集或网络舆情分析等,其特性包含文本数量充足、文章的主题一致、句法结构清楚等,因此适合用现有技术的训练词向量与分类器方法进行分类。
[0003]然而,针对一般企业处理客服进件时(如电子邮件或信息提问),由于进件量较少(如界于10到100万笔之间)不易执行一般的聚类与分类的自然语言处理(Natural Language Processing,NLP)模型,现有技术训练词向量及分类器进行分类仅适用于大样本数,另外,现有技术由机器学习所训练得出的分类器较耗费时间与资源,且建立后无法依需求再进行微调,如果因应业务需求而要新增产品名称或功能名称等关键字时,仅能重新进行训练而缺乏弹性。
[0004]有鉴于此,现有技术实有改进的必要。
专 ...
【技术保护点】
【技术特征摘要】
1.一种短文自动化萃取分类及关键字方法,包含:输入多个短文,且各多个短文均各具有至少一短句;对该多个短文进行一预处理,以产生多个预处理短文;根据一文本主题分析模型,该多个预处理短文分为不同主题的多个类别,并输出该多个预处理短文相对应的多个类别标签,且各多个类别均各具有多个对应的候选关键字;根据该多个预处理短文、该多个预处理短文相对应的多个类别标签、一开源词向量预训练集、该多个类别及该多个对应的候选关键字及一配适度演算法,以将该多个类别的各类别中多个相似度加总或多个通过门槛短文比例当中至少一者,决定该多个类别的各类别所对应的关键字;再进行该配适度演算法,并判断该多个类别的各类别所对应关键字之间的向量距离,将该向量距离小于一门槛的类别进行合并,对已合并类别再次萃取相对应关键字进行更新;以及根据该多个类别及该多个类别的各类别所对应的关键字,建立一词向量短文分类器,以达到短文自动化萃取分类的目的。2.如权利要求1所述的短文自动化萃取分类及关键字方法,其中该预处理包含一分词处理、一停用词处理、一大小写处理、一词性还原处理、一动词型态处理中至少一者。3.如权利要求1所述的短文自动化萃取分类及关键字方法,其中该文本主题分析模型包含一狄利克雷多项式混合模型的吉布斯采样算法、一狄利克雷多项式混合模型、一应用GPU改善狄利克雷多项式混合模型、一隐含狄利克雷分布模型、一主题代表词发现、一双词主题模型、一隐含语意索引以及一潜在语义分析当中至少一者;该开源词向量预训练集包含预训练集wiki
‑
news
‑
300d
‑
1M.vec、wiki
‑
n...
【专利技术属性】
技术研发人员:张凯乔,黄戎歆,曾文彦,
申请(专利权)人:威联通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。