【技术实现步骤摘要】
基于银行知识库的文本分类方法和装置
[0001]本专利技术涉及人工智能及文本分类
,尤其涉及一种基于银行知识库的文本分类方法和装置。
技术介绍
[0002]银行知识库中文本数量十分庞大,且类别十分丰富,涉及到各个领域、方面,员工可以从这些文本中挑选出自己想了解的文本获取更多的信息,方便自己的工作,学习更多的专业知识。但这也给员工查找目标文本带来了麻烦,面对杂乱分布的知识库文本,从中找出感兴趣的类别文本费时费力,严重影响了效率。同时,通过简单地类别关键词搜索得到的结果中往往包含大量的无意义文本,这些无意义的文本中只是因为包含了搜索关键字。
[0003]因此,高效的文本分类方法对于文本查找具有很重要的意义。现有的传统的有监督学习文本分类方法侧重于设计手工制作的特征,但由于银行知识具有有限的上下文信息和稀疏的语义,很难获得有用的分类特征,并且银行信息中包含一些对分类起决定性作用的词语,而传统的有监督学习文本分类方法无法将其提取出。银行领域的文本包含大量的专有名词,传统的有监督学习文本分类方法不能有效的把这些专有名词提 ...
【技术保护点】
【技术特征摘要】
1.一种基于银行知识库的文本分类方法,其特征在于,所述方法包括:构建层次结构词典,所述层次结构词典的类别中具有银行内部不同领域专有名词;对上传文本进行分词预处理后输入到文本分类模型之中;将所述文本分类模型的输出分类按概率进行降序排序,并选取N个概率最大的输出分类,所述输出分类为所述层次结构词典中的类别,N为大于1的自然数;获取分词后的词汇与选取的N个类别分别进行匹配,若匹配成功,则将对应类别的计数器加1;将计数器值最大的类别作为所述上传文本的分类。2.如权利要求1所述的基于银行知识库的文本分类方法,其特征在于,所述层次结构词典还包括不同领域类别的必需信息项。3.如权利要求2所述的基于银行知识库的文本分类方法,其特征在于,将计数器值最大的类别作为所述上传文本的分类之后,所述方法还包括:判断所述上传文本中是否包含计数器值最大的类别中的必需信息项,若包含的必需信息项大于等于预设百分比,则判定分类正确;若小于预设百分比,则判定分类有误,并在剩余类别中选取计数器值最大的类别作为所述上传文本的分类;重复判断上传文本中是否包含计数器值最大的类别中的必需信息项,直至包含的必需信息项大于等于预设百分比。4.如权利要求1所述的基于银行知识库的文本分类方法,其特征在于,所述文本分类模型包括:词嵌入层、双向循环神经网络层、注意力机制层和分类层。5.如权利要求4所述的基于银行知识库的文本分类方法,其特征在于,所述词嵌入层采用word2vec网络中skip
‑
gram模型将分词后的词汇表示成一个低维连续的实值向量,作为所述双向循环神经网络层的输入;所述双向循环神经网络层使用双向长短期记忆网络,通过学习控制信息流,捕获长文本的上下文信息和语义依赖关系;所述注意力机制层根据文本特征对分类的重要性使用双线性注意...
【专利技术属性】
技术研发人员:杨鑫,郭斌,李洪涛,张丹洁,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。