文本处理方法及装置制造方法及图纸

技术编号:20242384 阅读:35 留言:0更新日期:2019-01-29 23:21
本申请公开了一种文本处理方法及装置。该方法包括:根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本;通过正负样本训练得到含有领域知识的文本分类器;以及将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。本申请解决了对于文本处理时缺少领域知识的技术问题。通过本申请的文本处理方法,可以获得富含有特定领域知识的文本。进一步可以扩充知识库,建立新的富含特定领域知识文本的使用场景。

【技术实现步骤摘要】
文本处理方法及装置
本申请涉及文本处理领域,具体而言,涉及一种文本处理方法及装置。
技术介绍
通过构建知识库可以让智能机器人回答用户的问题。专利技术人发现,当用户的提问涉及专业领域时,机器人在知识库中无法找到相关富含领域知识的文本进行有效地回复,进一步不能够满足客户的问答要求。针对相关技术中对于文本处理时缺少领域知识的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本处理方法及装置,以解决对于文本处理时缺少领域知识的问题。为了实现上述目的,根据本申请的一个方面,提供了一种文本处理方法。根据本申请的文本处理方法包括:根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本;通过正负样本训练得到含有领域知识的文本分类器;以及将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。进一步地,将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本包括:根据所述预设领域文本语料的数据量确定分类算法;使用训练好的文本分类器将语料分类;其中,分类算法包括:传统分类算法或者神经网络分类算法。进一步地,通过正负样本训练得到含有领域知识的文本分本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本;通过正负样本训练得到含有领域知识的文本分类器;以及将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本;通过正负样本训练得到含有领域知识的文本分类器;以及将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。2.根据权利要求1所述的文本处理方法,其特征在于,将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本包括:根据所述预设领域文本语料的数据量确定分类算法;使用训练好的文本分类器将语料分类;其中,分类算法包括:传统分类算法或者神经网络分类算法。3.根据权利要求1所述的文本处理方法,其特征在于,通过正负样本训练得到含有领域知识的文本分类器时还包括:收集领域无关的语料;将所述领域无关的语料作为负面样本;以及将所述负面样本作为输入训练含有领域知识的文本分类器。4.根据权利要求1所述的文本处理方法,其特征在于,将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本之后还包括:将提取出的正面样本作为含有预设领域知识的文本;对得到的所述含有预设领域知识的文本执行如下任意一种的操作:补充所述含有预设领域知识的文本的对应问题得到问答对,并将所述问答对加入知识库;在包括问答对的知识库中通过检索含有预设领域知识的文本回答用户的问题。5.根据权利要求1所述的文本处理方法,其特征在于,根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本包括:将所述预设领域问答对中的问题作为负面样本,将预设领域问答对中的答案作为正面样本;将所述预设领域词汇中不包含专业词汇的语料作为负面样本;以及将预设领域文本语料中问题作为负面样本,将预设领域文本语料中答案作为正面样本,将不含有专业词汇的语料作为负面样本。6.一种文本处理装置,其特征在于...

【专利技术属性】
技术研发人员:梅杰汪冠春胡一川张海雷
申请(专利权)人:北京来也网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1