【技术实现步骤摘要】
文本类别确定方法和装置
本申请涉及文本分析
,尤其涉及一种文本类别确定方法和装置。
技术介绍
文本可以划分为主观性文本和客观性文本两大类。其中,主观性文本是指对于非事实进行描述的文本,其是带有个人情感和观点的内容抒发。如,主观性文本可以为“银河系好美啊”、“这个电影真是太吸引人了”以及“早餐的豆浆真是太好喝了”等等。客观性文本是指对事实、事件以及事件关系的客观描述,其不带有个人情感和观点。如,客观性文本可以为“银河系有八大行星”、“今天下午看了场电影”以及“今天早晨吃了豆浆和油条”等等。确定文本的主观性和客观性是很多自然语言处理的必要准备工作。如,文本情绪分析的对象就主观性文本,因此,在对文本进行情绪分析之前,需要识别出主观性文本。然而,目前对于文本的主观性以及客观性分类的研究较少,因此,如何能够确定出文本的主客观性是本领域技术人员迫切需要解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种文本类别确定方法和装置,以识别出文本所具有的主客观性。为实现上述目的,一方面,本申请提供了一种文本类别确定方法,包括:获取待识别的文本;将所述文本转换为文本向量;将所述 ...
【技术保护点】
1.一种文本类别确定方法,其特征在于,包括:获取待识别的文本;将所述文本转换为文本向量;将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。
【技术特征摘要】
1.一种文本类别确定方法,其特征在于,包括:获取待识别的文本;将所述文本转换为文本向量;将所述文本向量输入到预置的主客观分类模型中,获得所述主客观分类模型输出的第一类别评分和第二类别评分,其中,所述第一类别评分用于表征所述文本属于主观性文本的评分,所述第二类别评分用于表征所述文本属于客观性文本的评分,所述主客观分类模型为利用标注有主观性的多个第一文本样本对应的文本向量以及标注有客观性的多个第二文本样本对应的文本向量训练得到;基于所述第一类别评分和所述第二类别评分,确定所述文本具有的主客观类别,所述主客观类别用于表征所述文本具有主观性或者客观性。2.根据权利要求1所述的文本类别确定方法,其特征在于,所述将所述文本转换为文本向量,包括:依据词与词向量的映射关系,分别将所述文本中各个词映射为词向量;基于所述文本中各个词映射出的词向量,构建出用于表征所述文本的文本内容的文本向量。3.根据权利要求1所述的文本类别确定方法,其特征在于,所述主客观分类模型为基于注意力机制的双向门控循环单元GRU神经网络模型。4.根据权利要求1所述的文本类别确定方法,其特征在于,所述获取待识别的文本,包括:获取待识别的属于视频类型文本的文本,视频类型文本为属于视频中输出的语言文本或者视频关联的弹幕对应的文本;所述主客观分类模型为利用标注有主观性且属于视频类型文本的多个第一文本样本对应的文本向量以及标注有客观性且属于视频类的多个第二文本样本对应的文本向量训练得到。5.根据权利要求1至4任一项所述的文本类别确定方法,其特征在于,所述主客观分类模型通过如下方式训练得到:获取网络数据中具有情感类型标签的多个第一类文本以及从事实描述类型的信息中提取的多个第二类文本,所述情感类型标签包括:话题标签、情感符号以及情感表情中的一种或者多种;在设定所述第一类文本为主观性文本且所述第二类文本为客观性文本的情况下,利用所述多个第一类文本和所述第二类文本训练分类器;获取多个文本;利用训练出的所述分类器分别对所述多个文本分类,得到多个具有主观性的第一文本和多个具有客观性的第二文本;获取用户从所述多个第一文本中筛选出的具有主观性的多个第一文本样本,以及从所述多个第二文本中筛选出的具有客观性的第二文本样本;确定所述第一文本样本的文本样本向量以及所述第二文本样本的文本样本向量;利用多个所述第一文本样本的文本样本向量和多个所述第二文本样本的文本样本向量训练主客观分类模型,直至所述主客观分类模型的分类结果符合要求。6.一种文本类别确定装置,其特征在于,包括:文本获取单元,用于获取待识别的文本;向量转换单元...
【专利技术属性】
技术研发人员:单斌,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。