一种置信度的计算方法及装置制造方法及图纸

技术编号:18007025 阅读:80 留言:0更新日期:2018-05-21 07:39
本发明专利技术提供了一种置信度的计算方法及装置,本发明专利技术中,获取待分析文本,确定至少一个统计维度,计算所述待分析文本的每个所述统计维度对应的统计维度值,根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。通过上述方法可以计算得到置信度,解决了现有技术中需要一种计算待分析文本作为剧名实体的置信度的方法的问题。

【技术实现步骤摘要】
一种置信度的计算方法及装置
本专利技术涉及多媒体
,更具体的说,涉及一种置信度的计算方法及装置。
技术介绍
命名实体识别是指识别文本中具有特定意义的命名实体,如人名、地名、机构名等,命名实体识别是自然语言处理中非常重要的基础性任务,而且,命名实体识别对于信息检索、问答系统、语义化搜索和知识库构建等领域有着至关重要的作用。可以采用机器学习模型来识别命名实体,其中,在识别过程中,需要使用实体词典,实体词典为存有若干个词语的词典。当待分析文本为剧名实体如“母亲”时,可以通过在实体词典中增加每个待分析文本作为剧名实体的置信度,进而当置信度大于预设数值时,可以认为待分析文本为剧名实体,这样可以提高剧名实体的识别准确度,如,提高“母亲”作为剧名实体的识别度。其中,剧名实体为表征影视名称的文本。因此,亟需一种能够计算待分析文本作为剧名实体的置信度的方法。
技术实现思路
有鉴于此,本专利技术提供一种置信度的计算方法及装置,以解决需要一种计算待分析文本作为剧名实体的置信度的方法的问题。为解决上述技术问题,本专利技术采用了如下技术方案:一种置信度的计算方法,包括:获取待分析文本;确定至少一个统计维度;计算所述待分析文本的每个所述统计维度对应的统计维度值;根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。优选地,所述统计维度包括:所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。优选地,当所述统计维度为所述待分析文本的布尔值时,计算所述待分析文本的每个统计维度对应的统计维度值,包括:将所述待分析文本作为搜索词进行搜索;根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;其中,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。优选地,得到所述置信度计算公式的过程包括:获取多个待训练文本;其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度;根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;其中,所述初始置信度计算公式基于逻辑回归算法生成。优选地,根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式,包括:根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。一种置信度的计算装置,包括:第一获取模块,用于获取待分析文本;维度确定模块,用于确定至少一个统计维度;第一计算模块,用于计算所述待分析文本的每个所述统计维度对应的统计维度值;第二计算模块,用于根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。优选地,所述统计维度包括:所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。优选地,当所述统计维度为所述待分析文本的布尔值时,所述第一计算模块包括:搜索子模块,用于将所述待分析文本作为搜索词进行搜索;第一确定子模块,用于根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;第二确定子模块,用于根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;第三确定子模块,用于根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;其中,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。优选地,还包括:第二获取模块,用于获取多个待训练文本;其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度;训练模块,用于根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;其中,所述初始置信度计算公式基于逻辑回归算法生成。优选地,所述训练模块包括:权重确定子模块,用于根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;生成子模块,用于根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。相较于现有技术,本专利技术具有以下有益效果:本专利技术提供了一种置信度的计算方法及装置,本专利技术中,获取待分析文本,确定至少一个统计维度,计算所述待分析文本的每个所述统计维度对应的统计维度值,根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。通过上述方法可以计算得到置信度,解决了现有技术中需要一种计算待分析文本作为剧名实体的置信度的方法的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术提供的一种置信度的计算方法的方法流程图;图2为本专利技术提供的另一种置信度的计算方法的方法流程图;图3为本专利技术提供的再一种置信度的计算方法的方法流程图;图4为本专利技术提供的一种置信度的计算装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的技术人员经过经验总结发现以下几点特点:a)在非视频行业文本语料中出现越频繁的字符串,作为剧名实体的置信度越低,因为歧义越大,例如:“胭脂”、“解密”等;b)视频行业文本中用影视剧名模板匹配成功频度越高,作为剧名实体的置信度越高,例如:匹配上“《*》”、“*第*集”、“*高清版”、“*演员表”、“*电影版”等;c)搜索引擎结果的点击熵(衡量点击行为分布是集中还是分散)越大,作为剧名实体的置信度越低,因为没有歧义的剧名字符串的搜索结果中,用户点击专辑结果的可能性更大(例如“琅琊榜”),而有歧义的剧名字符串的搜索结果中,用户点击可能比较分散(例如“黑客”);d)字符串长度越长,作为剧名实体的置信度越高,例如:“致我们终将逝去的青春”的置信度较高,“青春”置信度较低。因此,在上述特点的基础上,提出了本专利技术的技术方案。具体的,本专利技术实施例提供了一种置信度的计算方法,参照图1,包括:S11、获取待分析文本;其中,待分析文本为需要进行识别的文本,如文本可以是“母亲”、“少帅”等文本。S12、确定至少一个统计维度;具体的,在本实施例的基础上,统计维度可以包括:所述待分析文本在本文档来自技高网...
一种置信度的计算方法及装置

【技术保护点】
一种置信度的计算方法,其特征在于,包括:获取待分析文本;确定至少一个统计维度;计算所述待分析文本的每个所述统计维度对应的统计维度值;根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。

【技术特征摘要】
1.一种置信度的计算方法,其特征在于,包括:获取待分析文本;确定至少一个统计维度;计算所述待分析文本的每个所述统计维度对应的统计维度值;根据每个所述统计维度对应的统计维度值以及置信度计算公式,计算所述待分析文本作为剧名实体的置信度。2.根据权利要求1所述的计算方法,其特征在于,所述统计维度包括:所述待分析文本在非视频文本集合中出现的次数、所述待分析文本在视频文本集合中出现的次数、所述待分析文本预设时间内被作为搜索内容的点击熵、所述待分析文本的布尔值以及字符长度值。3.根据权利要求2所述的计算方法,其特征在于,当所述统计维度为所述待分析文本的布尔值时,计算所述待分析文本的每个统计维度对应的统计维度值,包括:将所述待分析文本作为搜索词进行搜索;根据搜索结果中是否存在预设词语的结果,确定所述待分析文本的实体名称布尔值;根据所述待分析文本是否可进行分词的结果,得到所述待分析文本的第一分词布尔值;根据所述待分析文本的分词结果中的每个分词结果是否为单词的结果,得到所述待分析文本的第二分词布尔值;其中,所述待分析文本的布尔值对应的统计维度值包括所述实体名称布尔值、所述第一分词布尔值和所述第二分词布尔值。4.根据权利要求1所述的计算方法,其特征在于,得到所述置信度计算公式的过程包括:获取多个待训练文本;其中,每个所述待训练文本中包括待训练文本作为剧名实体的置信度;根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式;其中,所述初始置信度计算公式基于逻辑回归算法生成。5.根据权利要求4所述的计算方法,其特征在于,根据所述多个待训练文本,对初始置信度计算公式进行训练,得到所述置信度计算公式,包括:根据所述多个待训练文本以及初始置信度计算公式,确定所述初始置信度计算公式中每个所述统计维度的权重值;根据确定的所述初始置信度计算公式中每个所述统计维度的权重值,生成所述置信度计算公式。6.一种置信度的计算装置,其特征在于,包括:第...

【专利技术属性】
技术研发人员:刘兵
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1