【技术实现步骤摘要】
一种热词的添加方法和装置
本专利技术实施例涉及自然语言处理
,特别是涉及一种热词的添加方法和一种热词的添加装置。
技术介绍
目前,由于互联网的大数据爆发,有大量的数据需要转化成文本,供人类阅读或储存,因此将数据转写成文本的技术有着广阔的市场前景。这些技术包括但不限于机器翻译、语音识别、光学字符识别、输入法和自动问答,其中,语言模型扮演着重要的角色。具体来说,语言模型是自然语言(人类交流语言)处理中的核心问题。它是为了描述自然语言中的特定关系,通常是描述某个自然语言单元出现的概率,从而根据自然语言客观事实,进行抽象建模得到的数学模型。传统的语言模型包括多元模型、指数回归模型和隐马尔可夫模型等,新兴的语言模型包括神经网络模型,诸如循环神经网络,长短期记忆模型及注意力模型等。语言模型通常是根据历史语料建立起来的。随着科技的高速发展,社会变化日新月异,这同时带来了人类语言的快速演化,诸如新词、外来语和流行语的增加,因此,这就难免导致语言模型随着时间的推移而失效,进一步导致数据转写文本的技术落后。 ...
【技术保护点】
1.一种热词的添加方法,其特征在于,包括:/n读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;/n获取所述候选结果的索引列表;/n在所述索引列表中查找到与所述热词索引匹配的目标索引;/n采用所述目标索引确定所述候选结果中的被替换词;/n采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;/n获取所述候选结果对应的候选评分;/n采用所述候选评分计算所述新候选结果的新候选评分。/n
【技术特征摘要】
1.一种热词的添加方法,其特征在于,包括:
读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;
获取所述候选结果的索引列表;
在所述索引列表中查找到与所述热词索引匹配的目标索引;
采用所述目标索引确定所述候选结果中的被替换词;
采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
获取所述候选结果对应的候选评分;
采用所述候选评分计算所述新候选结果的新候选评分。
2.根据权利要求1所述的方法,其特征在于,在所述读取热词词典和候选结果的步骤之后,还包括:
将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
3.根据权利要求1所述的方法,其特征在于,所述获取所述候选结果的索引列表的步骤,包括:
若所述候选结果具有对应的索引列表,则提取所述候选结果对应的索引列表;
若所述候选结果不具有对应的索引列表,则采用预设索引词典生成所述候选结果的索引列表。
4.根据权利要求1所述的方法,其特征在于,所述采用所述候选评分计算所述新候选结果的新候选评分的步骤,包括:
获取预先训练好的语言模型、混淆矩阵和模型权重;
采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分。
5.根据权利要求4所述的方法,其特征在于,所述采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分的步骤,包括:
采用所述语言模型计算所述热词文本的第一语言模型概率;
采用所述语言模型计算所述被替换词的第二语言模型概率;
采用所述混淆矩阵计算所述热词文本的第一转移概率;
采用所述混淆矩阵计算所述被替换词的第二转移概率;
按照预设评分计算规则...
【专利技术属性】
技术研发人员:吴帅,李健,张连毅,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。