【技术实现步骤摘要】
针对语音转译文本的领域特征词提取方法、装置、设备及介质
本专利技术涉及语音文本处理领域,尤其涉及一种针对语音转译文本的领域特征词提取方法、装置、设备及介质。
技术介绍
随着人工智能技术的不断发展,语音转译文本是语音交互会话的产物,其中包含了大量的重要信息,而领域特征词是能反映某一领域文本特征或共性的词语,领域特征词抽取是自然语言处理中的一项重要任务。随着自然语言技术在实际生活中的不断运用,领域特征词提取方向不断被研究。领域特征词抽取被广泛应用于本体构建、自动摘要、文本聚类、文本检索等领域。如果单纯依靠语言学专家抽取领域术语费时费力,从而无法形成批量处理,因此开发一种自动化的方法来辅助语音转译文本的术语抽取显得尤为必要,能为面向不同领域的应用提供重要语言研究资源。然而领域特征词中包含较多的复合词,依靠单纯的分词无法获取,并且语音转译文本存在着不可避免的转译错误问题,从而严重影响着领域特征词的提取效果。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种针对语音转译文本的领域特征词提取方法,将文本纠错、新词发现与领域特征词提取方法结合,实现采用自动化的 ...
【技术保护点】
1.一种针对语音转译文本的领域特征词提取方法,其特征在于,包括以下步骤:获取语音转译文本,对所述语音转译文本进行纠错处理;确定所述语音转译文本中的复合新词,将复合新词加入自定义词典;基于所述自定义词典,对所述纠错处理后的语音转译文本进行分词;对分词后的语音转译文本进行领域特征词提取。
【技术特征摘要】
1.一种针对语音转译文本的领域特征词提取方法,其特征在于,包括以下步骤:获取语音转译文本,对所述语音转译文本进行纠错处理;确定所述语音转译文本中的复合新词,将复合新词加入自定义词典;基于所述自定义词典,对所述纠错处理后的语音转译文本进行分词;对分词后的语音转译文本进行领域特征词提取。2.如权利要求1所述的针对语音转译文本的领域特征词提取方法,其特征在于,所述语音转译文本的纠错处理方法如下:获取所述语音转译文本的拼音字符串,计算所述拼音字符串与通用动词性及通用名词性词语拼音的编辑距离,将编辑距离值≤1的拼音字符串作为候选纠错字串;利用特定领域内的文本数据作为训练语料训练出语言模型;使用所述语言模型计算不同候选纠错字串在特定位置的概率值,判定概率最大的候选纠错字串,作为所述语音转译文本特定位置的正确词语,从而完成纠错处理。3.如权利要求1或2所述的针对语音转译文本的领域特征词提取方法,其特征在于,确定所述语音转译文本中的复合新词的方法如下:Step1:对所述语音转译文本进行分词,将得到的分词结果存储到字典树;Step2:使用所述字典树统计所述分词结果的词频,利用互信息算法和信息熵算法分别计算所述分词结果的内部凝聚力MI和左右熵,得到分词得分score=MI+min(左熵,右熵);Step3:以得分score进行降序排序后,过滤重复词,最后按排序由前至后依次获取复合新词,将获取到的所述复合新词加入自定义词典。4.如权利要求3所述的针对语音转译文本的领域特征词方法,其特征在于,选择特定领域语料和背景语料,将所述背景语料与所述特定领域语料进行对比,得到领域特征词;基于统计量度的方法统计领域特征词在特定领域语料与背景语料中的不同用词规律,从而实现领域特征词的提取。5.如权利要求4所述的针对语音转译文本的领域特征词提取方法,其特征在于,基于统计量度的方法为:结合DR+DC和NCD+NDD进行领域特征词统计度量,所述领域特征词提取过程为:步骤1:基于所述自定义词典,将纠错处理后的语音转译文本进行分词,得到分词结果;步骤2:计算各分词的DR值、DC值、NCD值和NDD值;步骤3:依次过滤DR值≤0的领域不相关词、DC值≤0的领域噪声词;步骤4:经过滤,得到同时满足以下条件的分词作为候选领域特征词:分词的NCD值<阈值α,特定领域Dk的值最大;步骤5:过滤得到NDD值>阈值...
【专利技术属性】
技术研发人员:嵇望,陈默,程伟,丘霞霞,钱艳,
申请(专利权)人:杭州远传新业科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。