基于线性回归适用于多语种的句子相似度获取方法及系统技术方案

技术编号:16038109 阅读:56 留言:0更新日期:2017-08-19 19:56
本发明专利技术公开了基于线性回归适用于多语种的句子相似度获取方法包括以下步骤:获取两个句子的两个及以上相似特征值;根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值;将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值。本发明专利技术公开了基于线性回归适用于多语种的句子相似度获取系统,包括获取单元;选择单元;线性回归单元。本发明专利技术基于线性回归适用于多语种的句子相似度获取方法和系统,通过对句子不同相似特征值进行加权线性回归,适用于多种语言与多种场合。

【技术实现步骤摘要】
基于线性回归适用于多语种的句子相似度获取方法及系统
本专利技术涉及计算机翻译
,具体涉及基于线性回归适用于多语种的句子相似度获取方法及系统。
技术介绍
随着经济全球化及国际互联网的飞速发展,自然语言的翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。过去在国际交流领域,人们需要对语言文字进行翻译时,需要采用人工翻译,耗时耗力,而随着计算机软硬件技术的高速发展,计算机翻译及计算机辅助翻译得到了越来越广泛的应用。对比句子相似度是研究计算机翻译和计算机辅助翻译中的重要课题,传统的对比方法多采用单一层次上的对比,比如词汇的重叠率、语言模型重叠率、词汇向量化用余弦定理在语义空间计算距离比较等等,但是这种单一层次的句子相似度对比方法无法针对各种语言特点做出合适的对比,比如适用于英语的对比方法不适用于汉语对比。同时单一层次的句子相似度对比方法无法针对各种场合用语的特点做出合适的对比,比如适用于新闻英语的对比方法不适用于口语英语的对比。国家专利局专利号为CN201110303522.5的专利技术专利公开了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,该专利对句子相似度对比的方本文档来自技高网...
基于线性回归适用于多语种的句子相似度获取方法及系统

【技术保护点】
基于线性回归适用于多语种的句子相似度获取方法,其特征在于,包括以下步骤:S1:获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn;S2:根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;S3:将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;所述线性回归公式如下:

【技术特征摘要】
1.基于线性回归适用于多语种的句子相似度获取方法,其特征在于,包括以下步骤:S1:获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn;S2:根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;S3:将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;所述线性回归公式如下:上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。2.根据权利要求1所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述两个及以上相似特征值包括通过计算得到的两个句子的结构相似特征值fi;其计算步骤如下:S111:解析两个句子并得到两个与句子相对应的句法树;S112:根据两个句法树得出两个句法树之间的结构检测值TP、FP和FN;S113:根据结构检测值TP、FP和FN由以下公式计算两个句子的语法相似特征值fi:上文所述TP为结构纳真值,FP为结构误报值,FN为结构去真值,R为结构召回率,P为结构准确率,fi为结构相似特征值。3.根据权利要求1所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述两个及以上相似特征值包括通过计算得到的两个句子的词性相似特征值fi;其计算步骤如下:S121:解析两个句子并得到两个与句子相对应的句法树;S122:将两个句子分为参考句和原句;所述参考句为仅在本次计算词性相似特征值fi时使用的句子;所述原句为除本次外,还需要与其他句子计算词性相似特征值fi的句子;根据两个句法树的词性分布得出从一个句子修改成另一个句子所需要的最小步数W;S123:通过以下公式计算两个句子的词性相...

【专利技术属性】
技术研发人员:海同舟李明王兴强彭成超
申请(专利权)人:成都优译信息技术股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1