一种基于自引导方式的领域自适应句子对齐系统技术方案

技术编号:9825756 阅读:124 留言:0更新日期:2014-04-01 13:47
一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明专利技术提高了句子对齐质量,具有领域适应性强的优点。

【技术实现步骤摘要】
一种基于自引导方式的领域自适应句子对齐系统
本专利技术涉及一种基于自引导(bootstrap)方式的领域自适应句子对齐系统,属于自然语言处理的文本处理领域,自引导方式是指利用算法结果反馈算法条件,通过多次迭代达到最优。
技术介绍
在自然语言处理领域,高质量平行语料的获取是一个非常重要的问题,对于机器翻译、跨语言检索等应用具有重要意义。互联网是一个很好的资源库,是获取语料很好的来源。不过,由于互联网对信息存储和组织方式的特殊性,若要想较好的利用文本信息,还需要对网页信息进行提取和相应的预处理工作。能否获得大规模经过良好预处理并同时具有较高对齐质量的句对,是影响机器翻译系统质量的关键因素。一方面,机器翻译系统对经过处理后的平行语料和对齐句对有着比较迫切的需求;另一方面,在预处理方面需要做的操作较为繁琐,这些工作由人工完成过于耗费时间和精力;且目前的句子对齐存在质量不高、不具有领域针对性的问题。
技术实现思路
本专利技术技术解决的主要问题:克服现有技术的不足,提供一种基于自引导方式的领域自适应句子对齐系统,提高了句子对齐质量,具有领域适应性强的优点。本专利技术的技术解决方案:1、一种基于自引导方式的领域自适应句子对齐系统,其特征在于包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块;其中:网页处理模块,对网页形式的语料进行解析,从中提取出有用的文本信息,对于中文文本则送至中文文本处理模块,对于英文文本信息则送至英文文本处理模块;中文文本处理模块,结合中文的特点,对中文文本信息进行相关预处理工作,包括编码转换、分句、分词,词性标注;英文文本处理模块,结合英文的特点,对英文文本进行预处理工作,主要包括词根化处理,词性标注,命名实体识别;双语处理模块,对中文文本处理模块和英文文本处理模块后的中英文信息,采用自引导方式算法实现双语的句子级对齐和领域互译词对的提取,其中该模块包含两个子模块:融合多特征的句子对齐子模块,实现句子对齐;基于词对共现信息和词频特性的词对提取子模块,实现领域词对的提取;所述自引导方式的自适应句子对齐算法实现如下:(1)读入中文文本处理模块和英文文本处理模块输出的中英文文本;同时读入互译词典,其中包含了互译词对集合;(2)调用融合多特征的句子对齐子模块,融合互译词对、候选句对中词语的词性相关信息、互译词的重要程度、候选句对的长度关系,候选句对中特殊标点符号特征,形成句子对齐结果;(3)调用词对提取子模块,基于词对词频特性和共现信息,对步骤(2)生成的句对齐结果进行处理,提取出文本中的互译词对,并将其加入到互译词典中;(4)循环步骤(2)-(3),直至达到收敛状态,即句子对齐集合和互译词典都没有变化。所述融合多特征的句子对齐子模块的具体过程为:(1)输入待句子对齐的双语文本的句子集合;(2)提取候选句子对;(3)提取候选句子对中的文本特征,包括:词性特征、特殊标点符号特征和长度特征等;(4)融合多种特征对候选句对的相似度进行打分;(5)利用动态规划算法寻找最佳双语句子集合的最佳对齐序列,作为最终的句子对齐结果。所述基于词对词频特性和共现信息的词对提取子模块的具体过程为:(1)输入句对集合,提取候选互译词对;(2)判断候选互译词对的出现频率是否大于最低阈值,删除出现频率过低的候选互译词对;(3)计算互译词对在两种语言文本中出现频率差,其计算公式为:其中freq1和freq2为两个待判断词语在各自语言文本中的出现频率,删除频率差大于某个阈值的候选词对;(4)基于词对的篇章级特征和上下文,计算候选词对在整个篇章、句对以及其周围存在互译词的个数等特征,根据这些特征对候选词对进行排序,输出最好的N个互译候选词,(一般取N=3~5)认为它们是互译词对。本专利技术与现有技术相比的优点和创新点在于:(1)本专利技术通过能够比较方便的完成一般预处理阶段要求完成的大多数常见操作,功能覆盖全面,通过较为友好的交互界面,操作方便简洁,自由度较高。(2)如何快速的自动获取领域术语词典一直以来是很值得研究问题。本系统添加了的互译词提取可以看作是一种主题词对和术语词对的提取过程。由于要顾及抽取效率,系统在设计时选取直观的特征,简化抽取算法,保持较高的效率,一方面可以用来完善句子对齐时的词典并提高对齐质量,另一方面能够构建相关主题的词典。主题词典在自然语言处理领域有着广泛的用途,例如用在特定领域的机器翻译,情感分析等问题上。如果能够较好较快的自动构建,那么将会节省大量的资源。(3)对于基于词典的(lexica-base)句子对齐算法,其关键是需要有一个通用的词典(seed-dictionary)。该类算法具有词典依赖性。而在具有领域特征的语料中,一些能够反映主题或者领域特征的词汇出现的频率将会较高,这些词通常在seed-dictionary中不会出现,因此词典依赖性就成为影响对齐算法性能的关键因素。为了解决这样的缺乏自适应能力现象,该专利技术提出了一种基于自引导的自适应方法。采用策略是利用术语词对和主题词对扩充词典。要扩充词典需要提取相关主题词,就需要有对齐的句对。而现在的问题是没有对齐好的相应领域的句对,这就回到问题起点。为了解决这样的相互依存问题,借鉴EM迭代算法的思想,使用自引导方式进行自展和迭代。具体过程为:先进行粗对齐,提取词对,进行反馈,在进行细对齐。如果效果有所改善,则再进行提取。附图说明图1为本专利技术的系统框图;图2为本专利技术中自引导的双语处理模块流程图;图3为本专利技术中融合多特征的句子对齐算法流程图;图4为本专利技术中基于词对频率特性和共现信息的词对提取流程图。具体实施方式如图1所示,本系统的体系结构包括四个部分,每部分的相关实现方式如下:1.网页处理模块该部分以网页语料为主要处理对象。网页语料是指从web上直接爬取下来的包含中英文平行或可比的HTML文件。通过具体网页的格式和相关特征的分析,使用正则表达式提取相应正文,其中包括中文文本和英文文本。2.英文处理模块结合英语标点符号特征,处理分句操作、词元化(Tokenize)和词根化过程等。词元化是一种将英文单词和紧随单词的标点符号进行分离的过程。通常这些紧随单词的标点都会影响到英文单词的识别,由于英文文本中经常有特殊的标点符号用法(例如he’sshe’d等),所以在进行词元化时需要考虑特殊情形。这里利用正则表达式匹配处理特殊的符号使用模式。词根化过程利用基于词典和基于规则的两种方式相结合。对于常见词,进行基于词典的直接转换;对于不常见词汇进行基于规则的变换。3.中文处理模块中文处理模块实现了对中文文本的多重处理操作,包括:分句、分词、词性标注等。该模块的输入部分为经过提取的中文篇章,经过正则表达式处理,分为单句;以每个单句为基本对象,经过分词模型对句子进行中文分词处理,中文分词和词性标注主要是采用条件随机场(CRF)的算法,将它们看作是序列标注问题,利用标注语料继续训练得到相应模型,并用于最终的分词和词性标注。4.双语处理模块双语处理模块是本专利技术的核心模块,其采用一种自引导的方式实现句子对齐和互译词对提取。其基本流程如下,如图2所示:1)输入待句子对齐的双语文本句子集合;2)调用句子对齐子模块获得双语文本的句子对齐;3)基于句子对齐结果,调用词对提取模块获得领域本文档来自技高网...
一种基于自引导方式的领域自适应句子对齐系统

【技术保护点】
一种基于自引导方式的领域自适应句子对齐系统,其特征在于包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块;其中:网页处理模块,对网页形式的语料进行解析,从中提取出有用的文本信息,对于中文文本则送至中文文本处理模块,对于英文文本信息则送至英文文本处理模块;中文文本处理模块,结合中文的特点,对中文文本信息进行相关预处理工作,包括编码转换、分句、分词,词性标注;英文文本处理模块,结合英文的特点,对英文文本进行预处理工作,主要包括词根化处理,词性标注,命名实体识别;双语处理模块,对中文文本处理模块和英文文本处理模块后的中英文信息,采用自引导方式算法实现双语的句子级对齐和领域互译词对的提取,其中该模块包含两个子模块:融合多特征的句子对齐子模块,实现句子对齐;基于词对共现信息和词频特性的词对提取子模块,实现领域词对的提取;所述自引导方式的自适应句子对齐算法实现如下:(1)读入中文文本处理模块和英文文本处理模块输出的中英文文本;同时读入互译词典,其中包含了互译词对集合;(2)调用融合多特征的句子对齐子模块,融合互译词对、候选句对中词语的词性相关信息、互译词的重要程度、候选句对的长度关系,候选句对中特殊标点符号特征,形成句子对齐结果;(3)调用词对提取子模块,基于词对词频特性和共现信息,对步骤(2)生成的句对齐结果进行处理,提取出文本中的互译词对,并将其加入到互译词典中;(4)循环步骤(2)‑(3),直至达到收敛状态,即句子对齐集合和互译词典都没有变化。...

【技术特征摘要】
1.一种基于自引导方式的领域自适应句子对齐系统,其特征在于包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块;其中:网页处理模块,对网页形式的语料进行解析,从中提取出有用的文本信息,对于中文文本则送至中文文本处理模块,对于英文文本信息则送至英文文本处理模块;中文文本处理模块,结合中文的特点,对中文文本信息进行相关预处理工作,包括编码转换、分句、分词,词性标注;英文文本处理模块,结合英文的特点,对英文文本进行预处理工作,主要包括词根化处理,词性标注,命名实体识别;双语处理模块,对中文文本处理模块和英文文本处理模块后的中英文信息,采用自引导方式算法实现双语的句子级对齐和领域互译词对的提取,其中该模块包含两个子模块:融合多特征的句子对齐子模块,实现句子对齐;基于词对共现信息和词频特性的词对提取子模块,实现领域词对的提取;所述自引导方式的自适应句子对齐算法实现如下:(1)读入中文文本处理模块和英文文本处理模块输出的中英文文本;同时读入互译词典,其中包含了互译词对集合;(2)调用融合多特征的句子对齐子模块,输入待句子对齐的双语文本的句子集合;提取候选句子对;提取候选句子对中的文本特征...

【专利技术属性】
技术研发人员:程工刘春阳庞琳张旭巢文涵黄智李舟军
申请(专利权)人:国家计算机网络与信息安全管理中心 北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1