【技术实现步骤摘要】
—种基于链接的双语平行网页识别方法及系统
本专利技术涉及计算机
,更具体的说,是涉及一种基于链接的双语平行网页识别方法及系统。
技术介绍
双语语料在机器翻译、跨语言信息检索等领域中具有极其重要的作用。但通过人工构建双语语料往往费时费力。近年来,互联网发展迅猛,提供了海量的信息,其中不乏双语资源。一些网站为了国际化的需要,提供了两种或两种以上的语言版本的网页,这些网页使用的语言不同,但其中的内容互为翻译,这样的网页被称为双语平行网页。双语平行网页是双语语料的重要来源。目前,在互联网中识别双语平行网页进而提取出其中的双语资源,采用的方法主要有:锚文本法、网页地址(Uniform Resource Locator, URL)匹配法、网页结构相似度法等。其中,锚文本法主要依赖于网页中带有语言信息的锚文本来识别与其平行的网页。比如,中文网页A的头部存在“English Version”这一锚文本,同时该锚文本指向了英文网页B,则可以判断网页A和B为双语平行网页。而URL匹配方法则依赖于网页的URL相似度,t匕如,两个不同语言网页的 URL 分别为“http ...
【技术保护点】
一种基于链接的双语平行网页识别方法,其特征在于,该方法应用于双语网站中,包括:根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接;对所述网络中待识别的网页进行预处理,得到预处理后的网页;根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值;根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值;将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述 ...
【技术特征摘要】
1.一种基于链接的双语平行网页识别方法,其特征在于,该方法应用于双语网站中,包括: 根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接; 对所述网络中待识别的网页进行预处理,得到预处理后的网页; 根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值; 根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值; 将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定; 根据最终得到的优化翻译相似度值识别出双语平行网页。2.根据权利要求1所述的方法,其特征在于,所述预处理包括: 采用N-gram模型识别所述网页的语言类别; 提取出所述网页的HTML标签序列,并去除描述文字效果的标签; 根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。3.根据权利要求1所述的方法,其特征在于,所述网页内部信息度包括:网页大小、网页内容、网页结构。4.根据权利要求3所述的方法,其特征在于,所述内部翻译相似度的计算包括: 计算两个网页大小的比例,其中,如果所述比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0 ; 统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Sd3 ; 计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstrart ; 利用如下公式计算两个网页的内部翻译相似度值: 5.根据权利要求1所述的方法,其特征在于,所述外部翻译相似度的计算包括: 根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合 neighbor (e)和 neighbor (c); 判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页; 将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor (e)和neighbor(c)中删除,其中,sum初始值设为0 ; 当网页集合neighbor (e)和neighbor (C)至少有一个为空时,则根据如下公式计算两个网页的外部翻译相似度值: Sext (e, c) =2 ? sum/ (| neighbor (e) + neighbor (c)|)其中,Srart (e, c)表示网页e和c的外部翻译相似度,I neighbor (e) |表示网页e的相邻网页的个数,|neighbor(c) |表示网页c的相邻网页的个数。6.根据权利要求1所述的方法,其特征在于,所述优化翻译相似度的计算公式为: ES (e, c) = a ? Sext (e, c) + (1-a ) ? Sint (e, c), a G [0, I] 其中,ETS (e, c)表示网页e和c的优化翻译相似度,Sext (e, c)表示网页e和c的外部翻译相似...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。