一种跨语言文摘的生成方法及装置制造方法及图纸

技术编号:8387209 阅读:262 留言:0更新日期:2013-03-07 07:52
本发明专利技术提供了一种跨语言文摘的生成方法及装置,其中跨语言文摘生成方法包括:A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。通过上述方式,本发明专利技术能够增强跨语言文摘的可读性。

【技术实现步骤摘要】
一种跨语言文摘的生成方法及装置
本专利技术涉及自然语言处理技术,特别涉及一种跨语言文摘的生成方法及装置。
技术介绍
全球国际化趋势的推进使得人们可以更广泛地选择数据来源。在这个背景下,人们在搜索引擎上查询的内容已经不限于母语,同时希望得到其它语言的搜索结果。例如,一个中国用户可能对《星球大战》系列的电影感兴趣,希望了解更多相关的信息。因此可能会输入“star war”来获取英文相关的信息。传统的搜索引擎在向用户返回检索结果页面时,将网页标题,以及网页片段或网页摘要呈现给用户,其中网页片段复制自原始网页,而网页摘要通过摘要生成技术从原始网页中提取得到。用户通过网页片段或网页摘要可以快速了解检索结果页面的主要信息,方便选择需要的检索结果页面点击进入。 在跨语言检索时,一个母语为中文的用户从英文中获取信息的能力远远不及从中文中获取信息的能力。如果采用上述方式生成英文检索结果页的英文摘要,则摘要对用户的作用将大为降低。在跨语言检索时,为了更好地帮助用户了解检索结果页面的主要内容,现有技术提出了从非母语页面中提取页面摘要并翻译为用户母语展示给用户的方法,但是由于在生成页面摘要的时候没有考虑页面本文档来自技高网...

【技术保护点】
一种跨语言文摘的生成方法,包括:A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:李伟郑德荣马艳军刘占一吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1