本发明专利技术提供了一种跨语言文摘的生成方法及装置,其中跨语言文摘生成方法包括:A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。通过上述方式,本发明专利技术能够增强跨语言文摘的可读性。
【技术实现步骤摘要】
一种跨语言文摘的生成方法及装置
本专利技术涉及自然语言处理技术,特别涉及一种跨语言文摘的生成方法及装置。
技术介绍
全球国际化趋势的推进使得人们可以更广泛地选择数据来源。在这个背景下,人们在搜索引擎上查询的内容已经不限于母语,同时希望得到其它语言的搜索结果。例如,一个中国用户可能对《星球大战》系列的电影感兴趣,希望了解更多相关的信息。因此可能会输入“star war”来获取英文相关的信息。传统的搜索引擎在向用户返回检索结果页面时,将网页标题,以及网页片段或网页摘要呈现给用户,其中网页片段复制自原始网页,而网页摘要通过摘要生成技术从原始网页中提取得到。用户通过网页片段或网页摘要可以快速了解检索结果页面的主要信息,方便选择需要的检索结果页面点击进入。 在跨语言检索时,一个母语为中文的用户从英文中获取信息的能力远远不及从中文中获取信息的能力。如果采用上述方式生成英文检索结果页的英文摘要,则摘要对用户的作用将大为降低。在跨语言检索时,为了更好地帮助用户了解检索结果页面的主要内容,现有技术提出了从非母语页面中提取页面摘要并翻译为用户母语展示给用户的方法,但是由于在生成页面摘要的时候没有考虑页面摘要的翻译质量,这种方法得到的跨语言文摘的可读性较差。
技术实现思路
本专利技术所要解决的技术问题是提供一种跨语言文摘的生成方法及装置,以解决现有技术生成的跨语言文摘可读性较差的问题。本专利技术为解决技术问题而采用的技术方案是提供一种跨语言文摘的生成方法,包括A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。根据本专利技术之一优选实施例,所述步骤A包括:A1.判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,执行步骤A2,否则将输入的关键词翻译为第一语言关键词,并执行步骤A2 ;A2.使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。根据本专利技术之一优选实施例,所述步骤B包括将所述检索结果页中的文本按照语义相似度进行聚类;将各类别中的第一语言句子翻译为第二语言句子;分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。根据本专利技术之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。根据本专利技术之一优选实施例,所述步骤B包括将所述检索结果页中的文本按照语义相似度进行聚类;分别从各类别中选取第一语言句子,并将选取的第一语言句子翻译为第二语言句子;分别从各类别中选取翻译置信度满足要求的第二语言句子作为页面摘要。根据本专利技术之一优选实施例,分别从各类别中选取第一语言句子的步骤包括分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响第一语言句子代表性得分的特征至少包括以下一项第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。根据本专利技术之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以 下一项第二语言句子的歧义消解性、第二语言句子的流畅程度。本专利技术还提供了一种跨语言文摘的生成方法,包括:A.预先将第一语言页面翻译为第二语言页面,并建立第二语言页面的索引库;B.当用户输入关键词进行搜索时,利用所述索引库获取与输入的关键词匹配的第二语言检索结果页;C.根据所述检索结果页中第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。根据本专利技术之一优选实施例,所述步骤C包括将所述检索结果页中的文本按照语义相似度进行聚类;分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。根据本专利技术之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入的关键词之间的匹配程度。根据本专利技术之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以下一项第二语言句子的歧义消解性、第二语言句子的流畅程度。本专利技术还提供了一种跨语言文摘的生成装置,包括检索单元,用于获取与用户输入的关键词匹配的第一语言检索结果页;抽取单元,用于将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。根据本专利技术之一优选实施例,所述检索单元包括判断单元,用于判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,触发查询单元执行,否则触发词翻译单元执行;词翻译单元,用于将输入的关键词翻译为第一语言关键词,并触发查询单元执行;查询单元,用于使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。根据本专利技术之一优选实施例,所述抽取单元包括聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;句翻译单元,用于将各类别中的第一语言句子翻译为第二语言句子;选取单元,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。根据本专利技术之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。根据本专利技术之一优选实施例,所述抽取单元包括聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;第一选取单元,用于分别从各类别中选取第一语言句子;句翻译单元,用于将选取的第一语言句子翻译为第二语言句子;第二选取单元,用于分别从各类别的第二语言句子中选取翻译置信度满足要求的第二语言句子作为页面摘要。根据本专利技术之一优选实施例,所述第一选取单元选取第一语言句子的方式包括分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响代表性得分的特征至少包括以下一项第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。 根据本专利技术之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以下一项第二语言句子的歧义消解性、第二语言句子的流畅程度。本专利技术还提供了一种跨语言文摘的生成装置,包括建库单元,用于预先将第一语言页面翻译为第二语言页面,并建立第二语言页面索引库;检索单元,用于当用户输入关键词进行搜索时,利用所述索引库获取与输入的关键词匹配的第二语言检索结果页;抽取单元,用于根据所述检索结果页中第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。根据本专利技术之一优选实施例,所述抽取单元包括聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;选取单元,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。根据本专利技术本文档来自技高网...
【技术保护点】
一种跨语言文摘的生成方法,包括:A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
【技术特征摘要】
【专利技术属性】
技术研发人员:李伟,郑德荣,马艳军,刘占一,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。