【技术实现步骤摘要】
本专利技术涉及跨语言新闻话题检测
,特别是涉及一种汉英跨语言新闻话题检测方法及系统。
技术介绍
汉语和英语是国际社会的两种主流语言,汉英新闻数量占绝对优势。新闻阅读是人们了解世界、把握时局的最重要的途径。随着互联网的快速普及,新闻数量急剧膨胀,人们不得不每日纵身新闻海洋,从成千上万的汉英新闻中获取信息。这时,人们主要面临两个困难第一,新闻数量巨大,短时间内无法阅读所有新闻,必然造成信息的片面性;若企图阅读所有新闻,则需要消耗大量时间,普通人难以接受。第二,语言障碍严重阻碍了外文阅读,人们多数选择阅读母语新闻,却难以对其他语言的新闻进行有选择地阅读,也造成信息的片面性。为应对上述需求,各种新闻话题分析和文摘技术不断涌现,自动地将大量的新闻归类为不同的话题,以方便人们快速浏览。实现跨语言新闻话题检测的技术难度较大。近年来,研究人员主要尝试了两类方法。第一类是借助多语词典将外文词汇转换为母语词汇,然后对新闻进行话题分析。这个方法的主要问题在于,不同语言中的词汇多数不是一一对应关系,而武断地确定一个对应关系容易造成错误,导致最终话题检测效果难以接受。第二类方法是机 ...
【技术保护点】
1.一种汉英跨语言新闻话题检测方法,其特征在于,包括以下步骤:S1、将跨语言新闻切分为语句,再将所述语句切分为词汇,所述跨语言新闻包括汉语新闻和英语新闻;S2、将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间内的跨语言向量;S3、计算汉-汉新闻之间、汉-英新闻之间及英-英新闻之间的语义相似度;S4、基于步骤S3的计算结果对跨语言新闻进行基于语义的话题聚类,从而找出若干个跨语言话题。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。