The invention discloses a cross language website automatic discovery method, the method according to the generation of multilingual topic model or seed website keywords, web information collection model based on the theme of the key word, through cluster analysis to identify alternative theme website of the theme \, website translation supplied to the user, and according to the user feedback to improve system performance. Automatic discovery of theme related sites various language support has been Machine Translation search engine and web information acquisition system by means of the invention, the accuracy and the design of man-machine cooperation mechanism will automatically find the feedback to the system, and gradually improve the system performance; the invention realizes the automatic discovery of cross language website; the invention proposes an extraction method of temporal topic model and enhance the accuracy of screening theme website.
【技术实现步骤摘要】
本专利技术属于互联网
,尤其涉及一种跨语言的主题网站自动发现方法。
技术介绍
随着互联网应用的推广,网络已经成为人们获取公开信息的最重要的途径,尤其是其全球互联的性质,可以让人们轻松获取世界各地所产生的信息,成为人们信息交互、文化交流的重要途径。但是网络信息的爆炸式增长也给人们获取特定信息带来不便。一方面,如何从海量信息中搜集到真正符合需求的内容是一个难点,即便是借助主流的搜索引擎,其搜索结果中往往也掺杂着大量无关信息,导致搜集有效信息的效率低下。另一方面,语言不通问题限制了人们获取其他语种信息的欲望和能力,外语信息的获取需要借助语言工作者的翻译和转载,导致信息的时效性大大降低。因此,如何准确并迅速的获取有效信息成为信息工作者所面临的重要问题。为了快速获取特定领域的信息,信息工作者通常会关注一些特定网站,并实时留意网站更新的内容。这些网站是与其领域相关性强,信息相关度高,内容较权威的站点,因此信息的有效性和时效性相对较高,是重要信息的主要来源。发现这些特定主题的网站对于信息工作者而言意义重大。然而网络世界繁杂且瞬息万变,每天都有可能有新的网站建立起来,一些 ...
【技术保护点】
一种跨语言的主题网站自动发现方法,其特征在于,所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能;具体包括:时序主题模型提取:将过去一段时间划分为几个时间段,分别计算每个时间段内网站的关键词,所有时间段的关键词组成网站的主题模型;在对比网站相似度时,分别对比各时间段内网站的相似度,然后根据各时间段的权重计算网站整体相似度,整体相似度大于给定阈值的即认定为主题相关网站;主题模型的定义如下:M=(K,A,L,N,P), ...
【技术特征摘要】
1.一种跨语言的主题网站自动发现方法,其特征在于,所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能;具体包括:时序主题模型提取:将过去一段时间划分为几个时间段,分别计算每个时间段内网站的关键词,所有时间段的关键词组成网站的主题模型;在对比网站相似度时,分别对比各时间段内网站的相似度,然后根据各时间段的权重计算网站整体相似度,整体相似度大于给定阈值的即认定为主题相关网站;主题模型的定义如下:M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,......KN],其中Ki为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重,A=[a1,a2,......aN];L为每个时间段关键词的个数,L=[l1,l2,......lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,......,pN];其中A、L和P的值由用户结合实际情况进行设置;A的值越接近当前时间的时间段的权重越高;网页信息采集:网页信息采集模块根据关键字检索相关网页并下载;网站信息抽取:利用网站信息抽取模块从相关网页中聚合出备选主题网站;提取备选主题网站的主题模型并与种子网站主题模型进行对比,将相似度大于某一阈值的放入新发现主题网站列表;网页翻译:利用已有机器翻译引擎将新发现主题网站列表中的外语网页翻译为本国语言;展示及反馈:将翻译后的新发现主题网站中的内容展示给用户;由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化。2.如权利要求1所述的跨语言的主题网站自动发现方法,其特征在于,时序主题模型提取方法包括:1)利用网页信息采集模块爬取种子网站历史网页;2)根据P设置N个子数据集,根据网页的发布时间将网页分别放入对应的子数据集,若某网页的发布时间t满足pi-1<t-t0≤pi,t0为当前时间,则将该网页放入第i个子数据集;3)分别计算每个子数据集的关键词,第i个...
【专利技术属性】
技术研发人员:程国艮,宋俊平,
申请(专利权)人:中译语通科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。