用于文档处理的方法和系统技术方案

技术编号:2858289 阅读:124 留言:0更新日期:2012-04-11 18:40
当没有词汇对或文档对可用于专家和业余领域时,检测用于专家领域中的、对应于业余领域中的术语的术语(例如,词)。通过搜索因特网来收集文档,所述文档为描述相同的主题所知,并且写入专家和业余领域。计数在这些文档中出现的术语的频率。所述计数用来计算在所述专家和业余语言表达的词汇之间的对应关系。

【技术实现步骤摘要】

本专利技术涉及处理多个具有共同主题的文档集。
技术介绍
具有采用相同语言的多个描述并且共享相同内容的文档,在那些描述中频繁地使用术语,所述术语的不同取决于作者关于主题所具有的专业知识程度,以及所述作者属于的不同社会层,诸如性别或年龄组。即使所述描述是关于共同主题的,那么由非专家和由专家在他们各自的表达领域中使用的术语也可能是相当不同的。
技术实现思路
本专利技术的目的是提供一种新的并且改进的方法、设备及其它必要的技术,用于检测由非专家使用且与由专家使用的术语所表达的意思相对应的术语,并且反之用于检测在这种不同的领域之间由专家使用且与由非专家使用的术语所表达的意思相对应的术语。用于转换不同领域的文档的技术的典型例子是翻译机。使计算机执行翻译机的任务的技术已经是已知的。翻译机利用使用术语数据库的计算机程序、用于处理语法规则的程序、用法和例句数据库及其它系统特定组件,来把用自然语言写入的文档自动翻译为另一种自然语言。已经实际应用这种技术,并且存在用于个人计算机的商用语言翻译软件产品。在因特网上也提供某些翻译服务。另外,用于逐词翻译的小型手持装置到处都可以买到。逐词翻译机把用某种语言的一个词转换为用另一种语言、具有同样意思的词。基本上,把预编译词典存储在存储设备中,并且把输入词转换为用另一种语言的对应词。这些常规的技术具有用于把文档从一个领域转换为另一领域的前提;即,在一个领域中的句子必须已知对应于另一个领域中的句子,并且在一个领域中的词必须已知对应于另一个领域中的词。用于把困难的表达转换为用同样语言的容易的表达的意译研究已经问世。例如,在由Atsushi Fujita等人(2003)和Masahiro Murayama等人(2003)的研究中报告。在涉及“意译”的研究中,基本技术是寻找将要依照模式匹配规则来由预先确定的表达模式代替的表达模式。在语言翻译中的其它方法利用统计和/或概率模型。这些基于模型的方法最初准备一对数据集,其用不同的语言并且具有已知是相同的内容。接下来,根据诸如在每个数据集中句子长度之类的信息,确定用语言A和语言B的对应句子。最后,根据它们在所述数据集中共同出现的关系来确定在词之间的对应关系。在这种和其它现有技术情况中,存在这样一个前提,即对应于语言A的词Wa,在语言B中存在具有合理的语义准确性的词Wb。专利文档1是“Daily Language Computing and its Method”JP 2002-236681 A。专利文档2是“Association Method for Words in PaginalTranslation Sentences”JP 2002-328920 A。非专利文档1是http//www2.crl.go.jp/it/a133/kuma/mrs-li/midisearch.htm。非专利文档2是Atsushi Fujita,Kentaro Inui,YujiMatsumoto。“Text Correction Processing necessary forParaphrasing into Plain Expressions”。日本第65届信息处理学会全国大会演讲论文集,第五分册,1T6-4,第99-102页,2003年3月。非专利文档3是Masahiro Murayama,Masahiro Asaoka,MasanoriTsuchiya,Satoshi Sato。“Normalization of Terms and Supportfor Paraphrasing Declinable words based on theNormalization”,语言处理学会,第9届年度大会,第85-88页,(2003年3月)。非专利文档4是Dunning,T。(1993).Accurate methods forthe statistics of surprise and coincidence。计算语言学,19(1)61-74如上所述,在常规的机器翻译中,假定在从一种语言翻译到另一种语言时,在两种语言中存在相应的词,而且相应文档集可用。
技术实现思路
本专利技术的目的是提供一种新的和改进的方法和设备,用于检测用于一个领域的术语,所述术语近似对应于另一个领域中的术语,和/或反之亦然,即使在下列情况下(1)在目标领域中没有彼此对应的已知词对,(2)没有事先已知彼此对应的文档集对,和/或(3)没有帮助在上述领域中映射的词典或辞典。依照本专利技术一个方面,为了解决上述问题,(1)检索用两种不同的语言表达写入的文档集,其被记述为关于同样的主题(这些文档以下被称为在领域A中的文档和在领域B中的文档),并且(2)当给出两种不同的语言表达的这种文档集时,在出现于领域A中文档的术语和出现于领域B中文档的术语之间建立关联。为此,用检索工具使用预先确定的关键词列表来收集候选文档,以便准备用两种不同的语言表达写入的文档集。然而,由于用检索工具检索的候选文档包括大量的所谓的“噪声(noise)”文档,所以在多数情况下,并不能像正常那样使用所述检索结果。从而,本专利技术的一方面包括从所收集的文档中删除所述“噪声”文档的初始步骤。在此初始步骤之后,根据在所述文档中的术语频率及其它信息来把所述文档分类为专家(expert)文档和业余(naive)文档,其包含不同类型的语言表达。由于出现在目标专家文档和目标业余文档中的术语并不总是相同的,接下来计算在所述两个不同领域中术语之间的相关性。基本概念如下根据在专家文档集和业余文档集中的术语之间的共同出现关系,来获得出现在专家或业余领域中的一个或一组术语与出现在另一个领域中的一个或一组术语的关联,所述术语记录相同对象。本专利技术应用的一个例子是适用于打算要购买某些产品或货物的用户的推荐系统。即使文档记述诸如商品之类的相同对象,通常在由具有关于所述对象的高深知识的专家所使用的术语和由具有关于所述对象的很少知识的非专家所使用的术语之间,存在相当多的差异。所述专家常常使用技术术语和特定知识来描述所述对象,而没有这种知识的非专家不得不用基于感知的表达或经由相似的对象或例子来描述所述对象。所述专家试图用他/她的知识来详细地解释所述产品,关于它在哪制造和/或它由什么材料组成,而非专家试图使用回忆起来的、基于感知的术语来描述相同的产品。普通消费者在所有的专业范围内具有详细的产品知识和涉及产品的专有名称几乎是不可能的。从而,即使专家向非专家解释并推荐特定产品,这事实上要求专业知识来精明地选择,可以设想非专家在购买之前可能不会充分理解所述解释。通过应用本专利技术,卖方能够用消费者理解的词汇来向所述消费者提供关于产品的充足信息,并且反之,普通消费者可以容易地理解关于产品的信息并且选择适合于他/她偏好和品味的信息。附图说明图1是用于执行本专利技术优选实施例的整个系统图。图2是包括在图1的系统内的设备图。图3是由图1的系统执行的算法的流程图。图4是由图2的设备使用的、用于从图1的系统所检索的文档中删除“噪声”文档的方法的流程图。图5是由图2的设备使用的、用于计算文档的等级相关系数和有效值的方法的流程图。图6是由图2的设备使用的、用于把文档分类为专家文档和业余文档的方法的流程图。图7是由图2的设备本文档来自技高网
...

【技术保护点】
一种用于检索具有共同主题的文档且把所述文档分类到具有第一特征值集的第一文档集和具有第二特征值集的第二文档集中的方法,所述方法包括:根据预先确定的术语列表来检索相关的第三文档集;通过计算在所述第三文档集中每个文档的特征值来构造第三特征值集;并且依照:(a)使用所述第一特征值集和所述第三特征值集的判别式,和(b)使用所述第二特征值集和所述第三特征值集的判别式,来把在所述第三文档集中的文档分类到所述第一文档集和所述第二文档集中。

【技术特征摘要】
JP 2004-4-22 127122/041.一种用于检索具有共同主题的文档且把所述文档分类到具有第一特征值集的第一文档集和具有第二特征值集的第二文档集中的方法,所述方法包括根据预先确定的术语列表来检索相关的第三文档集;通过计算在所述第三文档集中每个文档的特征值来构造第三特征值集;并且依照(a)使用所述第一特征值集和所述第三特征值集的判别式,和(b)使用所述第二特征值集和所述第三特征值集的判别式,来把在所述第三文档集中的文档分类到所述第一文档集和所述第二文档集中。2.如权利要求1所述的方法,还包括从下列项中选择任意的项集作为特征值集实义词的数目、业余词的比例、专有名词的比例、附加专有名词的比例、虚词/助词的比例、根据涉及实义词和虚词/助词的n元语法模式的频率计算的Spearman相关性系数和有效值。3.如权利要求2所述的方法,其中检索所述第三文档集还包括删除属于下列至少之一的文档垃圾型文档、列表型文档和日记型文档。4.如权利要求1所述的方法,其中检索所述第三文档集还包括删除属于下列至少之一的文档垃圾型文档、列表型文档和日记型文档。5.一种用于根据具有第一特征值集的第一文档集和具有第二特征值集的第二文档集来检测第一和第二文档集具有下列至少一项(a)共同的主题、(b)在所述第二文档集中、对应于所述第一文档集中的专用术语的术语或(c)在所述第一文档集中、对应于所述第二文档集中的专用术语的术语的方法,所述方法包括根据预先确定的术语列表来检索相关的第三文档集;通过计算在所述第三文档集中每个文档的特征值来构造第三特征值集;依照使用所述第一特征值集和所述第三特征值集的判别式,和使用所述第二特征值集和所述第三特征值集的判别式,来把在所述第三文档集中的文档分类到所述第一文档集或所述第二文档集中;计算在第一术语列表中列出的每个术语的频率,所述第一术语列表根据被分类到所述第一文档集中的文档来编译,并且计算在第二术语列表中列出的每个术语的频率,所述第二术语列表根据被分类到所述第二文档集中的文档来编译;根据在所述第一和第二术语列表中列出的术语的频率,来检测在所述第二文档集中、对应于所述第一文档集中的专用术语的术语;并且根据所述第一和第二术语频率,来检测在所述第一文档集中、对应于所述第二文档集中的专用术语的术语。6.一种根据具有共同主题的第一文档集和第二文档集来检测(a)在第二文档集中、对应于第一文档集中的专用术语的术语或(b)在所述第一文档集中、对应于所述第二文档集中的专用术语的术语的方法,包括计算在第一术语列表中列出的每个术语的频率,所述第一术语列表从所述第一文档集来编译,并且计算在第二术语列表中列出的每个术语的频率,所述第二术语列表从所述第二文档集来编译;根据在所述第一和第二术语列表中列出的术语的频率,来检测在所述第二文档集中、对应于所述第一文档集中的专用术语的术语;并且根据在所述第一和第二术语列表中列出的术语的频率,来检测在所述第一文档集中、对应于所述第二文档集中的专用术语的术语。7.一种根据具有共同主题的第一文档集和第二文档集-其中已经根据术语列表检索了所述文档集-来检测(a)在第二文档集中、对应于第一文档集中的专用术语的术语和(b)在所述第一文档集中、对应于所述第二文档集中的专用术语的术语的方法,包括计算专用术语对共同出现的概率P(A),所述专用术语对包括来自所述第一文档集的术语和来自所述第二文档集的术语;计算关注的术语对中出现在所述第一文档集中的第一术语和所述术语对中没有出现在所述第二文档集中的第二术语没有共同出现的概率P(B);根据P(A)和P(B)来计算极大似然比率;提取具有超出预先确定阈值的极大似然比率的所有术语对组合;从在第一文档集中、对应于所述第二文档集中...

【专利技术属性】
技术研发人员:小田弘美
申请(专利权)人:惠普开发有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1