用于文档处理的方法和系统技术方案

技术编号：2858289 阅读：124 留言：0更新日期：2012-04-11 18:40

当没有词汇对或文档对可用于专家和业余领域时，检测用于专家领域中的、对应于业余领域中的术语的术语（例如，词）。通过搜索因特网来收集文档，所述文档为描述相同的主题所知，并且写入专家和业余领域。计数在这些文档中出现的术语的频率。所述计数用来计算在所述专家和业余语言表达的词汇之间的对应关系。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及处理多个具有共同主题的文档集。
技术介绍
具有采用相同语言的多个描述并且共享相同内容的文档，在那些描述中频繁地使用术语，所述术语的不同取决于作者关于主题所具有的专业知识程度，以及所述作者属于的不同社会层，诸如性别或年龄组。即使所述描述是关于共同主题的，那么由非专家和由专家在他们各自的表达领域中使用的术语也可能是相当不同的。
技术实现思路
本专利技术的目的是提供一种新的并且改进的方法、设备及其它必要的技术，用于检测由非专家使用且与由专家使用的术语所表达的意思相对应的术语，并且反之用于检测在这种不同的领域之间由专家使用且与由非专家使用的术语所表达的意思相对应的术语。用于转换不同领域的文档的技术的典型例子是翻译机。使计算机执行翻译机的任务的技术已经是已知的。翻译机利用使用术语数据库的计算机程序、用于处理语法规则的程序、用法和例句数据库及其它系统特定组件，来把用自然语言写入的文档自动翻译为另一种自然语言。已经实际应用这种技术，并且存在用于个人计算机的商用语言翻译软件产品。在因特网上也提供某些翻译服务。另外，用于逐词翻译的小型手持装置到处都可以买到。逐词翻译机把用某种语言的一个词转换为用另一种语言、具有同样意思的词。基本上，把预编译词典存储在存储设备中，并且把输入词转换为用另一种语言的对应词。这些常规的技术具有用于把文档从一个领域转换为另一领域的前提；即，在一个领域中的句子必须已知对应于另一个领域中的句子，并且在一个领域中的词必须已知对应于另一个领域中的词。用于把困难的表达转换为用同样语言的容易的表达的意译研究已经问世。例如，在由Atsushi Fuj...

【技术保护点】
一种用于检索具有共同主题的文档且把所述文档分类到具有第一特征值集的第一文档集和具有第二特征值集的第二文档集中的方法，所述方法包括：根据预先确定的术语列表来检索相关的第三文档集；通过计算在所述第三文档集中每个文档的特征值来构造第三特征值集；并且依照：（ａ）使用所述第一特征值集和所述第三特征值集的判别式，和（ｂ）使用所述第二特征值集和所述第三特征值集的判别式，来把在所述第三文档集中的文档分类到所述第一文档集和所述第二文档集中。

【技术特征摘要】
JP 2004-4-22 127122/041.一种用于检索具有共同主题的文档且把所述文档分类到具有第一特征值集的第一文档集和具有第二特征值集的第二文档集中的方法，所述方法包括根据预先确定的术语列表来检索相关的第三文档集；通过计算在所述第三文档集中每个文档的特征值来构造第三特征值集；并且依照(a)使用所述第一特征值集和所述第三特征值集的判别式，和(b)使用所述第二特征值集和所述第三特征值集的判别式，来把在所述第三文档集中的文档分类到所述第一文档集和所述第二文档集中。2.如权利要求1所述的方法，还包括从下列项中选择任意的项集作为特征值集实义词的数目、业余词的比例、专有名词的比例、附加专有名词的比例、虚词/助词的比例、根据涉及实义词和虚词/助词的n元语法模式的频率计算的Spearman相关性系数和有效值。3.如权利要求2所述的方法，其中检索所述第三文档集还包括删除属于下列至少之一的文档垃圾型文档、列表型文档和日记型文档。4.如权利要求1所述的方法，其中检索所述第三文档集还包括删除属于下列至少之一的文档垃圾型文档、列表型文档和日记型文档。5.一种用于根据具有第一特征值集的第一文档集和具有第二特征值集的第二文档集来检测第一和第二文档集具有下列至少一项(a)共同的主题、(b)在所述第二文档集中、对应于所述第一文档集中的专用术语的术语或(c)在所述第一文档集中、对应于所述第二文档集中的专用术语的术语的方法，所述方法包括根据预先确定的术语列表来检索相关的第三文档集；通过计算在所述第三文档集中每个文档的特征值来构造第三特征值集；依照使用所述第一特征值集和所述第三特征值集的判别式，和使用所述第二特征值集和所述第三特征值集的判别式，来把在所述第三文档集中的文档分类到所述第一文档集或所述第二文档集中；计算在第一术语列表中列出的每个术语的频率，所述第一术语列表根据被分类到所述第一文档集中的文档来编译，并且计算在第二术语列表中列出的每个术语的频率，所述第二术语列表根据被分类到所述第二文档集中的文档来编译；根据在所述第一和第二术语列表中列出的术语的频率，来检测在所述第二文档集中、对应于所述第一文档集中的专用术语的术语；并且根据所述第一和第二术语频率，来检测在所述第一文档集中、对应于所述第二文档集中的专用术语的术语。6.一种根据具有共同主题的第一文档集和第二文档集来检测(a)在第二文档集中、对应于第一文档集中的专用术语的术语或(b)在所述第一文档集中、对应于所述第二文档集中的专用术语的术语的方法，包括计算在第一术语列表中列出的每个术语的频率，所述第一术语列表从所述第一文档集来编译，并且计算在第二术语列表中列出的每个术语的频率，所述第二术语列表从所述第二文档集来编译；根据在所述第一和第二术语列表中列出的术语的频率，来检测在所述第二文档集中、对应于所述第一文档集中的专用术语的术语；并且根据在所述第一和第二术语列表中列出的术语的频率，来检测在所述第一文档集中、对应于所述第二文档集中的专用术语的术语。7.一种根据具有共同主题的第一文档集和第二文档集-其中已经根据术语列表检索了所述文档集-来检测(a)在第二文档集中、对应于第一文档集中的专用术语的术语和(b)在所述第一文档集中、对应于所述第二文档集中的专用术语的术语的方法，包括计算专用术语对共同出现的概率P(A)，所述专用术语对包括来自所述第一文档集的术语和来自所述第二文档集的术语；计算关注的术语对中出现在所述第一文档集中的第一术语和所述术语对中没有出现在所述第二文档集中的第二术语没有共同出现的概率P(B)；根据P(A)和P(B)来计算极大似然比率；提取具有超出预先确定阈值的极大似然比率的所有术语对组合；从在第一文档集中、对应于所述第二文档集中...

【专利技术属性】
技术研发人员：小田弘美，
申请(专利权)人：惠普开发有限公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人