生成用于信息领域的自然语言处理模型制造技术

技术编号：10345963 阅读：200 留言：0更新日期：2014-08-22 11:07

提供用于生成用于信息领域的自然语言处理模型的方法和系统。该方法包括：从信息领域的源模型得出自然语言词典的框架；应用定义概念和关系的语法规则的集合；以及基于来自信息领域的参考文档扩展自然语言词典的框架，以提供用于信息领域的自然语言处理模型，其中扩展框架包括对用于概念和关系的术语聚类和打分。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】生成用于信息领域的自然语言处理模型
本专利技术涉及生成自然语言处理模型的领域。具体而言，本专利技术涉及生成用于信息领域的自然语言处理模型。
技术介绍
现代业务分析和过程大量依赖于流过和围绕业务流动的信息。核心业务过程信息包括来自诸如电子邮件、报告文档、演示和即使消息之类的来源的事务数据和文本数据二者。这一信息可以视为流“过”业务的信息并且从经认证的团体内或者在经认证的团体内始发。这一信息的文本组成的相对重要性已经多年不断增加并且现在被认同为很重要的组成。信息的文本组成这时由于难以创建用于理解这一非结构化的内容的自然语言处理(NLP)模型而大量未被处理。另外，Web2.0和社交媒体的问世已经产生来自应用的可能有巨大价值的“围绕”业务流动的文本信息的次生泛滥，这些应用的范围广泛，如聊举数例为产品标识新市场、理解品牌情绪和发现影响因素。高级NLP模型可能对业务具有的影响使得它是目前信息技术行业中的最快增长的需求之一。然而由于自然语言的复杂性，创建这样的模型并不容易。自然语言处理(NLP)模型是如下术语，该术语用来描述向文本分析引擎的输入的抽象化的集合的术语，从而...

【技术保护点】
一种用于生成用于信息领域的自然语言处理模型的方法，包括：从所述信息领域的源模型(111)得出(101)自然语言词典的框架；应用(102)定义概念和关系的语法规则的集合；基于来自所述信息领域的参考文档扩展(103)所述自然语言词典的所述框架，以提供用于所述信息领域的自然语言处理模型，其中扩展所述框架包括对用于概念和关系的术语聚类和打分。

【技术特征摘要】
【国外来华专利技术】2011.12.12 EP 11306635.11.一种用于生成用于信息领域的自然语言处理模型的方法，包括: 从所述信息领域的源模型(111)得出(101)自然语言词典的框架；应用(102)定义概念和关系的语法规则的集合；基于来自所述信息领域的参考文档扩展(103)所述自然语言词典的所述框架，以提供用于所述信息领域的自然语言处理模型，其中扩展所述框架包括对用于概念和关系的术语聚类和打分。2.根据权利要求1所述的方法，其中得出(101)自然语言词典的框架使用所述信息领域中的优选术语。3.根据权利要求1或2所述的方法，其中应用(102)语法规则的集合包括取得主语、谓语、宾语和可变顺序以用于覆盖。4.根据权利要求1至3中任一项所述的方法，其中扩展(103)所述框架包括: 选择(201)优选术语作为概念或者关系；在来自所述信息领域的参考文档中执行(202)对所述优选术语的关键字搜索；以及提供(206)用于所述优选术语的潜在术语的有序集合。5.根据权利要求4所述的方法，包括: 确定(203)局部η元语法；测量(204)所述η元语法的一个或者多个度量；以及对所述η元语法打分(205)。6.根据前述权利要求中任一项所述的方法，其中扩展(103)所述自然语言词典的所述框架包括: 基于来自所述信息领域的所述参考文档得出进一步的语法规则；以及对所述语法规则与用于概念和关系的聚类的所述术语求交。7.根据权利要求6所述的方法，包括: 使用来自动词的语言类的动词结构以驱动向聚类的术语应用的所述交集。8.根据前述权利要求中任一项所述的方法，其中扩展(103)所述框架开始于起始概念或者关系，并且向外迭代地移出所述源模型中的邻近概念或者关系链接；并且通过增大分数来细化概念和关系的扩展的所述术语。9.根据权利要求8所述的方法，包括: 使用分数阈值来确定用于概念或者关系的最佳术语的散度。10.根据前述权利要求中任一项所述的方法，其中扩展(103)所述框架基于结果动态地改变迭代策略。11.根据前述权利要求中任一项所述的方法，其中得出(101)自然语言词典的框架是基于多于一个源模型(111)。12.根据前述权利要求中任一项所述的方法，其中得出(101)自...

【专利技术属性】
技术研发人员：D·J·麦克洛斯基，D·博尔佩里，D·卡恩斯，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人