本发明专利技术公开了一种信息处理设备、信息处理方法和程序,该信息处理设备对一个或多个所收集的文档执行主题分析以计算表示构成所收集的文档的每个语句对于局部主题的每个项目的适合度的概率,对所收集的文档执行语言分析以检测局部主题的每个项目中的特有表述方式,基于评价者对构成所收集的文档的每个语句的评价而设置该语句的主题有用度,基于主题分析结果和主题有用度而对局部主题的每个项目设置总评价值,基于总评价值选择局部主题的项目,以及从所收集的文档中提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选。
【技术实现步骤摘要】
信息处理设备、信息处理方法和程序
本公开内容涉及一种信息处理设备、信息处理方法和程序,更具体地,涉及使得能够从大量文档中提取记载了关于关注目标(诸如,人、内容和想法)的知识的深奥文本的信息处理设备、信息处理方法和程序。
技术介绍
在现有技术中,已广泛地尝试通过统计地分析大量文档(对大量文档执行统计自然语言处理)来获得知识。例如,在没有创建辞典的专业领域中,通过对专业领域中的文档执行统计自然语言处理来自动创建该专业领域的辞典。在统计自然语言处理中,经常使用上下文信息(表示包括文档中引起关注的词和出现在该词前后的预定数量的词的词群)的特征量。另外,通过计算上下文信息的特征量的类似度,执行引起关注的词的同义词的分析、多义性的分析、两个名词之间的关系的分析、 词的情态(modality)的分析等。例如,在 Takaaki Hasegawa, Satoshi Sekine and Ralph Grishman 在 Proceedings of the Conference of the Association for Computational Linguistics 2004 中发表的文献“Discovering Relations among Named Entities from Large Corpora”中,在专有名词的关系的同义分析中使用上下文信息的特征量。
技术实现思路
因特网包含记载了关注目标(诸如,人、内容和想法)的大量文档。存在如下技术: 其仅对这样大量的文档进行搜索以得到记载了关注目标的文档并且还总结搜索结果的文档,但是尚未建立提取记载了关于关注目标的知识的深奥文本的技术。这里,深奥文本表示以区分的表述(表述方式)来记载与关注目标有关的预定主题 (局部主题)的文档。本公开内容是对这种情形的反映,并且实现了从大量文档中提取深奥文本。作为本公开内容的一方面的信息处理设备包括收集单元,收集包括一个或多个语句的文档;主题分析单元,通过对所收集的文档执行主题分析,计算表示构成所收集的文档的每个语句对于局部主题的每个项目的适合度的概率;语言分析单元,通过对所收集的文档执行语言分析,检测局部主题的每个项目中的特有表述方式;评价设置单元,基于评价者对构成所收集的文档的每个语句的评价,设置该语句的主题有用度,并且基于主题分析结果和主题有用度而对局部主题的每个项目设置总评价值;以及深奥文本提取单元,基于总评价值选择局部主题的项目,并且从所收集的文档中提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选。深奥文本提取单元可以基于总评价值选择局部主题的项目,并且从所收集的提取目标文档提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选。评价设置单元可以基于评价者对构成所收集的文档的每个语句的评价设置构成该语句的深奥度,对语句的多维特征量和深奥度执行机器学习,从而确定多维特征量空间中深奥文本的分布的边界,并且深奥文本提取单元可以基于所确定的边界从深奥文本候选中提取深奥文本。作为本公开内容的一方面的信息处理设备还可以包括呈现单元,该呈现单元向用户呈现与指定的关注目标对应的深奥文本候选或深奥文本。作为本公开内容的一方面的信息处理设备还可以包括编辑单元,该编辑单元对所收集的文档进行编辑。作为本公开内容的一方面的、一种信息处理设备的信息处理方法,该信息处理设备包括收集单元,收集包括一个或多个语句的文档;主题分析单元,通过对所收集的文档执行主题分析,计算表示构成所收集的文档的每个语句对于局部主题的每个项目的适合度的概率;语言分析单元,通过对所收集的文档执行语言分析,检测局部主题的每个项目中的特有表述方式;评价设置单元,基于评价者对构成所收集的文档的每个语句的评价,设置该语句的主题有用度,并且基于主题分析结果和主题有用度而对局部主题的每个项目设置总评价值;以及深奥文本提取单元,基于总评价值选择局部主题的项目,并且从所收集的文档中提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选,该方法包括第一收集步骤,通过收集单元收集包括一个或多个语句的学习目标文档;主题分析步骤,通过主题分析单元对所收集的学习目标文档执行主题分析,以计算表示构成学习目标文档的每个语句对于局部主题的每个项目的适合度的概率;语言分析步骤,通过语言分析单元对所收集的学习目标文档执行语言分析,以检测局部主题的每个项目中的特有表述方式;评价设置步骤,通过评价设置单元,基于评价者对构成所收集的学习目标文档的每个语句的评价而设置该语句的主题有用度,并且基于主题分析结果和主题有用度而对局部主题的每个项目设置总评价值;第二收集步骤,通过收集单元收集包括一个或多个语句的提取目标文档;以及深奥文本提取步骤,通过深奥文本提取单元,基于总评价值选择局部主题的项目,并且从所收集的提取目标文档中提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选。作为本公开内容的一方面的一种程序使得计算机用作以下单元收集单元,收集包括一个或多个语句的文档;主题分析单元,通过对所收集的文档执行主题分析,计算表示构成所收集的文档的每个语句对于局部主题的每个项目的适合度的概率;语言分析单元, 通过对所收集的文档执行语言分析,检测局部主题的每个项目中的特有表述方式;评价设置单元,基于评价者对构成所收集的文档的每个语句的评价,设置该语句的主题有用度,并且基于主题分析结果和主题有用度而对局部主题的每个项目设置总评价值;以及深奥文本提取单元,基于总评价值选择局部主题的项目,并且从所收集的文档中提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选。在本公开内容的一方面,收集包括一个或多个语句的学习目标文档,通过对所收集的学习目标文档执行主题分析,计算表示构成所收集的文档的每个语句对于局部主题的每个项目的适合度的概率,并且通过对所收集的学习目标文档执行语言分析,检测局部主题的每个项目中的特有表述方式。另外,基于评价者对构成所收集的学习目标文档的每个语句的评价,设置该语句的主题有用度,并且基于主题分析结果和主题有用度而对局部主题的每个项目设置总评价值。此外,收集包括一个或多个语句的提取目标文档,基于总评价值选择局部主题的项目,并且从所收集的提取目标文档中提取适合于所选择的局部主题的项目中的特有表述方式的语句作为深奥文本候选。根据本公开内容的一方面,可以从大量文档中提取深奥文本。附图说明图I是示出作为本公开内容的实施例的深奥文本提取设备的操作的概况的图图2是示出深奥文本提取设备的配置示例的框图3是示出主题分析中所假定的概率模型的图4是示出学习处理的流程图5是示出提取处理的流程图6是示出深奥文本呈现处理的流程图;以及图7是示出计算机的配置示例的框图。具体实施方式在下文中,将参照附图详细描述用于实现本公开内容的最佳模式(以下称为实施例)。〈I.实施例 >图I示出了作为本公开内容的实施例的深奥文本提取设备的操作的概况。作为本公开内容的实施例的深奥文本提取设备执行三种类型的处理,即学习处理、提取处理和深奥文本呈现处理。在学习处理中,在记载了关注目标(诸如,人、内容和想法)的文档当中,获取所记载的内容被认为可靠的文档作为学习目标本文档来自技高网...
【技术保护点】
一种信息处理设备,包括收集单元,收集包括一个或多个语句的文档;主题分析单元,通过对所收集的文档执行主题分析,计算表示构成所收集的文档的每个语句对于局部主题的每个项目的适合度的概率;语言分析单元,通过对所收集的文档执行语言分析,检测所述局部主题的每个项目中的特有表述方式;评价设置单元,基于评价者对构成所收集的文档的每个语句的评价,设置所述语句的主题有用度,并且基于主题分析结果和所述主题有用度而对所述局部主题的每个项目设置总评价值;以及深奥文本提取单元,基于所述总评价值选择所述局部主题的项目,并且从所收集的文档提取适合于所选择的所述局部主题的项目中的特有表述方式的语句作为深奥文本候选。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:宫嵜充弘,高松慎吾,
申请(专利权)人:索尼公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。