用于表征功能实体的和用于将功能实体消歧的方法和设备技术

技术编号:9667982 阅读:87 留言:0更新日期:2014-02-14 06:29
本发明专利技术提供了用于表征文档中的功能实体的方法和设备以及用于将文档中的功能实体消歧的方法和设备。用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法包括:识别该文档中的功能实体;以及对于每个功能实体,从该文档中提取至少一个装置状态转移;以及其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。这种表征方法可以被用于将文档中的功能实体消歧,并且可以被用于聚类/归类/搜索功能实体/文档。本发明专利技术对于其名字在多个版本间已经发生变化的功能实体的消歧而言是尤其有利的。

【技术实现步骤摘要】
用于表征功能实体的和用于将功能实体消歧的方法和设备
本专利技术涉及用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法和设备、以及用于将文档中的功能实体消歧的方法和设备。
技术介绍
对于实体消歧的需求通常出现在其中表示相同实体的数据对象以不同的方式呈现并且没有用于相同实体的统一的标识符的信息整合应用中。实体消歧通常是在可以进行关于实体的任何其它推论之前必须被执行的关键的第一步。手册、操作指南以及包括关于对一个装置或一类装置进行操作的信息的类似文档在企业和我们的日常生活中被频繁地使用。这些文档的特征在于是随时间演变的,并且因此会具有多个版本。例如,当发布一个系列的数字式照相机的新型号时,用于该系列的照相机的手册将演变成与新型号对应的新版本。手册或操作指南中的功能实体和一般性的表达在多个版本的手册或操作指南之间可能不同。因此,存在对于多个版本的文档进行功能实体消歧的需求。功能实体指的是设定、选项、动作、部件、步骤和功能等的命名实体,并且在手册、操作指南和包括关于对装置进行操作的信息的类似文档中频繁出现。为了利用相同的标识符来标识在不同版本的文档(尤其是手册或操作指南)中的相同的功能实体,可以执行功能实体消歧。一般,在制作手册之前将功能实体编索引(index)。对于多个版本的文档的功能实体消歧的任务是使文档中的功能实体同索引(co-1ndex)。功能实体消歧系统一般获取文档和索引化的功能实体列表作为其输入,并且输出同索引的功能实体的列表。期望的是,一系列文档中的功能名的演变可以通过使用功能实体消歧来跟踪。例如,如表I中所示出的,由相同公司制造的数字式照相机的所有型号具有相同的菜单“FUNC.菜单”(#12)。功能“自动回放(自动播放)”、“自动回放(幻灯片放映)”和“观看幻灯片放映”是同索引的(#17)。此外,“捕获最佳面部表情(最佳图像选择)”被指定一个新的标识符(#203),因为它仅存在于照相机型号220/230中。本文档来自技高网...

【技术保护点】
一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法,包括:a)识别该文档中的功能实体;以及b)对于每个功能实体,从该文档中提取至少一个装置状态转移;以及其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。

【技术特征摘要】
1.一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法,包括: a)识别该文档中的功能实体;以及 b)对于每个功能实体,从该文档中提取至少一个装置状态转移;以及 其中该装置状态转移由与装置的状态相关的实体和该实体之间的关系构成。2.根据权利要求1所述的方法,其中步骤b)包括: bl)获得与该功能实体相关的设定-选项对的森林; b2)基于该森林和该功能实体来提取设定-选项对的叶节点中的至少一个作为该装置状态转移; 其中,该与装置的状态相关的实体是设定和选项;以及 该实体之间的关系是每个设定-选项对中的设定与选项之间的关系。3.根据权利要求2所述的方法,其中步骤b)包括: b3)从该文档中提取与该功能实体相关的操作的至少一个动作-部件对作为该装置状态转移; 其中,该与装置的状态相关的实体是设定、选项、动作和部件;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。4.根据权利要求3所述的方法,其中步骤b)包括: b4)输入包括该装置的相应功能的效果的字典; b5)从该字典中提取与该功能实体相关的至少一个效果作为该装置状态转移; 其中,该与装置的状态相关的实体是设定、选项、动作、部件和效果;以及该实体之间的关系是每个设定-选项对中的设定与选项之间的关系、以及每个动作-部件对中的动作与部件之间的关系。5.根据权利要求2所述的方法,还包括: c)输入已被编索引的候选功能实体的集合; d)对于每个功能实体,通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第一相似度分数。6.根据权利要求3所述的方法,还包括: c)输入已被编索引的候选功能实体的集合; 对于每个功能实体, d)通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数; e)通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数;以及 f)根据第四相似度分数和第五相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第二相似度分数。7.根据权利要求4所述的方法,还包括: c)输入已被编索引的候选功能实体的集合;对于每个功能实体, d)通过比较该功能实体与每个已被编索引的候选功能实体的设定-选项对的叶节点来计算该功能实体与每个已被编索引的候选功能实体之间的第四相似度分数; e)通过比较该功能实体与每个已被编索引的候选功能实体的操作的动作-部件对来计算该功能实体与每个已被编索引的候选功能实体之间的第五相似度分数; f)通过比较该功能实体与每个已被编索引的候选功能实体的效果来计算该功能实体与每个已被编索引的候选功能实体之间的第六相似度分数;以及 g)根据第四相似度分数、第五相似度分数和第六相似度分数来计算该功能实体与每个已被编索引的候选功能实体之间的第三相似度分数。8.根据权利要求5到7中的任意一项所述的方法,还包括: 对于每个功能实体,在步骤d)之前,通过在字面上将该功能实体与已被编索引的候选功能实体进行比较来计算第七相似度分数;并且在该第七相似度分数小于阈值的情况下执行步骤d)及其后续步骤。9.根据权利要求2到7中的任意一项所述的方法,其中,步骤b2)包括: b21)通过使用命名实体识别来从该文档中提取设定和选项; b22)通过使用关系提取来提取设定-选项对;以及 b23)修剪该森林,从而仅保留与该功能实体相关的设定-选项对的叶节点。10.根据权利要求9所述的方法,其中步骤b2)还包括: b24)通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将叶节点序列化,以便获得设定-选项对的叶节点的有序序列。11.根据权利要求10所述的方法,其中步骤b24)包括: 基于设定-选项对的辨别力来过滤前η个设定-选项对的叶节点;以及通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前η个叶节点序列化,以便获得设定-选项对的叶节点的有序序列; 其中一个设定-选项对的辨别力被定义为:? = /1 *log(4)n\ 其中dl表示该设定-选项对的辨别力,Π表示该设定-选项对的频率,t表示该文档中的功能实体的总数,并且nl表示与该设定-选项对相关的功能实体的数量。12.根据权利要求3到4和6到7中的任意一项所述的方法,其中步骤b3)包括: b31)通过使用命名实体识别来从该文档中提取动作和部件;以及 b32)通过使用关系提取来提取动作-部件对。13.根据权利要求12所述的方法,其中步骤b3)还包括: b33)通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将所提取的动作-部件对序列化,以便获得操作的动作-部件对的有序序列。14.根据权利要求13所述的方法,其中步骤b33)包括: 基于动作-部件对的辨别力来过滤前η个动作-部件对; 通过使用该文档中的关于该功能实体的部分中的预定义的顺序来将过滤得到的前η个动作-部件对序列化,以便获得操作的动作-部件对的有序序列;其中一个动作-部件对的辨别力被定义为: 15.根据权利要求4或7所述的方法,其中步骤b5)包括: 基于与该功能实体相关的效果的辨别力来过滤前η个与该功能实体相关的效果; 其中,一个效果的辨别力被定义为: 16.一种用于将包括关于对装置进行操作的信息的文档中的功能实体消歧的方法,包括: 计算步骤,对于每个功能实体,通过使用根据权利要求5到15中的任意一项所述的方法来计算该功能实体与每个已被编索引的候选功能实体之间的相似度分数; 输出步骤,对于每个功能实体,输出η个最好的列表,该η个最好的列表示出了具有最高的η个相似度分数的已被编索引的候选功能实体。17.根据权利要求16所述的方法,其中该输出步骤包括: 对于每个功能实体,如果该η个最好的列表中的一个已被编索引的候选功能实体的相似度分数大于第一阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则给该功能实体指定一个新的标识符。18.根据权利要求17所述的方法,其中该输出步骤包括: 如果第一相似度分数大于第二阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 如果第二相似度分数大于第三阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 如果第三相似度分数大于第四阈值,则将该功能实体与相应的已被编索引的候选功能实体同索引;否则 给该功能实体指定一个新的标识符。19.一种用于表征在包括关于对装置进行操作的信息的文档中的功能实体的设备,包括: 单元a),被配置为识别该文档中的功能实体;以及 单元b),被配置为,对于每个功能实体,从该文档中提取至少一个装置状态...

【专利技术属性】
技术研发人员:胡钦谙黄耀海李荣军
申请(专利权)人:佳能株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1