【技术实现步骤摘要】
【国外来华专利技术】文档检索系统
[0001]本专利技术的一个方式涉及一种文档检索系统。此外,本专利技术的一个方式涉及一种文档检索方法。
技术介绍
[0002]各种各样的文档检索技术已被提出。在现有的文档检索当中,主要使用单词(字符串)检索。例如,网页利用页面排序算法等,专利领域利用类属词典。此外,还有得到单词的集合来使用Jaccard系数、Dice系数、Simpson系数等表现文档相似度的方法。此外,还有使用tf
‑
idf、Bag of Words(BoW)、Doc2Vec等使文档矢量化来对比余弦相似度的方法。此外,还有汉明距离、莱文斯坦距离、Jaro
‑
Winkler距离等评估文本的字符串的相似度来检索所希望的文档的方法。此外,专利文献1公开了一种语言处理装置,其中通过将文的构成单位转换为串结构,计算出串结构间距离,从文是否相似的观点来进行对比。
[0003][先行技术文献][0004][专利文献][0005][专利文献1]日本专利申请公开第2005
‑
258624号公报 >
技术实现思路
...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种文档检索系统,包括:输入部;第一处理部;存储部;第二处理部;以及输出部,其中,所述输入部具有输入第一文档的功能,所述第一处理部具有使用所述第一文档形成第一图结构的功能,所述存储部具有储存第二图结构的功能,所述第二处理部具有计算出所述第一图结构与所述第二图结构的相似度的功能,所述输出部具有供应信息的功能,所述第一处理部具有将所述第一文档分割成多个记号的功能,所述第一图结构的节点及边具有标签,并且,所述标签由所述多个记号构成。2.根据权利要求1所述的文档检索系统,其中所述第一处理部具有对记号赋予词类的功能。3.根据权利要求1或2所述的文档检索系统,其中所述第一处理部具有进行依存分析的功能,并且所述第一处理部具有根据所述依存分析的结果而联结部分记号的功能。4.根据权利要求1至3中任一项所述的文档检索系统,其中所述第一处理部具有将包括代表词或上位词的记号置换成所述代表词或所述上位词的功能。5.根据权利要求1至4中任一项所述的文档检索系统,其中所述第一处理部使用第二文档形成所述第二图结构。6.根据权利要求1至4中任一项所述的文...
【专利技术属性】
技术研发人员:桃纯平,乡户宏充,
申请(专利权)人:株式会社半导体能源研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。