当前位置: 首页 > 专利查询>GAP株式会社专利>正文

计算机语言处理中的存储有句段提取程序的非临时性存储介质、语义上类似的句段提取方法以及语言处理装置制造方法及图纸

技术编号:37263145 阅读:17 留言:0更新日期:2023-04-20 23:36
存储有程序的非临时性存储介质使计算机执行以下的处理。将第一句段转换成划分为语素的句段,删除重复的语素,生成第一概要。将供判定与第一句段的关联性的第二句段转换成划分为语素的句段,删除重复的语素,生成第二概要。对从第一句段的语素删除重复而得到的第一概要和从第二句段的语素删除重复而得到的第二概要中一致的语素进行计数。基于计数处理的结果判定第一句段与第二句段的关联性,提取与第一句段的关联性满足规定的条件的第二句段的一部分或全部。一部分或全部。一部分或全部。

【技术实现步骤摘要】
【国外来华专利技术】计算机语言处理中的存储有句段提取程序的非临时性存储介质、语义上类似的句段提取方法以及语言处理装置


[0001]本专利技术涉及计算机语言处理中的、存储有在语言关联处理中提取语义上类似的句段的程序的非临时性存储介质、句段提取方法以及语言处理装置。

技术介绍

[0002]提供了一种设定用户指定的关键字(有效词汇=单词和连续的词汇)或文本(经常使用的文本),检索与所设定的关键字、文本相关的关键字或文本的服务。
[0003]例如,专利文献1所记载的类似文本提取装置针对多个对象文本的每一个,进行单词分割,生成单词矢量。此外,该类似文本提取装置基于该单词矢量,生成表示所述对象文本的特征的文矢量。而且,类似文本提取装置基于该文矢量,从所述多个对象文本提取彼此类似的对象文本。
[0004]现有技术文献
[0005]专利文献
[0006]专利文献1:日本特开2019-109654号公报

技术实现思路

[0007]专利技术所要解决的问题
[0008]根据专利文献1,类似文本提取装置将对象文本分割成单词。该类似文本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种存储有程序的非临时性存储介质,其使计算机执行:第一转换处理,基于在语素分析中使用的辞典,将第一句段转换成划分为语素的句段,删除重复的语素,生成第一概要;第二转换处理,基于在所述语素分析中使用的辞典,将供判定与所述第一句段的关联性的第二句段转换成划分为语素的句段,删除重复的语素,生成第二概要;计数处理,对从所述第一句段的语素删除重复而得到的所述第一概要和从所述第二句段的语素删除重复而得到的所述第二概要中一致的语素进行计数;以及提取处理,基于所述计数处理的结果判定所述第一句段与所述第二句段的关联性,提取与所述第一句段的关联性满足规定的条件的所述第二句段的一部分或全部。2.根据权利要求1所述的存储有程序的非临时性存储介质,其中,通过所述第一转换处理和所述第二转换处理转换得到的划分过的句段包括全部在执行所述语素分析时获得的词类。3.根据权利要求1或2所述的存储有程序的非临时性存储介质,其中,所述第一转换处理和所述第二转换处理中,进一步执行将所述第一句段和所述第二句段各自中的语素置换为所述语素所属的词类的原形的置换处理。4.根据权利要求1至3中任一项所述的存储有程序的非临时性存储介质,其中,进一步执行将所述第二句段分割成具有规定的字数的句段部分的分割处理,在所述计数处理中,对所述第一句段的语素和所述分割得到的句段部分的语素中一致的语素进行计数。5.根据权利要求1至3中任一项所述的存储有程序的非临时性存储介质,其中,所述第二句段被以文件单位分割成句段部分,在所述计数处理中,对所述第一句段的语素和所述分割得到的句段部分的语素中一致的语素进行计数。6.根据权利要求4或5中任一项所述的存储有程序的非临时性存储介质,其中,在所述第二句段存在换行的情况下,进一步执行删除所述换行的删除处理。7.根据权利要求6所述的存储有程序的非临时性存储介质,其中,在所述计数处理中,从所述第二句段提取所述一致的语素数最大的句段部分。8.根据权利要求1至7中任一项...

【专利技术属性】
技术研发人员:恩田和直
申请(专利权)人:GAP株式会社
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1