【技术实现步骤摘要】
信息处理系统、信息处理法及非暂态电脑可读取记录媒体
[0001]本公开涉及一种处理系统及处理方法,且特别涉及一种信息处理系统及信息处理方法。
技术介绍
[0002]传统的文本标注方法是通过人力(例如分析师)阅读文章后,以分析师的经验来逐一对文章进行标注。然而,这样的方式相当耗费时间,并且,标注的结果也高度依赖于分析师的经验。此外,由于文章需要由分析师来阅读,在数据保密方面存在相当高的风险。
[0003]另一方面,机器学习方法来训练分类模型的机制需要大量且精确的标注文章,才能够确保分类模型的准确率。如果标注文章数量不足或品质不佳,亦会造成准确率低落。据此,如何同时提高分类准确度及数据保密性,于文本分类的领域而言是亟需解决的技术问题。
技术实现思路
[0004]
技术实现思路
旨在提供本公开内容的简化摘要,以使阅读者对本公开内容具备基本的理解。此
技术实现思路
并非本公开内容的完整概述,且其用意并非在指出本公开实施例的重要/关键元件或界定本公开的范围。
[0005]根据本公开的一实施例,公开一种信息处理系 ...
【技术保护点】
【技术特征摘要】
1.一种信息处理系统,包含:至少一处理器;一通信接口,耦接于该至少一处理器;以及一数据库,连接于该一或多个处理器,以及该数据库经组配以存储被接收自该通信接口至少一文本,其中该至少一处理器经组配以:使用该至少一文本的多个字词的一基础特征信息来获得多个训练字词;分类所述多个训练字词以建立对应于一第一类别的一第一列表以及对应于一第二类别的一第二列表;使用在该第一列表与该第二列表中的多个关键词于一待标注文本中进行匹配,并分别计算出该待标注文本关于该第一列表及该第二列表的一信心值;以及根据该信心值以将该待标注文本标注为该第一类别或该第二类别。2.如权利要求1所述的信息处理系统,其中该至少一处理器还经组配以:使用该基础特征信息及该基础特征信息的一机率值,以计算所述多个训练字词的一参考值。3.如权利要求2所述的信息处理系统,其中该至少一处理器还经组配以:响应于该参考值符合一第一阈值,设定所述多个训练字词为该第一列表的所述多个关键词;以及响应于该参考值符合一第二阈值,设定所述多个训练字词为该第二列表的所述多个关键词。4.如权利要求2所述的信息处理系统,其中该至少一处理器还经组配以:使用所述多个训练字词的一出现频率及一普遍程度信息以计算各该训练字词的该参考值;以及将该参考值中符合一第一阈值的所述多个训练字词设定为该第一列表的所述多个关键词,以及将该参考值中符合一第二阈值的所述多个训练字词设定为该第二列表的所述多个关键词。5.如权利要求1所述的信息处理系统,其中该至少一处理器还经组配以:设定该第一列表的所述多个关键词及该第二列表的所述多个关键词为一字典树的多个节点值;以及使用所述多个节点值以比对该待标注文本的多个字词。6.如权利要求5所述的信息处理系统,其中该至少一处理器还经组配以:记录一第一匹配数,以设定该第一匹配数为该第一列表的该信心值,其中该第一匹配数为对应于该第一列表的所述多个节点值与该待标注文本的所述多个字词匹配的数目;以及记录一第二匹配数,以设定该第二匹配数为该第二列表的该信心值,其中该第二匹配数为对应于该第二列表的所述多个节点值与所述多个字词匹配的数目。7.如权利要求6所述的信息处理系统,其中该至少一处理器还经组配以:以该第一列表及该第二列表的该信心值的最大者,标注该待标注文本为该第一类别或该第二类别。8.如权利要求1所述的信息处理系统,其中该至少一处理器还经组配以:
通过该通信接口接收一新文本;使用该新文本中的多个字词的该基础特征信息,来获得该新文本中的多个第一关键词及/或多个第二关键词;以及根据所述多个第一关键词更新对应该第一类别的该第一列表及/或根据所述多个第二关键词更新对应该第二类别的该第二列表。9.如权利要求1所述的信息处理系统,其中该至少一处理器还经组配以:通过该通信接口接收一新文本;使用该新文本中的多个字词的该基础特征信息,来获得该新文本中的多个第三关键词;以及根据该新文本中的所述多个第三关键词建立对应于一第三类别的一第三列表。10.如权利要求8所述的信息处理系统,还包含:一使用者接口,耦接该至少一处理器,其中该使用者接口经配置以接收一操作指令,以供该至少一处理器执行该操作指令以:修改该第一类别为一第四类别,使得该第四类别包含所述多个第一关键词;及/或修改该第二类别为一第五类别,使得对应该第五类别的该第二列表包含所述多个第二关键词。11.一...
【专利技术属性】
技术研发人员:曾俋颖,汤珮茹,
申请(专利权)人:台达电子工业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。