【技术实现步骤摘要】
偏见最小化的自动概括
本公开总体上涉及记录概括领域,更具体地涉及同时约束记录内的偏见的记录的自动概括。
技术介绍
概括(summarization)技术,特别是与文本记录(例如学术报告、法律文件、专栏文章等)相关的那些概括技术,越来越普遍用于使用户快速地扫描记录的主要话题、摄取关于记录的关键信息,和/或使用户识别他们正在创建的记录中的任何缺陷。然而,截至目前,概括技术没有考虑和纠正记录内的感知偏见(bias),这可能导致用户偏离特定记录,和/或可能导致用户向其他用户呈现有偏见的记录。
技术实现思路
本公开的实施例包括一种用于自动地概括记录同时约束该记录内的偏见的方法、计算机程序产品和系统。处理器可以接收记录。记录可以包括一个或多个文本片段。处理器可以用指示符标记每个文本片段。指示符可以表示每个相应的文本片段中的特定的偏见实例。处理器可以自动地生成记录的概要。记录的概要可以包括文本片段的集合。文本片段的集合可以具有与记录不同的整体偏见。处理器可以向用户显示记录的概要。以上
技术实现思路
并非意图描述本公 ...
【技术保护点】
1.一种计算机实现的方法,包括:/n由处理器接收记录,其中,所述记录包括一个或多个文本片段;/n用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;/n自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及/n向用户显示所述记录的概要。/n
【技术特征摘要】
20190523 US 16/421,131;20190523 US 16/421,1591.一种计算机实现的方法,包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;
自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及
向用户显示所述记录的概要。
2.根据权利要求1所述的方法,其中,用指示符标记每个文本片段包括:
使用自然语言处理技术对所述一个或多个文本片段进行分析;以及
根据所述分析识别所述一个或多个文本片段中的每个文本片段内的关键文本触发器,其中,所述关键文本触发器是被识别为指示偏见的一个或多个单词。
3.根据权利要求2所述的方法,其中,识别关键文本触发器包括:
摄取训练记录的一个或多个语料库,其中,所述训练记录包括参考的偏见实例;
根据所述训练记录的上下文确定所述训练记录中的每个训练记录的偏见程度;以及
将所述训练记录中的每个训练记录的偏见程度与相应的单词相关联。
4.根据权利要求3所述的方法,还包括:
确定所述一个或多个文本片段中的一个片段包括第一相应单词;以及
基于所述第一相应单词将所述偏见程度与所述一个片段相关联。
5.根据权利要求1所述的方法,其中,生成所述记录的概要包括:
识别要用于所述概要的设定的数量的文本片段;
针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链,其中,所述链基于文本的指示符的每个片段;以及
选择对所述整体偏见具有改变的第一链,其中,自动地确定对所述整体偏见的改变,以限制最初的整体偏见。
6.根据权利要求5所述的方法,其中,针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链包括:
一次一个链接地为每个链生成链接,一直到所述设定的数量;
在包括新的链接之后对每个链进行分析;
在每个新的链接之后确定一个或多个链是否在偏见阈值以上;以及
排除所述一个或多个链中的在所述偏见阈值以上的每个链,不向该链添加新的链接,并且不认为该链是要用于所述概要的链。
7.根据权利要求5所述的方法,其中,选择对所述整体偏见具有改变的第一链包括:
从针对所述一个或多个片段的每种排列的每个链中识别出每个链的相应的预测偏见;
排除具有在偏见阈值以上的相应的预测偏见的每个链;
排除具有在信息阈值以下的相应的预测偏见的每个链;以及
在排除具有在所述偏见阈值以上的相应的预测偏见的每个链并且排除具有在所述信息阈值以下的相应的预测偏见的每个链之后,对每个剩余的链进行排名,其中,所述第一链是排名在剩下的其他链中的每个链以上的链。
8.一种系统,包括:
存储器;以及
与所述存储器通信的处理器,所述处理器被配置为执行操作,所述操作包括:
接收记录,其中,所述记录包括一个或多个文本片段;
用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;
自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及
向用户显示所述记录的概要。
9.根据权利要求8所述的系统,其中,用指示符标记每个文本片段包括:
使用自然语言处理技术对所述一个或多个文本片段进行分析;以及
根据所述分析识别所述一个或多个文本片段中的每个文本片段内的关键文本触发器,其中,所述关键文本触发器是被识别为指示偏见的一个或多个单词。
10.根据权利要求9所述的系统,其中,识别关键文本触发器包括:
摄取训练记录的一个或多个语料库,其中,所述训练记录包括参考的偏见实例;
根据所述训练记录的上下文确定所述训练记录中的每个训练记录的偏见程度;以及
将所述训练记录中的每个训练记录的偏见程度与相应的单词相关联。
11.根据权利要求10所述的系统,其中,所述操作还包括:
确定所述一个或多个文本片段中的一个片段包括第一相应单词;以及
基于所述第一相应单词将所述偏见程度与所述一个片段相关联。
12.根据权利要求8所述的系统,其中,生成所述记录的概要包括:
识别要用于所述概要的设定的数量的文本片段;
针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链,其中,所述链基于文本的指示符的每个片段;以及
选择对所述整体偏见具有改变的第一链,其中,自动地确定对所述整体偏见的改变,以限制最初的整体偏见。
13.根据权利要求12所述的系统,其中,针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链包括:
一次一个链接地为每个链生成链接,一直到所述设定的数量;
在包括新的链接之后对每个链进行分析;
在每个新的链接之后确定一个或多个链是否在偏见阈值以上;以及
排除所述一个或多个链中的在所述偏见阈值以上的每个链,不向该链添加新的链接,并且不认为该链是要用于所述概要的链。
14.根据权利要求12所述的系统,其中,选择对所述整体偏见具有改变的第一链包括:
从针对所述一个或多个片段的每种排列的每个链中识别出每个链的相应的预测偏见;
排除具有在偏见阈值以上的相应的预测偏见的每个链;
排除具有在信息阈值以下的相应的预测偏见的每个链;以及
在排除具有在所述偏见阈值以上的相应的预测偏见的每个链并且排除具有在所述信息阈值以下的相应的预测偏见的每个链之后,对每个剩余的链进行排名,其中,所述第一链是排名在剩下的其他链中的每个链以上的链。
15.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质具有通过其实施的程序指令,所述程序指令是处理器能够执行的,以使所述处理器执行方法,所述方法包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;
自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及
向用户显示所述记录的概要。
16.根据权利要求15所述的计算机程序产品,其中,用指示符标记每个文本片段包括:
使用自然语言处理技术对所述一个或多个文本片段进行分析;以及
根据所述分析识别所述一个或多个文本片段中的每个文本片段内的关键文本触发器,其中,所述关键文本触发器是被识别为指示偏见的一个或多个单词。
17.根据权利要求16所述的计算机程序产品,其中,识别关键文本触发器包括:
摄取训练记录的一个或多个语料库,其中,所述训练记录包括参考的偏见实例;
根据所述训练记录的上下文确定所述训练记录中的每个训练记录的偏见程度;以及
将所述训练记录中的每个训练记录的偏见程度与相应的单词相关联。
18.根据权利要求17所述的计算机程序产品,还包括:
确定所述一个或多个文本片段中的一个片段包括第一相应单词;以及
基于所述第一相应单词将所述偏见程度与所述一个片段相关联。
19.根据权利要求15所述的计算机程序产品,其中,生成所述记录的概要包括:
识别要用于所述概要的设定的数量的文本片段;
针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链,其中,所述链基于文本的指示符的每个片段;以及
选择对所述整体偏见具有改变的第一链,其中,自动地确定对所述整体偏见的改变,以限制最初的整体偏见。
20.根据权利要求19所述的计算机程序产品,其中,针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链包括:
一次一个链接地为每个链生成链接,一直到所述设定的数量;
在包括新的链接之后对每个链进行分析;
在每个新的链接之后确定一个或多个链是否在偏见阈值以上;以及
排除所述一个或多个链中的在所述偏见阈值以上的每个链,不向该链添加新的链接,并且不认为该链是要用于所述概要的链。
21.一种计算机实现的方法,包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
自动地生成所述记录的第一概要;
确定所述第一概要的整体偏见,其中,所述第一概要的整体偏见是从所述第一概要中的一个或多个偏见实例中识别出的;
生成所述记录的第二概要,其中,所述记录的第二概要包括所述第一概要的整体偏见的指示符,并且其中,所述指示符包括所述...
【专利技术属性】
技术研发人员:M·A·巴黑得,K·德伊,N·马达安,S·纳加尔,S·梅赫塔,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。