三节课首页
一百个人加起来可能也没有你聪明
周鸿猷    2017-09-20 20:10:50

 

群体并没有我们想象中的那么聪明,个别人可能比其他人加在一起懂的都多。让我们看下面这个小故事:

 

几周前,我想对群体智慧做一个验证。

我当时正在一个犹太女孩成人仪式酒会上,作为一个游戏,主人问每桌的客人,在碗里有多少颗彩虹糖。我让同桌的人都写下各自的猜测结果,然后求出一个平均值。

根据社会学家曾经提出的结论,我们搜集起来得到的答案应该是准确的。尽管不确定因素很多,但是我们每个人还是都有一个对于小物件装入大盒子里含糊的预估;总之,我们每个人学识的积累本改抵消掉个人的错误。

但是我这桌的竞猜却是惨败收场,我们估计的数量偏离正确答案有两倍之多。

 

 

群体智慧下人类容易明智,也容易愚蠢。

 

群体智慧是一个老的概念。它可以追溯到古希腊。

后来,启蒙思想家认为,民主不仅只是个好主意,还是一种运用了数学证明的方式来做出正确决策的途径。根据这一主张,一群小混混要优于一个盛世明君。小混混们虽然缺乏个人的知识,但他们从多样性上进行了弥补。

在上世纪 90 年代,群体智慧成为了流行文化的宠儿,后来为 wiki,众包,市场预测和基于热门的搜索算法提供了理论基础。

 

群体智慧被认可的同时带来一个巨大告诫之音,那就是:即使支持者承认,群体智慧下人们容易变得明智也同样容易变得愚蠢。

 

优秀的雅典民主人士与斯巴达人开启了一场毁灭性的战争。法国革命暴徒扼杀了启蒙运动。直到2008年,华尔街之狼们忘了风险管理的最基本的原则。

回到文章前面提到的彩虹糖竞猜。它本该是群体智慧擅长解决的问题类型︰ 个体提供多样化且独立的评估,没有任何一个人可能会占主导地位的小组讨论。然而,我们这桌却相差甚远。

 

Dražen Prelec,麻省理工学院(MIT)行为经济学家,正在试图找到一种升华蜂群思维的办法。

他提到人群之所以会混乱的一个原因就是一些常识性知识的统治地位。即使时人们做出独立判断,他们可能要使用了相同的信息。当你平均每个人的判断时,信息其实是被重复获取的,每一个人一次,给它赋予了更多超出它实际价值的意义,同时使不同来源的知识淹没于其中。最后,最低的共同标准占主导地位。这便是当前社交环境中存在的一个普遍的祸源︰ 想想晚餐上的闲聊,那其实就是人们一遍遍互相重复他们从纽约时报上读到的内容。

 

在许多的科学争论中,协商一致的观点也取决于很多看起来不那么稳固的基础知识。

例如,在 20 世纪 20 年代和 30 年代,物理学家们激烈的辩论如何解释量子力学的理论,此后的几十年间教科书中将这场争端被记录成Albert Einstein孤身一人反对新的理论的不平等战斗。事实上,其他人都支持Niels Bohr和Werner Heisenberg的相同论点,而Einstein和Erwin Schrödinger站在同一战线。这看起来仿佛是一场二对二的比拼。在这场况日持久的讨论期间,直至 20 世纪 60 年代才有新的观点产生。即使在今天,Bohr和Heisenberg的观点 (所谓的哥本哈根诠释) 被认为是标准之一,但实际上它永远不应该享有如此之高的学术地位。

 

Prelec 开始设置一个前提:即一些人的判断应该得到比其他更重的权重比。通过不再平均每个人的判断,你可以避免重复冗余或无关的信息。

无论何时我们都会更相信那些通过更自信的表述表达出来的观点,相反的,习惯去摒弃那些表达含糊羞怯的观点,人们总是下意识的这样做。对于这种信任,让我们更深层的解析一下。

在心理学实验中,比如记忆一列词汇,准确率高的人在表达上趋于更自信 。不幸的是,反过就不是这样了:自信的人不一定更准确。

正如W B Yeats写道: '最好之人全无信念,最坏者却充满狂热激情'。此外,人们习惯性的高估他们知识的价值。经验法则是 100%的信心意味着你的正确率在 70%至 85%之间。所以说当我们需要使用群体智慧进行决策前,更重要的是衡量出个人的认知水平。

 

Prelec 建议,解决这个问题的重点是,不要通过自信来衡量答案,而是通过“元知识”。

 

元知识:关于知识的知识

 

元知识意味着你意识到你自己知道哪些东西,不知道哪些东西,以及与他人比较下你的知识水平处在什么阶段。这是一个衡量你对群体价值的实用标准,因为知识和元知识通常是捆绑在一起的。Aaron Bentley,纽约城市大学研究生中心社会认知专业毕业生,提出“专业知识不仅指的是学到的学科知识,更重要的是掌握学科知识被衍生出来的背后奥妙 ”

 

虽然你可能并没有一套独立的方法来验证人的知识,但是您可以确认他们的元知识水平。

在一篇即将发表的论文中, Prelec的研究生 John McCoy和普林斯顿大学的神经学家Sebastian Seung的研究出了一套流程。当你进行一项调查时,索要两个数字︰ 自己猜测的最佳答案 (“反应”),和自己评估下会有多少人会同意自己的答案 (“预测”) 。“反应”表示他们的知识,“预测”则代表他们的元知识。你收集了每个人的反应后,你可以比较他们的元知识水平与组的平均知识水平。这就提供了一项具体准则︰ 可以提供最准确的预估的人 — —即自我意识最强的人和对别人的认识最准确的人 — — 这两类人就是我们最值得相信的人。

 

元知识可以作为一个强大的流言终结者。它可以辨别出群体中谁在大胆进行疯狂猜测或谁在人云亦云,随波逐流。

Prelec 指出:“群体社会下一直在分拣提炼正确决策上显得力不从心。人群是明智的,但不是用于纠正一些以直觉为假定前提的问题。有更多的信息值得我们关注”。流言终结者并不完美,但有些时候你自己不知道答案,就必须依靠其他人的意见,那么这时元参考元知识就是最好的方式。

你究竟相信哪个目击者?究竟相信电视上哪家媒体的说辞?又有哪位科学家在谈论一些有争议的话题?

如果他们表现出优越的元知识储备,那么你可以把这个当成他们具备更高级知识的一个信号。

 

元知识可以通过三种不同方式的提高群体智慧。

 

第一,它提供对调查数据的强大一致性检查。

社会学家长期以来依靠一个版本的这种做法,要求人们不仅仅是他们自己知道,更要求人们认识到其他人的认知情况。在这样做时,研究人员可以衡量群体普遍信奉的和一些甚至对研究人员自己不愿去承认的。人们有时真的很奇葩,口口声声说某些行为很常见,但是却声称自己永远都不会做! 永远不会 !永远不会 !

例如,如果有人否认喜欢小岳岳,但又说他们的同龄人却很喜欢他的风格,对他来说,你可以断定小岳岳比人们自认为的更受欢迎。同样,你应该提放政客们坚决反对腐败的口号, 因为他们说了太多坚决打击别人受贿的言论了,而真正无辜的人都倾向于认为别人也没有受贿。

这种策略之所以有效正是因为我们的元知识起到了扭曲作用。当我们被要求预测其他人的反应时,我们很大程度上基于自己对该问题的反应,从而向我们泄露一些直接问会选择隐藏的信息。

人们倾向于相信别人想的跟他们一样,这是一个基本的心理偏见,称为假共识效应。刚过去的这个春天,圣克鲁斯州加利福尼亚大学的物理学家Anthony Aguirre和我做了一个Metaculus 预测市场的实验。

我们问大家Bernie Sanders将成为民主党的总统候选人可能性有多大?同时,我们还征求他们预测他们同行的受访者会说什么。当我们描绘他们的预期和他们的预测关系曲线时,那些点大致沿着一条直线。那些自认为概率为 10%的人们预测其他人也会说10%;那些说了20%的人同样预测其他人会说 20%左右;两个答案相关影像着彼此,恰恰就说明人们产生的预测受到了假共识效应的影响。

 

像许多的认知偏见一样,它不一定不合乎逻辑。当评估其他人不要去做什么的时候,以自己作为一个参考点是合理的,只要它不是我们唯一的参考点。不管底层的心理机制怎样,要求人们预测别人会如何反应可以做为提高调查的准确性的奇招。因为假共识效果是我们元知识的一个失败,它使具备更好元知识的可以从人群中脱颖而出。

 

第二,元知识的宝贵之处并不是作为测谎仪器存在,而是作为真相之血。

通过探测元知识,一家民意调查机构可以使受访者坦率地回答那些有着强烈动机性的调查问题。

在 2012 年,Prelec,及哈佛大学的心理学家Leslie John和卡内基梅隆大学的经济学家 George Loewenstein,基于元知识的真相算法被应用到一个给 2,000 多个学术心理学家进行的关于渎职的调查中。

这是一个很不靠谱的话题︰ 谁会自愿承认自己伪造了数据?

Prelec 和他的同事试图打破这种不情愿。他们提供了一笔慈善捐款用于奖励完成此项调查的受访者。他们告诉三分之一的受访者(对照组)所作的贡献将是一个固定的数额。和其他的三分之二受访者说,所作的贡献将取决于如何如实的回答者,由元知识问题的答案来判断。

 

魔鬼有更好的元知识︰ 他们比天使更了解他们自家的后院发生着什么

Prelec 和他的同事不能明确的知道是否受访者告知了真相,但在他们精心设计的调查下,受访者通过诚实地回答问题将会取得最大额度的善款。其效果是戏剧性的。这一激励措施下多出近三倍的受访者承认伪造数据的事实,约1.7%,而这一比例在对照组仅 0.6%。承认曾假装数据的只是一小撮人,可能会让你担心其差异化,但类似的模式,例如一个广泛存在的问题,如果统计结果偏小,则更说明有犯罪的迹象。这也是明显的虚假共识效果的作用。一些自首的造假者以为 26%的同伴也犯着同样错误,而那些自称清白的人这一数据只有 9.5%。

 

接下来,Prelec 和他的团队想向前再迈进了一步,进而得到真实的造假率。并没有一个独立且直接的方式,但可以采取基于元知识的猜测。他们问两个受访组多少有罪的人将老实交代自己的错误行为。自称无辜者占 4%。鉴于他们的造假率 (9.5%),这意味着他们预测 0.38%的调查受访者会对自己的造假行为供认不讳。与此相反的是,那些承认有罪的人预测的招供率为 8.9%。鉴于其造假率 (26%),那么总体的认罪率为 2.4%,与有激励措施一组的1.7%十分接近。

 

所以说魔鬼有更好的元知识。他们比天使清楚在自家后院进行着什么样的勾当,1.7%的认罪率可能更加准确。当有罪方告诉我们,科学不端行为非常普遍时,此时我们要更多的听取这些人的说法。

 

第三,也是最令人印象深刻的元知识应用︰ 它可以筛选掉那些不知道自己在说什么的人,剩下那些有真实的信息贡献的人。

Prelec 和 Seung 给 51 名麻省理工学院和 32 名普林斯顿大学的本科学生做了一个简单易控制的测试。对于每个美国 50 个州中,受访者要列出每个州内最大的城市,并且指出该城市是否为州会。他们也要求预测下同学们是否会同意自己的选择。麻省理工学院受访者平均答对了 30 个;普林斯顿的受访者答对了31个。既然已经知道了正确的答案,那这个实验就比较容易评估元知识发挥的作用了。

 

Prelec 说:“作为假设,那些答对了的学生也更好地预测其他受访者会说什么。例如,60%的学生认为芝加哥是伊利诺伊州的州会,并且他们认为 89%的其他同学会同意。剩下的人意识到芝加哥是错误的答案,但却觉得只有 30%会知道这事。第二组预测的比例情况为 70-30, 很接近于实际的比例情况 60-40。显然,大多数人认为芝加哥是市伊利诺斯州的州会,而且难想象任何其他可能性,而那些知道斯普林菲尔德是真正的州会的人却是少数 — — 也许因为他们曾经犯过同样的错误,也许因为他们是土生土长的当地人。无论哪种方式,其优越的元知识证明他们也有更高质量的知识。他们知道更多的事实,和知道一些别人缺少的事实。”

 

当大多数是正确的时候,这个技术也可以发挥作用。想想南卡罗来纳。是哥伦比亚首都吗?约64%的受访者表示认同,同时预测64%的受访者会持有一样的观点。其余的受访者认为不是,他们预测36%的受访者会同意他们的观点。这一次,两组同样理智的预测了投票比例的情况,所以没有理由怀疑多数意见。

 

绝大多数的选择总是正确的。一个强有力的共识将是最接近真相的替代物

 

当你平均测验答案时,剔除那些低质量元知识的受访者后,麻省理工学院组答对了41个,普林斯顿组答对了44 个---比未加权的结果有了很大的提高。这项技术并不完美︰ 它把几个正确的答案改成了错误的,但是远远比修正的错误答案要少。通过元知识进行修正的手段,也可以从意见背道而驰的人中筛选出真正的专家。总体来看,在默认情况下倾向于投不是州会的那些人更准确。因为只有 17 州首府是州内最大的城市,那么元知识的匮乏就会背叛那些下意识唱反调的人,而不是真正的地理爱好者。

 

有趣的是,元知识修正结果的只影响那些大多数投票占比不到70%的问题。大多数总是正确的。这是我们面对现实世界纠纷必修的一课。一个强有力的共识是最接近真相的替代物。一个默默无闻独行英雄的真实讲述,与一部改编的面目全非的好莱坞电影比,哪个会让你更相信?

 

元知识的实用性提高群体智慧启发了北卡罗莱纳州杜克大学的心理学家杰克 Soll 和他的研究生 Asa Palley;他们提出一种类似于 Prelec 的技术,但更容易实践。与前者不同的是要求人们对于组内平均响应的预测而不是要求他们预测同意他们的人的百分比,进而简化了流程,尤其是当答案不是多项选择而是一个连续的统一体时简化作用尤为突出。

 

举一个虚构例子,假设你问你的朋友美国经济今年将增长多少。组中的每个人都读纽约时报,其中报道数值为 4%。那些只读纽约时报的人将猜测其他人也采纳了这个增长率数值。但组内有一半人读了经济家时报,并且上面的预测是零增长。根据两个来源之间的差异,估计增长率为2%。但是,当意识到只有很少一部分人读经济家时报后,当了解更多信息后,受访组整体猜测数值设为了3%。

平均来看,这组人群作为一个整体实际个人估计增长为3%且预测组内猜测的增长平均为 3.5%。这两个值之间的差异可以告诉你组内的信息共享产生的偏差,高估增长至少半个百分点。你可以旋转到另一侧的响应并猜测增长率为 2.5%来纠正它,这个数值便更可信的反映了总投入的信息数量。

 

专家们更容易认识到,其他人可能不同意他们。新手常被自己出卖因为他们无法站在自己以外的任何角色审视问题

 

Palley 和 Soll 的技术有助于证实我和Aguirre做过的桑德斯竞选提名实验的合理性。我们发现,受访者自发地高估小组对桑德斯获得提名机会的评估。如在上面的纽约时报和经济家时报的例子,小组内认为的增长率(平均) 和猜测其他小组可能猜测的增长率上有一个不小因信息共享偏差而导致的差异。

显然,大多数人基于广泛传播的信息提供自己的答案,而勤奋的少数则需要更加多样化的信心来源,进而使他们更对桑德斯的前景持怀疑态度。我们在给Brexit做的第二次投票中观察到一个很类似的模式。

 

受到这些结果的鼓舞,Prelec和Soll以及其他研究人员希望把元知识融入各种政治和经济预测等各个领域,利用群体智慧,过去是备受争议。利用这些原则,你不需要做一个正式的调查,只是注意你周围的人所展现出来的元知识。专家更容易认识到,别人会不同意他们,而且他们应该能够代表其他的信念,即使那些信念当下不被主流同意。

新手常被自己出卖因为他们无法站在自己以外的任何角色审视问题。同样地,当你注意到很多人都持有与您一样的信念时,您可以借此审视自己的元知识水平。Prelec说:“如果你惊讶的发现有很多人不同意你的信念,结合你之前在反对信念上的预测,可以推测出你在这个领域还是个新手”。这并不意味着你错了,但是会建议你自己回头再看看从前的信念。”

 

使用元知识作为一个流言终结者,还可以为气候变化等争议问题提供指导。

 

以我的经验,怀疑气候变化和其人为原因的人倾向于非常自信的人 (尽管他们的批评之一是气候系统过于复杂,无法准确模型化)。另一方面,主流气候科学家承认,他们为一些重要的猜测设置了一系列的误差线,但是现在看起来这种做法可能是错误的。例如,在上世纪 90 年代中期的一项调查,16名气候科学家提供的气温升高与的二氧化碳水平之间关系的估计。其中15名气候学家给了相当宽泛的误差线,反映了科学水平的不确定性。只有一位科学家,给了一个几乎没有误差设定的估算结果。此人后来被业内认定为最直言不讳的气候变化怀疑论者之一。

 

如果你自己恰巧是一个气候怀疑论者,你很可能被最后那个段落所激怒。现在不妨消消气然后问问自己,你凭什么这么肯定你的观点是正确的?如果你认为气候变暖是人类活动过于频繁的结果,也不要沾沾自喜。你也应该冷静一下,然后想想是什么让你如此确定---你是不是真的具备比一个怀疑论者更多的科学知识?换句话说,你具备的元知识水平如何?“我很有信心的认为…” 类似这种开头的话应该从公开宣传中禁止,我们应该更多的听取那些公开承认自己知识依旧有局限性的人的观点,这将使我们变得更好!

 

拥有高级的系统的元知识是非常难能可贵的。它不仅要求你知道一门学科也同样要求你了解你自己。而自知往往是最难的部分。

 

评论(0)
阅读(844)
文章评论

请您,再发表提问