【导语】仁者见仁智者见智?从视觉错觉到偏见。我们的大脑对……有一些先验的假设……这些先验假设……在长期生活中无意识统计出来的,或者干脆就是漫长的进化过程筛选出来的有价值的先验假设——正如婴儿天生在吃奶期就懂得吮吸一样。
周六和彦老师聊天,发现这种偏见,正是阻碍我们长进和进步的樊篱,越了解,越想用自己的偏见去解释无法用偏见解释的东西,越会走偏,有时候,放弃已知的偏见,去完全融入后,了解,观察,体会,践行,这才是重要的事情。逃出你的肖申克,正有此意。free hit counters

《Making Up the Mind》上讲了这么一个简单但深刻的实验:

我们看到下面这张图片的第一反应是:5个凸的按钮,1个凹的按钮。

现在仅仅将图片上下颠倒一下:

在我们眼中立即就变成了:1个凸的按钮,5个凹的按钮。为什么同一张图片,仅仅是上下颠倒一下,我们就对其作出了完全不同的解释呢?

视觉图像要到达大脑,首先要在视网膜上成像(视网膜上密密麻麻地排布着感光细胞),刺激感光细胞形成神经电冲动,然后经过一系列复杂的神经通路到达视觉皮层。后续繁杂的步骤其实都是对视网膜上成像的处理。对我们而言,不妨可以将视网膜看作一张感光胶片,重点在于视网膜上的像是一张二维图片,大脑提取出来的任何信息都以这张二维图片为原始素材。

那么,大脑究竟是怎么从二维图片中看出(推导出)三维的?

其中一个重要的工作就是判定深度。比如,前面的两张图片完全是二维图片,在我们的视网膜上也是二维的。然而大脑却能够从中理解出三维出来,大脑能够判断出一个按钮是“凹”的还是“凸”的。这是怎么办到的?

很简单,假设环境中有光源,并且光源来自上方,那么凸的物体会使其下部出现阴影,凹陷的物体则会在上部出现阴影。于是,图中按钮的下半部出现阴影就意味着按钮是凸的,按钮的上半部出现阴影则代表按钮是凹的。

然而,别忘了,大脑的这个推理成立必须有一个前提,即光线从上方照下来,如果光线从下方照下来的话,一切就反过来了:凸的物体将会使其上部呈现阴影,凹的物体将会使其下部呈现阴影。因此,同样的一张图片如果假设光线从下方照耀的话,原来看成凸的物体就应该看成凹的,原来看成凹的就应该看成凸的。

回到第一张图片,你能够看着第一张图片并假想光线从下方照下来,进而把原来凸的按钮看成凹的吗?事实证明这很难,但我们可以做一个等价的事情——将图片上下颠倒一下:考虑到我们总是假设光线从上方照耀以及按钮的上下对称性,颠倒原图就相当于对原来的图片而言假设光线从“下方”照上去了。于是,我们发现(上文第二张图),一旦颠倒图片之后,果然凹凸就换位了。

这就是说,同一张图片其实有两种(乃至更多)可能的解释,取决于你的大脑到底假定光照来自下方还是上方。但为什么我们看上面两张图片却不会出现“二义性”的错觉呢?

因为在我们生存的环境中始终有这么一个巨大的来自上方的光源——太阳,漫长的进化已经在我们的神经回路中刻下了“光源来自上方”这样一 个强大的假设,所以虽然第一张图片本该有两种解释,我们还是不可避免地只看到其中一种,即假设光线来自上方的解释。即使卯足了劲看也难以将凸的看成凹的,因为难以克服“光线来自上方”的假设。

对于了解贝叶斯方法的同学,这个“光线来自上方”的假设就是先验(prior)的。世界在我们眼中其实只是一张二维图片,由于引入了“光照来自上方”这个先验假设,便有了凸凹。否则,文中一开始那张图片中的“按钮”可以是凸的,也可以是凹的,也可以是一张平面的、故意捉弄你眼睛的画。

最后,我们再来做一个实验,将原图转动90度:

是不是发现凸凹感基本消失了?现在,图片看上去更像是透过面板上的一些孔洞看背后的一张黑白条纹纸。前面提到,我们的大脑通过阴影来判断凸凹,在对阴影的“含义”进行推断的时候必须假定”光照来自上方“。而在这张竖着的图中,假设光照来自上方的话,那些阴影是没有意义的,因为不管凸还是凹,都不会形成这样的阴影,因此我们的大脑便无法判断凸凹了。(注:其实只要稍微把头往某个方向转一下就会看到凸凹了,并且,由于90度的偏角远小于上下颠倒,所以可能不少人还是能够在上图中看出凸凹感来的,只要想象光线来自左方或右方即可,比想象光线来自下方容易多了)。

也许这个实验对你来说过于简单,对于我们大脑中的“光线来自上方”的先验假设你还没有强烈的感觉。下面是一个更强的先验假设——人脸。

我们的大脑有一个神经网络模块负责识别人脸,这也是一块硬编码的神经网络。这就是说,我们天生就对任何(类似)人脸的图像敏感,所以随处都看到人脸,稍微类似人脸的图像就会被优先解释为人脸(用“手中拿着锤子,什么东西看上去都想钉子”的话来说,人脸模型就是我们的大脑在图像识别时的一柄黄金大锤):

(八卦@互联网/图)

当这种对人脸的强大先验假设在与“光线来自上方”假设产生冲突的时候,真正诡异的事情就出现了!

这是卓别林的面具在旋转过程中的四个不同瞬间的截图,左上图是面具正面的正常图像,但右下角是从反面看的情形——这个时侯,实际上面具是向内凹陷的面孔,但是我们的大脑欺骗了我们,让我们仍然看到凸的面孔,因为大脑的人脸识别模块对“脸是凸曲面”的先验假设轻易地打败了“光照来自上方”的假设。

大脑的逻辑是这样的:如果假设光照来自上方,那么根据阴影来推断这就应该是一张凹陷的脸。但我们又知道所有的脸都是凸的,因此必须推翻光线来自上方的假定才能符合“事实”——当大脑中的两个假设相冲突的时候,更强硬的那个获胜。如果这不是一张人脸面具,我们便可以轻易地意识到是凹陷的了。(静态图片不够生动,这个视频(点击观看)的动态旋转过程可能更为清晰。而另一个视频(点击观看)则很好地将上文提到的两个实验结合了起来。)

如果你对这种先天印刻在大脑中的先验假设仍然有所怀疑,再来看看著名的诡异的Ames’ Room和Ames’ Window吧。Ames’ Room的构造有点复杂,但Ames’ Window是很好造的。(注:相关视频可点击查看Richard Gregory

在Ames’ Window和Ames’ Room中,由于我们假设屋子的框架和窗户的框架是平行的,从而会将视觉上平行的窗户看作是与我们相对平行放置的,而将视觉上扭曲(一头宽一头窄)的窗户看作是与我们相对垂直放置的(因为其一端离我们远去从而变小)。事实上我们在现实中正是通过物体大小的变化来判断远近的,这也正是透视法能够在平面纸张上创造出三维视觉效果的原理:

在上文的实验中,我们的大脑由于有“内建”的假设,所以轻而易举地将一些按钮无歧义地解释为凸或者凹(后面我们会看到,虽然先验假设帮助我们消解二义性,但先验知识恰恰也正是偏见的本质来源),我们不免要想:如果缺乏先验知识来消解二义性,会出现什么现象呢?

(wikipedia/图)

这个是著名的Necker Cube,对它的三维解释是二义的。也许由于我们对平放的方块更熟悉(对图片来讲这是一个先验知识,因为它并不蕴含在图片本身携带的知识当中),更多的人会看到其中的一种解释(即“一个平放着的方块”),但其实还有一种解释也是完全可能的。如果不引入“现实中平放着的方块更常见”这个先验假设,我们其实是无法在两种假设中选出一种的,两种可能性等同。事实上盯着图片久了之后这两种解释就会随机切换。

要消解二义性其实很简单,引入新的evidence(了解贝叶斯方法(《数学之美番外篇:平凡而又神奇的贝叶斯方法》)的同学对这个字眼应该很熟悉吧?):

(wikipedia/图)

我们的大脑会综合图片中所有的evidence(“证据”),以及大脑中原本就有的先验假设,给出最可能的解释。但必须注意的是,如果按照统计学派的观点,应该让数据本身说话,不引入先验假设的话,二维图片就是二维图片,每种解释的可能性都是均等的,但如果考虑了先验假设,那么往往只有一种或几种可能性是靠谱的(plausible):

(Indexed/图)

前一阵子互联网上流行的“看你是左脑还是右脑”的“旋转的女人”图片也是绝佳的例子(注:其实这跟左右脑毫无关系)

(Nobuyuki Kayahara/图)

有人看到顺时针有人看到逆时针。但更多的人看到的是顺时针,正如Necker Cube中更多的人看到的是一个水平放置的方块一样。一种可能的解释是我们对顺时针旋转更为熟悉(先验假设)。 但是如果我们给图片加上一些新的evidence,就会发现变化出现了:

(Nobuyuki Kayahara/图)

(Nobuyuki Kayahara/图)

像前面的加上了新的evidence之后的Necker Cube一样,通过对图中旋转的女人的剪影添加轮廓线索,强烈提示了目前这个瞬间到底是正面还是反面。通过这个提示,大脑正确的对二义性进行了消解。

其实,说到底一张二维图片就是一张二维图片(外界物体反射的光线投射到我们的视网膜上也只是留下二维的剪影),其三维解释有N种(甚至无数种),但为什么绝大多数情况下我们的大脑能够一下就锁定在其中的一种可能性解释上呢?

皆因我们的大脑对生成这张图片(特别是图片中的阴影)的环境参数有一些先验的假设(如前面提到的“光照来自上方”、“脸是凸曲面——严格来说,鼻子是凸的”)。注意,这些先验假设并不蕴含在图片中,而是我们在长期生活中无意识统计出来的,或者干脆就是漫长的进化过程筛选出来的有价值的先验假设——正如婴儿天生在吃奶期就懂得吮吸一样。

(作者于2009年7月获得南京大学计算机系硕士学位,现在微软亚洲研究院创新工程中心从事软件研发工程师工作。)


0 条评论

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注