大数据的那些寓言和悖论

我们先从《三体》里的两则“假说”开始。

射手“假说”

有一名神枪手,在一个靶子上每隔十厘米打一个洞。设想这个靶子的平面上生活着一种二维智能生物,它们中的科学家在对自己的宇宙进行观察后,发现了一个伟大的定律: “宇宙每隔十厘米,必然会有一个洞。”

火鸡“假说”

一个农场里有一一群火鸡,农场主每天中午十一点来给它们喂食。火鸡中的一名科学家观察这个现象,一直观察了近一年都没有例外,于是它也发现了自己宇宙中的伟大定律:“每天上午十一点,就有食物降临。”它在感恩节早晨向火鸡们公布了这个定律,但这天上午十一点食物没有降临,农场主进来把它们都捉去杀了。

这两则寓言其实都应该来源于英国哲学家、数学家、思想家伯特兰•罗素提出过一个著名的火鸡问题(Russell’s Turkey)。罗素提出这个火鸡问题是讽刺归纳主义者、归纳推理,和各种归纳法的滥用。

我们先从《三体》里的两则“假说”开始。

射手“假说”

有一名神枪手,在一个靶子上每隔十厘米打一个洞。设想这个靶子的平面上生活着一种二维智能生物,它们中的科学家在对自己的宇宙进行观察后,发现了一个伟大的定律: “宇宙每隔十厘米,必然会有一个洞。”

火鸡“假说”

一个农场里有一一群火鸡,农场主每天中午十一点来给它们喂食。火鸡中的一名科学家观察这个现象,一直观察了近一年都没有例外,于是它也发现了自己宇宙中的伟大定律:“每天上午十一点,就有食物降临。”它在感恩节早晨向火鸡们公布了这个定律,但这天上午十一点食物没有降临,农场主进来把它们都捉去杀了。

这两则寓言其实都应该来源于英国哲学家、数学家、思想家伯特兰•罗素提出过一个著名的火鸡问题(Russell’s Turkey)。罗素提出这个火鸡问题是讽刺归纳主义者、归纳推理,和各种归纳法的滥用。

但细细想来,大数据的价值之一不就是通过对各种数据的归纳统计来发现规律并加以利用吗?我们会不会是靶子上的微生物又或者是更加悲催的火鸡呢?特别是在各种大数据“鸡汤”书和“鸡汤”文的鼓吹下,“面包与啤酒”的故事人人都能聊上几句, “要相关,不要因果”的思想已经被很多人认可,而正是这种 “要相关,不要因果”的思维可能让我们成为“微生物和火鸡科学家”。微生物科学家归纳出了距离与洞的相关性,但是并不清楚洞出现的原因,而火鸡科学家研究发现了食物降临与时间有着相关性,但并不了解其中的因果关系。

但是在实际应用中,关联规则发现算法和协调过滤算法这些只管关联不问因果的算法却获得了巨大的成功。但是火鸡问题始终是打不开的节,如何才能避免成为“二维智能生物和火鸡科学家”?很多人都认为火鸡的错误是在于没有获取全部数据,如果各个养鸡场的火鸡科学家们能够通过火鸡世界的互联网通信并共享各自收集的数据,是不是有可能成功预测何时自己被宰杀?很明显这是不可能的,由于时间和宰杀火鸡做大餐之间并没有因果关系。为了避免成为“二维智能生物和火鸡科学家”,在通过算法发现某种关联关系后我们还需要找到数据来支持这种关联关系之间的逻辑和因果关系。但遗憾的是现在我们还没发明像频繁项集那样可靠的算法来发现数据之间的因果关系。

接下来我们再看另一个故事。

大师:上个月我成功的预测了老王在上个星期必有伤及性命的大劫难。

老王:真是多亏了大师的神机妙算,不然我已经上天堂了。

记者:大师,这样说来您还是预测错了。

老王:正因为大师预测准了,我上个星期处处小心才逃过了劫难。

大数据进行预测的时候也难免遇到故事里的“预测即干涉”悖论。“预测即干涉”往往不会像故事里那样得到一个正面的效果–老王没有上天堂,而更多的是负面效果。某地白菜价高销量好,当地政府预测明年价高也会比较高,于是鼓励农民种白菜,结果第二年白菜产量过剩,白菜价格跳水,类似这样的新闻我们常常看到。所以大数据应用于各种预测也要注意场景避免“预测即干涉”悖论,或者需要在模型中需要考虑到干涉对结果的影响。

大数据在商业化应用中除了“预测即干涉”悖论以外,常常会遇到“信息量”悖论。按信息论中对信息的定义,“凡是在一种情况下能减少不确定性的任何事物都叫做信息”。而信息则是用信息熵作为度量。事物发生的可能性越大,其确定性越强,其熵值越小;可能性越小,其熵值越高。比如说,在绝大多数接受者的判断中,“人咬狗”发生的可能性要远远小于“狗咬人”,对于接受者来说“人咬狗”的熵大于“狗咬人”,也就是人们接受到“人咬狗”这条信息,接受到的信息量比“狗咬人”大。

在一个具体的旅游大数据应用中,通过收集各种B2C旅游网站的评论和交易信息来进行热门旅游目的地的预测,经过数据采集,清洗,建模,各种调参我们得到了一个很高精度的预测模型,但是旅游行业的客户看到结果后却大为失望。并不是模型的预测不够精确,而是遇到了“信息量”悖论,对于旅游行业客户来说,预测的结果和客户经验判断基本一致,也就是预测结果对于客户来说信息熵非常小。客户希望看到是一个客户凭经验和常识不能确定的结果,而不是精确的结果。还有一个更著名的例子,谷歌通过搜索关键词预测了流行感冒的趋势,谷歌预测的结果与CDC(疾控中心)的结果相似度为96%。既然谷歌的预测结果需要CDC的数据来证实,那么对于CDC来说谷歌预测的信息量就很小。导致“信息量”悖论的主要原因是大数据分析所采用算法的只善于发现那些确定和可能性最高的结果,而并不是发现那些用户价值最高的结果。

最后一个寓言。

有父子二人,居山村,营果园。父病后,子不勤耕作,园渐荒芜。一日,父病危,谓子曰:园中有金。子翻地寻金,无所得,甚怅然。是年秋,园中葡萄、苹果之属皆大丰收。子始悟父言之理。

人类社会轰轰烈烈的信息化过程积累了无穷PB的数据,就好比园中金,需要挖掘寻找,真正的黄金也许就是在挖掘和寻找积累的技术能力。大数据是典型的通用技术,理解通用技术的价值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己酿造的蜂蜜,而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果,没有蜜蜂的一份功劳?

最后一个寓言让我们从另一个思路去思考如何实现大数据的价值,也许这正是我们需要认真思考的问题。