大数据的那些寓言和悖论

我们先从《三体》里的两则“假说”开始。

射手“假说”

有一名神枪手,在一个靶子上每隔十厘米打一个洞。设想这个靶子的平面上生活着一种二维智能生物,它们中的科学家在对自己的宇宙进行观察后,发现了一个伟大的定律: “宇宙每隔十厘米,必然会有一个洞。”

火鸡“假说”

一个农场里有一一群火鸡,农场主每天中午十一点来给它们喂食。火鸡中的一名科学家观察这个现象,一直观察了近一年都没有例外,于是它也发现了自己宇宙中的伟大定律:“每天上午十一点,就有食物降临。”它在感恩节早晨向火鸡们公布了这个定律,但这天上午十一点食物没有降临,农场主进来把它们都捉去杀了。

这两则寓言其实都应该来源于英国哲学家、数学家、思想家伯特兰•罗素提出过一个著名的火鸡问题(Russell’s Turkey)。罗素提出这个火鸡问题是讽刺归纳主义者、归纳推理,和各种归纳法的滥用。

AlphaGo背后的卷积神经网络(一)

Alpha Go 与李世乭的围棋对弈向大家展示了人工智能的强大,大部分围棋专业人士都在称赞 Alpha Go 有大局观,下棋像人的思维。这次比赛必定将成为人工智能技术的一个里程碑。与20年前IBM的深蓝战胜人类国际象棋大师卡斯帕罗夫相比Alpha Go在技术方面有着明显的不同,深蓝的算法中对棋局的判断是通过一个人工编写的评估函数来执行的,这个评估函数是科学家和人类国际象棋高手共同完成的,可以说深蓝的胜利是众多国际象棋高手和计算机科学家对卡斯帕罗夫的胜利。但是对于围棋而言,人类建立的围棋理论相当抽象,无法写出有效的评估函数,所以Alpha Go采用了深度学习的方式,通过大量数据的有监督学习,从而获得了一个围棋局势评估的模型。通过DeepMind发表在《自然》的论文,我们可以知道Alpha Go 由两套卷积神经网络和一棵蒙特卡洛树组成,其中一套被称作策略网络的卷积神经网络用于决定下一步落子可能的位置,另一套被称作值网络的卷积神经网络用于评估当前棋局获胜的概率。毫无疑问,Alpha Go 的胜利证明了卷积神经网络的强大和通用性。接下来这里讲尽可能通俗地介绍一下卷积神经网络。

当自然语言遇到深度学习

自然语言的复杂之源巴别塔

人类的语言是一种复杂智力产物,也许正如圣经故事里说的那样,为了不让人类建造出通天的巴别塔来宣扬人类的名,而故意混乱了人类的语言,让人类语言变得无比复杂。人工智能一个核心课题就是自然语言处理,但是由于人类语言的复杂性,各种算法的表现都不够完美。

深度学习现在基本是人工智能领域绕不开的一个词汇,深度学习确实在图像识别,语音识别领域取得了突飞猛进的进展,甚至是革命性的进展。深度学习俨然已经成为了人工智能领域的强大引擎。最近人机博弈领域采用深度学习也取得了围棋方面的进展,现在的算法在不需要人类让子的情况下已经可以击败职业2段选手。

在自然语言领域似乎很难有深度学习施展的空间。有一种说法是:语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号,所以后两者更适合用深度学习来学习特征。但是在2015年自然语言处理领域顶级的学术会议EMNLP上不仅录用了大量的应用深度学习的论文,还特邀了约书亚•本吉奥教授作了特邀报告,而约书亚•本吉奥教授也是复兴深度学习的主要学者之一,这说明深度学习在自然语言领域也获得了巨大关注。在工程实践中我们也小有成就,利用深度学习方式构建的情感判断模型也表现出了较高的准确性。

2016年你应该了解一下人工神经网络(二)

上篇文章我们介绍了用数学模拟单个神经元而建立的神经元数学模型,这个数学模型可以让我们通过数学运行来实现对数据进行识别,已经某种程度上模拟了生物神经元的工作方式,但是这种模拟并没有太激动人的地方,因为智能的神奇之处在于能够通过学习获取对事物的认知能力。人类具有的生物智能学习能力让人类创建了人类文明,并且能够让人类文明永远的传承下去。所以学习能力对于智能的构成何等重要无需累述。但是鉴于生物大脑结构的复杂性和伦理限制,完全揭示生物学习能力的奥秘还需要科学家的加倍努力。

2016年你应该了解一下人工神经网络(一)

神经元和神经元数学模型

很多科技媒体都把刚刚到来的2016年定义为人工智能年。刚刚在拉斯维加斯举行的CES也似乎也印证了这一点,大量的人工智能设备在展览上被展出,从无人机到机器人都避免不了人工智能技术。

在CES举行的前一周,著名前PHP程序员扎克伯格在自己的facabook页面上公布了自己2016年的年度挑战计划,作为Facebook CEO的扎克伯格准备DIY一个人工智能助手,他计划让人工智能助手可以让他通过语音控制家中的一切电子设备,还希望人工智能助手能够通过面部识别认识自己的朋友和家人,甚至是照看他才出生不久的女儿Max。

既然大家都在给2016年的人工智能打鸡血,难道你不应该也了解一下人工智能吗?了解一点人工智能至少能听懂小伙伴聊天,不至于一直活在2015年。

森林的尽头--浅议随机森林算法原理

Dice & Tree

上篇文章我们分析了构建决策树的过程,目的是为了理解真正的“大杀器”–随机森林的原理。这里我们开始尝试讨论一下随机算法原理。

我们先来看历史上一个统计学的失败案例。美国一家有名的刊物《文学文摘》预测1936年美国总统选举结果发生重大失误,导致这家杂志不久即宣告破产。当年的两位候选人,一是民主党的罗斯福,一是共和党的兰登,《文学文摘》通过240万人的问卷调查预测兰登会以57%:43%的优势战胜罗斯福。最后结果:罗斯福以62%:38%的压倒优势当选。

而盖洛普在战后做过多次关于总统大选结果的民意测验,只采用了几千人的问卷,但取得了与实际结果接近的结果。为何《文学文摘》做了这么大规模的调查,反而没有取得满意的结果呢?问题出在样本的挑选上。该刊从电话号码簿和俱乐部会员名册上挑选了过多的调查对象,由于美国安装电话的人都是富裕阶层,这些富裕阶层更偏向于共和党,所以调查结果会偏向共和党。《文学文摘》的失败关键是没有选取到能够代表整体数据的样本。统计学上把这种不是随机选取,不能反映整体数据分布的样本成为样本出现了偏倚。

这个统计学的案例和决策树有什么关系呢?

为了那片森林--决策树算法训练过程分析

只有根节点的决策树

这是一篇写机器算法的东西,希望能借此掀开机器学习算法面纱的一角,让我们可以和机器学习算法开始愉快的玩耍。文章开始前,来首泰戈尔的诗烘托一下气氛

The machine learning puts off it’s mask of vastness to it’s love.

It becomes small as one song, as one kiss of the eternal.

(机器学习在情人面前宽衣解带,绵长如舌吻,纤细如诗行–冯唐译本人改编)

机器学习算法是一种自动地从数据中学习的一些算法。与手工编程相比,机器学习非常的有Bigger,充满了黑科技味道,事实上,当数据非常巨大的时候人力很难去正确的了解和掌握数据的全貌和细节,手工编程几乎没有可能,所以机器学习几乎是一种不可缺少的算法了。在过去的20年中,机器学习已经迅速地在计算机科学等领域普及。机器学习被用于网络搜索、垃圾邮件过滤、人脸识别、语音识别、人机对话、推荐系统、广告投放、信用评价、欺诈检测、股票交易,疾病诊断等方面。由于充满了“黑科技“味道,吓退了一大批”战士“,但是我们是那名叫大卫的”牧童“专用黑科技(这句看不懂?参考前面的文章),所以机器学习是我们和大数据周旋的大杀器。机器学习算法中分类算法是一系列非常常用的算法,而随机森林是一种容易理解应用广泛的分类算法,大量的理论和实证研究都证明了随机森林具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。可以说,随机森林是一种人类好理解的非线性建模工具,是当前数据挖掘算法最热门的前沿研究领域之一。

社交网络大数据平台狂想

蜂巢是群体智慧的成果

现在,大数据已经是一个热得不能再热的词了。某天,我们几个同事在走廊上聊天,谁知隔墙有耳,没有过几天隔壁公司的一位先生主动上门提出希望和我们交流一下大数据相关的技术。他说听到我们在讨论有关大数据的技术,而他们公司也在做大数据相关的项目,希望沟通一下看有没有什么可以合作的机会。我们现在办公室所在的写字楼并不在IT和互联网行业集中的区域,两家做大数据的公司隔着一条走廊,门对门,这样的“巧合”,也许不再是巧合,可以改写一个段子,现在随便扔一个砖头砸到十个人,有三个都是做大数据的。大数据这个词虽然很热,但真正如何去应用大数据与相关技术,其实大家都还在探索,既然在探索,我们不妨来狂想一下大数据可能带来的技术革命。

风起于青萍之末,让我们飞驰狂奔的思维从人类技术的源头开始。从人类祖先还在非洲森林里用石头砸坚果开始,到人类制造的机器人登陆火星,人类技术的发展的线路一直是通过发明和创造各种工具和技术来扩展人类自己的能力,发明了汽车、飞机、火箭、甚至是宇宙飞船来扩展自己的运动能力;发明了标枪、弓箭、枪支来扩展自己的捕猎能力。无论是哪一种人类的发明都是学习大自然的结果、人类很可能是从滚动的圆木或者石头学会了制造轮子,也很可能是通过野火学会了用火。人类最终一定会学会人类自己的思维创造出新的模仿生命体的思维。发明计算机将是创造思维的第一步。人类思维最伟大之处在于善于学习并进行创造,那么人类创造的思维理所当然的需要进行学习。我们把人类创造的思维叫做人工智能。人工智能如果真能够像人为了扩展自己能力而进行的其他创造一样能够扩展人类的智能,那么必然引发一场新的技术革命,这场革命可以预想给人类带来的影响将远远大于前面几次的技术革命。