>   欧巴网   >   其它频道   >   正文

【星际穿越】数据科学史(1):数据科学是一场穿越时空的轮回

数据科学一词最早出现在1966年。那么数据学与数据科学之间究竟区别是怎么样的呢。可以说数据科学虽然仅仅只比数据学多了一个。数据学是研究数据本身。以及以文字、历史、社会政治以及经济学为代表的社会科学进行求证数据科学的起源就不会很奇怪了。数据科学也是一样。

在和很多人交流抑或是自我的向内心追问过程中,相信你会有与我一样的感受与困惑。这样的感受是好像一些事情似曾相识,仿佛曾经发生过;似乎又有些事情大抵底层相通,尽管他们跨越不同领域但方法与手法却惊人一致。如果你发现的越多,那么恭喜你,你的知识串联程度就越高。知识串联需要的是联想的能力,而这正是人类存在之与机器不同之处,我们会因为一个信息的输入产生多重联想。甚至对相同的输入,不同人产生的联想也不尽相同。这些联想有的依赖于我们过往的生活经历,有的取决于我们习得的社会习惯,有的则受我们近期读过书本内容的重要影响。

关于为什么会产生这样的联想,则见仁见智。如果你和我一样热爱科幻电影,你一定会为《星际穿越》中高维空间的解释所折服,如果你是一名科幻小说爱好者,你也许也会将人文的知识融合进去然后投入到《城市折叠》的情节中去。关于这些现象的解释,还会有一些人从“道法术”的角度解释,这些人一定是中国古典文化与文学的爱好者,对于阴阳八卦与天地五行有所涉猎,否则他们谈到老子与孔子的时候一定是不很深刻的。还有一些人会从社会物理学、分型学的角度来解释,给你布道一切事物背后的物理学原理,这些人未必都是物理学家,但他们一定具备了西方自然科学的求真精神。而我,作为一名计算机科学背景的人士,则并不偏向于任何一方,尽管是近现代的西方科学成就了计算机,但我也并不认为中国老祖宗的那一套东西就一无是处。毕竟他们在历史上的不同时期,都曾经带领自己的文明辉煌过。

1.中学教给了我们什么知识?

当我继续向曾经自己的学习历程回溯,我会发现,我们曾经在义务教育阶段接受的教育一切都是如此的合理。不知道你是否认真思考过,为什么我们会学习语数外、物化生、政史地?也许你会觉得,因为有区域性的考试,需要升学,因而才需要学习这些知识。这当然不能作为解释的原因,毕竟考试是检验学习的结果。或许你会说,因为一群专家们让我们学,而且这些专家以前也是这么学的,或者他们借鉴了国外的经验了解到国外就是这么教学的,因而我们也需要这样学。这也并不能够说服我,因为这是不过是学习的环境,无论是在中国的哪一个省份,或者是这颗蓝色星球上的某一个大陆国家,大家学的东西大抵相同,这只能算是学习的氛围,并不是我们学习这些内容的真正动机。也就是说如果有一些人他们最早发现需要学习这些内容,并且开始学习与加以传播的话,必然是有其最开始的意义与目标的。埃隆·马斯克提到的“第一性原理”则是从事物的本质去探究现象,把一个器物拆开了嚼碎了去观察,把一件事情向历史的深处追溯去发问,最终将获得真正的真相。

于是当我开始审视这些曾经被我们诟病的应试教育的科目时候,我惊奇的发现,抵触的情绪迅速的化解为一种莫名的兴奋。那些科目的本来名字遮蔽了这门学科本身应该传递给我们的内在知识。

政治学哪里是在讲政治,这分明是在讲经济学。回顾我们在中学时期学到的政治学知识,你会发现其内容无非就是哲学、货币学、经济学与马克思主义。其中最容易引起你质疑的就是马克思主义哲学了,这和经济学有什么关系呢?这个关系可大了。要知道马克思与恩格斯在提出自己的哲学主张的时候,就是针对的是当时社会环境中的资本与劳动之间的关系所做的思考而提出的,你能说这不是源于经济学吗?“经济基础决定上层建筑”是一个广泛为大家所知的论断,这里的经济基础就是指经济学中的生产关系,而上层建筑则是社会制度与意识形态。正是因为经济与哲学的天然相生性,才使得政治教材中将两者揉合到一起。那么政治中的兴衰更替又是怎么一回事呢?政变、*与国家的发展与灭亡究竟又是哪门学科向我们传递的呢?不用我说,你也知道是历史。历史以时间做轴,空间做纸,事件为墨,勾勒了一幅动态的世界地图,向我们展示了人与社会发展的最为真实的面貌,所以历史才是在描述政治事件。地理关于这颗蓝色星球大环境的探究则给我们提供了一些政治更迭背后的环境动机,故而不妨让我们也把它当作是历史的小兄弟。如果说历史是从人与社会的微观层面来对政治更迭做解释,那么地理就是从宏观环境对这个现象做了补充说明。

理化生是近现代西方自然科学的结晶,他们小到原子分子,中到基因细胞,大到实物与行星无所不包,这正式西方自然科学的研究的微观、中观与宏观层面。而蕴含在其中的一切理论则是源于古希腊时候就存在的严格的数学基础。因而理化生实际上是数学的世俗化表现,原来的数学高不可攀,成为一群古典时代学者们进行智力竞赛的一种武器与工具,而随着时代的发展,这些数学知识不断得以丰富与内化,也有更多的人发现这套严格的数学逻辑体系更应该出世为社会所服务,因而才演化出物理、化学、生物这些学科。究其祖宗,数学这套真正在教授逻辑的学科才是一切科学的根本。

还剩下语文与英语,看起来这两个科目对于我们来说,不过是一些诗词歌赋与语法句式,但其都可以通过“文化”一词一言以蔽之。无论是汉语或是英语,抑或是其他名族的文字与语言,其大抵的发展都是相似的。最初,文字是贵族阶级的工具,时至今日也是如此,在一些落后的国家与地区,穷人的孩子相较发达地区接受文化的机会少之又少。文字与数学相伴而生,这从最早的甲骨文或者是楔形文字就可以看出,那些原始部落的文字无非记录的信息就是“张三欠了我几头牛,我借给了王五几只羊”类似的信息,于是最早的信息只需要包含使用象形文字表征的实物以及代表实物数量的数字即可。久而久之,只有具有借出能力的债权人才有机会用的到文字与数学,那些债务人相对于债权人来说并没有太强的动机了解我究竟是有多少财产,因为他们根本就没有。所以说文字与数学最早是掌握在特权阶级的手中,用以奴役他人的工具罢了。尽管文字与数学的出身并不高贵,但这并不妨碍其为社会大融通做出的贡献,一旦租借与买卖出现,贫富差距成形,社会的分化就产生,经济规律与政治制度就被发现与发明,于是整个人类社会就像是被绑在了装有燃料的火箭桶上,飞速前进。而真正推动它进步的,正是那些勤奋精进的少数人,他们无论是在最早时期比别人多了几头牛,或者是现如今拥有了海量的知识或者财富,他们只相信一个道理,那就是“知识就是力量”。

2.数据科学是什么?

似乎和我们要谈论的主题“数据科学”远了一些,让我们回到这个主题上来。数据科学一词最早出现在1966年,由Peter Naur提出,这个老头也是2005年图灵奖的得主(计算机界的诺贝尔),当时数据科学可不叫Data Science,而是使用了Datalogy这个名词。充其量Datalogy只能翻译成为数据学,而不能真正的称为数据科学。那么数据学与数据科学之间究竟区别是怎么样的呢?可以说数据科学虽然仅仅只比数据学多了一个“科”字,但这正是要义的所在。从某种程度上来说,数据学是研究数据本身,例如采用一些统计学的方法进行研究,能够使用上算法与机器学习已经是非常令人赶到荣耀的事情了。然而数据科学除了这个内涵之外,还肩负了为自然科学与社会科学提供数据研究新方法的责任。从这种意义上来说,我们向以数学、物理、化学以及生物为代表的自然科学,以及以文字、历史、社会政治以及经济学为代表的社会科学进行求证数据科学的起源就不会很奇怪了。换句话说,在当下研究数据科学,并为自然科学与社会科学提供论证依据以及研究方法,应该是自古而有之,否则怎么会突然生出“数据科学”这样的“怪物”,而且还能够被人们奉为坐上宾?这说明在人类演化的过程中,数据的思维已经早就固化在碳基的大脑中,并被我们习以为常,所以我们为了了解数据科学就应该从自然科学与社会科学的发源讲起。

当我们谈到数据的时候,我们常常还会伴随有另外几个概念,他们分别是信息、知识与智慧。不用说,各位也知道,从数据到智慧,中间经历的信息与知识,是逐层抽象的。他们之间的关系是怎么样的呢?可以这么说,数据是用来承载信息的载体,信息是数据加上特定的场景与应用后产生的数据含义。听起来挺绕的,举个例子,30是数据,如果30这个数据加上夏天这样的场景信息后,并落实在温度测量应用上,那么30度就是一个信息,用于衡量环境的温度。那么知识又是什么呢?简单的说,是有价值的信息。我们每天会接触到很多的信息,例如看新闻或者听八卦,而现在很多的客户端为我们推荐最感兴趣的新闻,实际上就是帮助我们过滤出有价值的信息,故而这样的推荐算法也称之为“信息过滤”。还举刚才的例子,30度的温度是个什么概念呢?如果我们提取出“热”这样的信息,就称之为知识。反观一下,知识和信息的区别是什么呢?没错,这里有了人的感受参与,而之前的信息没有人的参与。也就是说当这个地球上没有人类的时候,30度这样的信息是本来就存在的,但是其并没有被其他生物利用起来用于自身的保护、繁衍和进化,或者他们以别的形式使用了而我们并不知道。所以知识是信息加上人的自身感受后的信息沉淀。而智慧站在知识上就更加的容易解释了,智慧添加了人的行动(Action),譬如说当我们感到热的时候我们需要找一些方式进行散热或者降温,这就是一种智慧,而如果拥有这样的知识却已然披着沉重的皮毛与大衣,很难说这样的生物有什么样的智慧。

站在刚才的基础上再谈信息化就要容易很多,关于信息化,最符合其产生机理的定义是“将现实世界中的事物和现象以数据的形式存储到赛博空间中,这样一个过程。”这里涉及到一个新的概念,称之为赛博空间(CyberSpace),其是控制论(Cybernetics)与空间(Space)的合体,是哲学与计算机领域的一个概念,其描述的更多的是计算机或者网络空间中的虚拟现实。这个词最早是由威廉·吉布森在1982年在其作品《全系玫瑰碎片》(Burning Chrome,看到Chrome是不是很亲切,就是谷歌浏览器的那个单词)中提出,后在其另一部作品《神经浪游者》(Neuromancer)中被普及,而这部《神经漫游者》也获得了和《北京折叠》一样的“雨果奖”。尽管这里说的CyberSpace强调了计算机与网络空间,但是如果让我们稍稍的弱化一下计算机的概念,稍稍的对网络的概念做一些延伸,那么我们会发现绝不仅仅是在当下,虚拟空间与真实世界实际上早已平行存在已久。当我们开始结绳记事,我们在脑子里虚构出一个节点代表一头牛,难道不是另一种意义上的赛博空间?当我们开始组建社群,人们使用语言进行交流,难道不是一种网络?如果你要坚持说,这些是真实世界的话,相必你一定有和唯心主义者一样的观点,即“这个世界是依赖于我们心中的真实反映”而已。如果你认同我们自古就已经创造了某种CyberSpace的话,那么我就可以说我们在不知不觉中已经创造了一个更为复杂的数据自然界,而数据科学正是我们研究这个数据自然界的不二之法。

让我们再回到数据科学这个名词的发明人Peter Naur老先生,聊一些计算机界人士感兴趣的话题。他在2005年获得了计算机界的诺贝尔奖--“图灵奖”。那他获得图灵奖的成就是什么呢?是ALGOL 60语言(一种计算机语言)以及计算机语言的表达范式BNF(Backus-Naur Form),关于这个范式留着以后在侃。你可以看到这个BNF范式中的后面一个单词Naur就是数据科学一词的发明人Peter Naur。可是Backus又是谁呢?他是第一个高级计算机语言Fortran的发明人。两个人发发明了高级程序语言,也就是现在各位程序员写程序使用语言的鼻祖。要知道,即便你不懂程序,没学过编程,当一份有过注释且编码规范的代码拿到你面前,你也能大致猜出一二,原因就在于其编程语言已经几乎使用了近似于结构化自然语言的风格进行逻辑的书写,例如while以及if、else等。然而在早期的计算机上,编程可不是一件简单的事情。最早的计算机使用纸带进行计算,那个时候能够使用计算机进行大量数据的加减乘除就已经是一个了不起的成就了,而其过程则是将记录了数字的纸带通过机械传动装置从一个位置送达另外一个位置,数据移动的次数与移动的距离,完全取决于进行运算的复杂程度。而当电子计算机开始兴起,数据被存储在了磁盘中,移动纸带的机械装置被替换成了在磁盘上移动的读写磁头,于是汇编语言采用机械命令的方式,例如MOV或者ADD等,来进行磁头读取数据的移动或者累加。而这样的汇编语言过分的依赖于对底层硬件的操作,而Fortran与ALGOL60则是一种对汇编语言的高级抽象,使用一种近似结构化自然语言的方式,就可以让程序员们把注意力集中到逻辑上而不是硬件上,可以说是一种伟大的创新与时代的发明。而写完这些高级语言之后,只需要一个编译器就可以把这些语言翻译成汇编语言,进而命令计算机进行执行了。PASCAL、BASIC以及C语言都是这类高级计算机语言家族的成员。

计算机用于计算,计算是对数据的操作,数据则是对真实世界的客观描述,因而当我们使用计算机的时候,实际上就是在和数据打交道,在和数据科学打交道,在和这个真实的客观世界打交道。

3.在历史上追寻数据科学的足迹

在我看来只有两个地区的历史有研究的必要,一个是欧洲史,一个是东方史(或者干脆就是中国史)。这并非是出于名族的自大与盲目的自信,而是当我们从宏观视角审视历史的时候我们会发现这个世界简单的模样就是如此可爱。其一,非洲的历史从智人走出大草原的那一刻开始似乎就鲜有耳闻,后面即便提到非洲也是北非的帝国,这天然的可以和欧洲史结合到一起去讲。其二,北美的历史与南美的历史本身就是欧洲史的一部分,尽管在这些地方出现过文明,但是关于他们史料相对来说谈论较少。可能是由于后来的帝国与强大的集权并无他们什么事儿的缘故吧,于是历史对此讳莫如深。所以当欧洲人的大航海时代到来,北美与南美的历史才拉开了新的序幕,书写了新的篇章。其三,中国在东方的影响力由来已久,尽管近代史多有波折,然而在那之前的中央集权的强国是这个星球上从来没有过的,只不过我们的老祖宗并不知道而已。如果你还想把东方的诸国囊括进来考虑,那么研究中国历史足矣,毕竟那些在古代大多数只不过是附属的城邦罢了。其四,东方与西方文明历来不和,尽管有过交流,但是主流世界的价值观还是根深蒂固。一个以希腊哲学奠定了帝国基础,一个则是儒家文化驾驭下的大国,很难有真正的通融。两个地区在不同的时期各自独领风骚,西方是近现代,而东方则是在那之前的许久。两方都处于欧亚大陆架的东西走向上,纬度与自然环境虽有差异,但大体相似,探究这两个地区的历史成为了研究整个世界与人类变迁的主要脉络。

无论是数据科学也好,是数学逻辑或者是物理自然科学也罢,抑或是政治经济学,他们本质上并没有太多的不同。从当下火热的数据科学向前推演,最直接的数据反映便是经济学。汇率、价格没有一个不是数据,而决定这些经济的则是社会与政治。人们的振臂疾呼与政治家的苦口婆心都是造成经济学中因素变动的主要成因。然而这一切还不是最为根本的,促使人们的想法发生变化,激发政治家灵感的正是长久以来生长在他们骨子里的、根深蒂固的文化,具体反映为文字与数学。如果你把时间的宽度从出现智人的百万年前放宽到几十亿年,我们甚至可以用物理学的经典理论来解释这一切,量子、原子与分子水平皆可。我并不是在妄言,亦非生拉硬拽地附和,数据科学真实的存在于这个自然界中,甚至在人类并不存在,生物并不存在的寂静宇宙中,数据的科学便已经开始酝酿。而我们作为宇宙的小学生,不过是一步一步的发现了他而已。

历史是一把好的尺子,我们沿着这把尺子上的刻度,缘木求鱼,就可以从几十亿年前的大爆炸说起,来一点一点解开数据科学的面纱。历史就是这样,周而复始,却有螺旋上升。很多时候我们看到了相似,见到了似曾相识,那不过是一个轮回罢了。数据科学也是一样,它,在穿越了几个宇宙之后,又在21世纪回来了。这一次,他是以全新的面貌,真实的改变着我们的生活。

今日热点

特别推荐

奇闻轶事

小编精选

热点排行

相关推荐
热门推荐