大数据技术表征的方法论特征

  • 投稿无哀
  • 更新时间2015-10-22
  • 阅读量273次
  • 评分4
  • 30
  • 0

苏玉娟

(中共山西省委党校,山西 太原 030006)

摘 要:大数据技术表征的过程彰显了广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证统一。即结构与意义的辩证统一,新范式与旧范式的辩证统一,数据“发声”与人的主观创造性的辩证统一,历时性与共时性的辩证统一。为促进大数据发展,必须培养辩证思维能力,充分挖掘社会对大数据技术的个化性需求,加快创新型人才队伍建设,充分发挥人的主观创造性,培养大数据文化。

关 键 词:大数据技术表征;过程;方法论

中图分类号:N39文献标识码:A文章编号:1007-8207(2015)02-0030-06

收稿日期:2014-12-12

作者简介:苏玉娟(1975—),女,山西稷山人,中共山西省委党校理论研究室副教授,博士,研究方向为科技史和科技哲学。

数据技术是一个经历了由“无数据”到“小数据”、由“小数据”再到“大数据”的不断演变和完善的过程。随着物联网、移动互联网、智能便携网终端和云计算技术的发展,人类社会进入了因大数据技术的发展和社会对大数据需求的大数据时代。大数据技术表征的过程是大数据技术表征方法论被不断应用的过程。维克托·迈尔·舍恩伯格在他的《大数据时代》一书中将大数据引起的变革概括为:不是随机样本,而是全体数据;不是精确性而是混杂性;不是因果关系,而是相关关系。他从不同角度探索了大数据表征的现实性特征。随着大数据技术表征的不断深入,大数据技术表征的方法论特征越来越明显。将大数据技术表征的方法论作为科学方法论研究的一个重要组成部分,探究并揭示它的方法论意义,对于进一步促进社会大数据化的实现,是一项非常必要而且是非常重要的工作。

一、广义语境性与再语境性

毕达哥拉斯学派认为,数的本性就是为人类提供认识。数据是由数和量演变而来。大数据指数据集合的大小已经超出了典型数据库在获取、存储、管理和分析方面的能力。从大数据技术表征的因素看,大数据技术表征体现了广义语境性与再语境性的辩证统一。

⒈广义语境性。“广义语境的含义就是将语境概念从狭义的语言领域扩展到广阔的社会、历史、文化和认知领域,形成社会语境、历史语境、文化语境和认知语境。”[1]不同主体所涉及的广义语境因素是不同的。数据本身并没有意义,只有把数据放在特定的语境之中它才能被赋予意义。大数据技术表征的过程包括历史语境、认知语境、科学语境和社会语境。大数据技术发展带来的文化、心理、伦理、法律、道德等社会问题以及如何更好地获得和使用大数据等技术问题构成了大数据技术表征的历史语境。大数据技术表征的过程还引起科学共同体认知、企业认知、政府认知和民众认知的变革。大数据技术对自然科学、技术科学和人文社会科学的变革构成了大数据技术表征的科学语境。大数据技术表征还引起了社会领域的变革,如企业生产、民众生活的方式等。大数据技术表征的过程正是大数据技术在历史语境、认知语境、科学语境和社会语境中不断变革的过程。

⒉再语境性。“再语境化的过程就是语境不断运动、变化和发展的过程,也即意义不断改变的过程”。[2]大数据技术表征涉及历史语境、认知语境、科学语境和社会语境。语境因素的变革将引起大数据技术表征意义的变革,这个过程就是大数据技术再语境化的过程,体现了大数据技术表征的再语境性。大数据技术目前被广泛应用于制造业、农业、商业、金融业和交通运输业等。由于每个产业、每个行业和每个企业语境因素的不同,大数据技术在每个产业、每个行业和每个企业表征的过程就是大数据技术再语境化的过程。对于每个企业来讲,随着语境因素的变革,大数据技术表征的意义也在变革。沃尔玛通过大数据技术发现尿布与啤酒的相关性,这个结果会影响沃尔玛对商品摆放位置的调整。所以,无论是从广义语境还是从每个企业的具体语境看,大数据技术表征的过程就是大数据技术在不同领域再语境化的过程。

⒊广义语境性与再语境性的辩证统一。大数据技术表征的过程是大数据广义语境化与再语境化过程的辩证统一。亚马逊公司能时实知晓购书者的偏好,是因为在历史语境中网上售书的记录、认知语境中企业研发团队和民众的认知水平、科学语境中大数据技术的变革、社会语境中大数据技术推荐相关图书对民众选购习惯的改变,是历史、认知、科学和社会等语境共同作用的结果。亚马逊公司为每个顾客实时推荐图书的过程,同时又是具体语境的再语境化过程。可以说,亚马逊公司时实知晓购书者的偏好并推荐新书,是广义语境和再语境化共同作用的结果。广义语境为亚马逊公司推荐图书提供条件,再语境化则彰显亚马逊公司为每个客户推荐图书的个性化服务特征。

二、建构性与解构性

结构指组成整体的各部分的搭配和安排。主体对客体信息的选择取舍或加工制作,最后都必须通过“建构”或“解构”这一环节,才能实现主体反映客体的要求。建构侧重系统的建立,解构指对稳固性的结构及其中心进行消解。每一次解构都表现为原有结构的中断、分裂或解体,但是每一次解构的结果又都产生新的结构。大数据技术表征的过程是传统范式解构和新范式建构的辩证统一。

⒈解构性。范式是从事某一科学的共同体所共同遵从的基本理论、观念和方法。每一次科技革命都引起科学共同体研究范式的变革。“有人将大数据称为继实验科学、理论科学和计算科学之后的第四种科学研究模式。”[3]这种范式的产生来源于数据密集型科学的发展。每一种新的范式的产生都是在对旧范式解构的基础上产生的。库恩认为,科学革命发生的过程就是新旧范式转换的过程。经验科学和实验科学偏重对经验事实和实验观察的描述,以归纳法为主。理论科学侧重理论总结和理性概括,以演绎法为主。计算科学主要以数据模型构建、分析和解决科学问题,以定量分析法为主。大数据技术作为数据密集型科学发展的重要领域,是“由传统的假设驱动向基于科学数据进行探索的科学方法的转变。”[4]传统的研究范式基于假设和问题,通过归纳、演绎和计算方法进行研究。大数据技术基于观察数据、实验数据、模拟数据和网络的大行为数据、大交易数据,并不依赖于假设,而是通过数据“发声”探索事物的现象和规律,是对传统归纳法、演绎法、计算模拟方法的解构。

⒉建构性。解构的结果必然是建构出新的研究范式。大数据技术在解构传统研究范式的基础上建构出了自己的研究范式。从主体看,大数据技术研究范式从科学共同体表征走向社会表征。在经验科学时期,科学研究范式主要体现为个体表征。随着科学从“小科学”走向“大科学”,大数据技术表征从科学共同体扩展到政府、企业和民众,而且促使经济、社会、军事、文化等社会领域的数据化。从方法论看,大数据技术产生的研究范式侧重数据挖掘和数据共享。一方面,强调数据本身科学研究范式的建构,即数据密集型科学的发展;另一方面,强调大数据在社会领域的再建构,实现大数据技术的社会化。根据研究问题的不同,大数据可以被重复建构多次,不断形成新的价值。因此,大数据技术表征的建构性不仅彰显新范式的产生,而且彰显大数据的再建构性和价值的增值性。

⒊解构性与建构性的辩证统一。事物的发展过程就是吸收旧事物中的积极因素,抛弃旧事物中消极因素的过程。大数据技术对传统研究范式解构并不意味着完全抛弃旧范式。经验科学是理论科学的实践基础,理论科学指导经验科学的发展,计算科学为经验科学和理论科学提供了更好的模拟方法和计算手段。大数据技术表征的过程离不开传统研究范式,是旧范式解构性与新范式建构性的辩证统一。一方面,大数据技术在解构传统科学研究范式的同时,也为传统科学提供了方法论指导。大数据技术研究范式通过数据“发声”为经验科学、理论科学、计算科学提供了新的研究方法。另一方面,大数据技术研究范式的建构过程离不开归纳法、演绎法和计算法。上文中提到的沃尔玛超市在大数据分析的基础上发现了“啤酒和尿布”销量的相关性,就是一个很好的说明。因此,大数据技术解构与建构的过程既是对传统科学研究范式的解构,同时又是对传统科学研究范式的积极吸收,是解构与建构的辩证统一。

三、相关性与因果性

相关性是指两个或多个具备相关性的变量元素的密切程度。相关性的元素之间存在一定的联系或者概率才可以进行相关性分析。因果性分析是为了查明不同要素之间的关系以及导致一定现象产生的原因。强相关性往往是因果性的重要表现。大数据技术从“是什么”的角度分析数据之间彼此的相关性,为决策者提供选择,同时强相关性数据关系背后可能存在因果性。因此,大数据技术表征过程是相关性与因果性的辩证统一。

⒈相关性。“知道‘是什么’就够了,没必要知道‘为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己‘发声’”。[5]维克托·迈尔·舍恩伯格认为,小数据时代追寻因果关系,大数据时代追寻相关关系。相关关系是指当一个数据增加时,另一个数据值会随之增加。大数据技术通过分析事物之间的相关性,为决策提供服务。沃尔玛通过对每一个顾客的购物单、消费额、购物时间及天气等数据的分析,发现季节性飓风来临之前,蛋挞与飓风用品具有相关性,于是将二者摆放在一起。“通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。”[6]大数据技术通过对数据的采集、存储和分析以发现事物的相关性,这是大数据研究范式不同于传统研究范式的显著特征。

⒉因果性。维克托·迈尔·舍恩伯格强调大数据技术的相关性,并没有否定因果性。虽然相关不等于因果,但不代表相关就不可能是因果关系。两个变量A和B具有相关性,其原因有很多种,可能A→B或者B→A,也可能C→A并且C→B。为此,要证明事物之间相关性产生的因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除第三个隐含变量同时导致这两个变量的可能性。大数据技术通过统计因果关系反映事物之间的相关性,进而寻找隐藏在大数据背后的原因。只依靠数据,不发挥人的主观能动性以挖掘数据背后的原因,人就可能成为数据的“奴隶”。“对数据的盲目崇拜,只会让冰冷的机器浇灭炽热却敏感的爱情”。[7]如果失去人类的探究精神,大数据技术表征将产生新的技术异化。实际上,在进行数据分析前,一定在思维中存在着关于事物因果判断的各种可能。因此,大数据技术表征具有因果性特征,需要结合数据的相关性和相关科学理论的逻辑性分析事物相关性背后的因果关系。

⒊相关性与因果性的辩证统一。“科学研究就是寻找研究对象的现象之间的因果关系,没有因果性,科学研究也就失去了基础。”[8]因果性说明事物之间内部的联系,相关性是事物之间关系的外在表征。因果关系说明事物之间具有强相关性,即A→B或者B→A。强相关关系作为事物关系的外在表征,可能是偶然现象,也可能具有因果性。“相关关系可以在实践中引导我们怎么做,因果关系可以回答我们为什么这样做。”[9]二者之间是相辅相成的。大数据技术表征的相关性包括直接的和间接的相关性、强相关性和弱相关性等,它拓展了我们对于客观世界认识的维度,即从因果性扩展到相关性和因果性。对于相关性数据我们需要进一步挖掘,寻找现象背后可能隐藏的因果性,进而认识事物发展的规律。大数据发现的因果性又会反馈过来为大数据的生成、存储、处理、应用等提供理论指导。因此,在大数据时代,大数据技术表征的相关性与大数据背后可能存在的因果性是辩证统一的。没有相关性分析,大数据技术发展就没有优势;没有因果性分析,大数据技术发展就无法揭示规律。

四、预测性与实时性

在大数据时代,依靠大数据的分析结果可以用来预测事物未来发展的趋向。大数据来源于实时记录、监视、跟踪。可以说,大数据技术表征的过程是预测性与实时性的辩证统一。

⒈预测性。大数据技术的显著特点是数据规模巨大、数据处理迅速、数据种类多和价值密度低。数据价值密度的高低与数据总量的大小成反比。以视频为例,一部1个小时的视频,在连续不间断的监控中,有用数据可能仅有1-2秒。大数据的价值就在于通过对大数据的“提纯”,发现规律,预测趋势。如果大数据没有预测性功能,它的价值将大打折扣。目前,大数据的预测性体现在很多领域。警察利用数据可以预测某人犯罪的可能性,亚马逊、淘宝、京东、迪斯尼主题乐园等利用大数据预测和引导消费者的需求,相关部门则可以利用大数据对流感等疫情进行预测。如在一个特定地区,越多的人搜索“流感”一词,就意味着该地区有越多的人患了流感。因此,预测性是大数据技术价值的重要体现,没有预测性,数据的价值是残缺的。

⒉实时性。我们时刻都在“第三只眼”之下:“亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听了我们心中的他,还有我们的社交关系网。”[10]大数据主要来源于对政府数据、物理数据和网络数据的实时监测。没有实时性的监测,大数据就体现不出“大”的内涵。大数据的实时性也带来了存储问题和数据垃圾问题。谷歌数据中心只有6-12%的电能被用来支撑大数据的分析处理,绝大部分电能只用来支撑很多闲置状态的服务器。

⒊预测性与实时性的辩证统一。数据的实时性与预测性体现了事物发展的历时性与共时性的辩证统一。共时分析跨越时间,历时分析跨越空间。忽视共时性,也就忽视了事物的关联性;忽视历时性,也就忽视了事物发展的历史性。任何事物的发展过程都是在共时与历时二维时空中运动的结果。从历时性看,实时性反映的是事物运动的历史轨迹,而预测性反映则是事物的未来可能的轨迹。只有实时性与预测性相结合,才可能更清楚地分析事物发展的轨迹。从共时性看,实时性监测为分析事物空间的相关性提供了最原始的资料,预测性则是基于事物空间的相关性做出的预测。所以,从历时性与共时性看,大数据技术表征的过程是实时性与预测性的辩证统一。

五、启示

大数据技术表征的过程彰显广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证统一。为了更好地迎接大数据革命,我们必须做好以下几个方面工作。

⒈培养辩证思维能力,科学对待大数据技术表征的方法论特征。通过对大数据技术表征方法论特征的考察我们发现,对于大数据技术的应用必须具有辩证思维。辩证思维是唯物辩证法在思维中的运用,对立统一规律、质量互变规律和否定之否定规律是唯物辩证法的基本规律,也是辩证思维的基本规律。阿里巴巴集团副总裁、数据委员会会长车品觉认为,“今天的大数据就是明天的小数据,这个是做大数据的人都知道的。”[11]大数据时代,大数据与小数据处于发展和联系之中。对于某个个体或企业的研究,小数据更具有挖掘数据潜力的功能,对于把握事物之间相关性问题,大数据技术的功能更具有优势。科学运用大数据技术表征的方法必须培养辩证思维。因此,要学会运用发展和联系的观点分析数据技术应用中的大数据与小数据的辩证关系,以及大数据技术应用过程中广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证关系。

⒉充分挖掘社会对大数据技术的个化性需求,实现大数据技术表征广义语境性与再语境性的辩证统一。从广义语境看,大数据技术表征的过程包括历史语境、认知语境、科学语境和社会语境。大数据在制造业、零售业、农业、金融业、交通运输业和影视业等行业的应用过程就是大数据技术广义语境因素再语境化的过程。因此,不断挖掘社会对大数据技术的个性化需求是大数据技术实现广义语境性与再语境性表征的前提和基础。目前,大数据技术虽然在很多领域都被广泛应用,但是,从不同领域应用的分布看,大数据应用还处于起步阶段,只有很少量的企业充分地利用了大数据。“为数不多的数据拥有者往往是资金雄厚的垄断者或产业巨头,中小企业则不一定拥有。”[12]大数据被应用的潜力还是很大的。因此,一方面,应通过政府和非政府组织宣传并鼓励企业从观念、技术和管理等层面重视大数据的应用;另一方面,应大力发展大数据技术服务公司,为企业和政府大数据应用提供技术服务。

⒊加快创新型人才队伍建设,实现大数据技术表征解构性与建构性的辩证统一。不同行业和企业的大数据技术表征的过程是大数据技术不断解构和建构的过程。但是,大数据技术引起研究范式的建构和解构需要专业的人才队伍支撑。没有专业的研发团队,大数据技术无法实现建构与解构,大数据仅仅是具有潜在的价值,而不可能转化为现实的价值。很多企业想利用大数据技术,但是人才“短板”成为最明显的制约因素。“麦肯锡公司预测美国到2018年需要深度数据分析人才44-49万,缺口14-19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。”[13]大数据技术在我国的应用正处于高速发展阶段,更缺乏这方面的人才。为此,一是应加大对大数据教育的投入力度,为大数据专业人才的培养提供保障,以满足社会对大数据人才的现实需求。二是应在加大政府和企业管理人员、专业技术人员培训力度的同时,使用好现有的大数据人才。

⒋充分发挥人的主观创造性,实现大数据表征相关性与因果性的辩证统一。每一次科技革命在解放人类体力劳动和脑力劳动的过程中,往往伴随着异化问题的产生。大数据技术革命在改变人类生活的过程中容易使人物化为数据的“奴隶”,重视相关性忽视因果性,进而影响到人类对自然规律的认识,这也违背了科学研究的意义。为消解大数据的异化问题,必须充分发挥人的主观创造性。首先,在数据获取阶段要充分发挥人的主观创造性,实现结构化数据与非结构化数据的有效融合。其次,在数据挖掘阶段,不断开发新的挖掘手段,实现挖掘次数与算法参数的自动调节,即实现机器学习。第三,在数据分析和使用阶段,通过相关性和因果性分析,更好地发现事物发展的规律,进而指导大数据库建设和大数据在实践中的应用。

⒌培育大数据文化,实现大数据表征预测性与实时性的辩证统一。大数据技术一旦被企业和民众所采用,大数据技术就将物化为企业和民众的行为习惯,影响企业的生产方式和民众的生活方式,最后上升为社会的大数据文化。“大数据文化就是尊重事实,推崇理性,强调精确的文化。”[14]大数据文化约定了大数据被收集、存储和记忆的时间。大数据文化从观念和制度等方面渗透到不同主体的行动中,指导和规范政府、企业和民众的行为。所以,在大数据时代,应重视培育大数据文化,规范和约束不同群体的行为,尽量减少虚假信息的产生和传播,尊重不同群体的隐私,缩小不同群体之间的数字鸿沟,形成良性的大数据技术表征的社会文化氛围。

总之,大数据时代,我们既不能过分依靠大数据,认为大数据是万能的,也不能冷漠地看待大数据,认为大数据技术应用只是“昙花一现”。必须运用辩证思维,科学地对待大数据技术表征的方法论特征,在大数据与小数据之间,大数据技术表征的广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性方法之间保持必要的张力,充分发挥好大数据技术对社会变革的功能。

教育期刊网 http://www.jyqkw.com
参考文献

[1][2]魏屹东.科学的维度及其广义语境解释模型[J].自然辩证法研究,2002,(02).

[3]邬贺铨.大数据思维[J].科学与社会,2014,(01).

[4]邓仲华,李志芳.科学研究范式的演化[J].情报资料工作,2013,(04).

[5][6][10](美)维克托·迈尔·舍恩伯格.大数据时代[M].盛杨燕,周涛译.浙江人民出版社,2013.67,72,193.

[7][12]郑志励.喜忧参半“大数据”[J].中国图书评论,2013,(08).

[8]黄欣荣.大数据对科学认识论的发展[J].自然辩证法研究,2014,(09).

[9]徐艳.大数据时代媒体发展的SWOT分析[J].理论学刊,2013,(07).

[11]车品觉.没有大数据神话[J].管理学家,2014,(04).

[13][14]胡少甫.“大数据时代”给当今世界带来的变革与挑战[J].对外经贸实务,2013,(12).

(责任编辑:牟春野)