关于大数据和分析你需要知道的三件事

“大数据”和“分析”现在被广泛使用，但在很多时候，它们却没有被明确定义。管理者们应该了解这两个概念的真正含义，并知道如何利用它们提升公司的供应链。

王文博曹璐

最近，“ 分析” 和“ 大数据”概念被媒体、咨询机构和软件供应商大肆宣传。当中有些宣传是合理的，毕竟一些公司的确需要分析和大数据的帮助去改变它们的经营状况。但是大多数的供应链管理者并不了解“分析”和“大数据”的真正含义。

一方面，越来越多的公司发现可以从对数据的应用中得到竞争优势。另一方面，公司对供应链管理者们理解大数据和分析的能力提出了严苛的要求。在供应链管理者们知道如何将大数据分析应用到实际工作中之前，他们除了需要知道大数据与分析的具体含义之外，他们还需要知道他们能做什么。带着这些问题，接下来让我们看看供应链管理者们必须知道的三件事情。

“大数据”三种普遍接受的定义

关于“大数据”，事实上有三种普遍接受的定义。每一种在不同侧面都对供应链管理者们有着相当的价值。

第一个，是以信息技术为中心的定义：对于现在主流的数据存储与检索系统而言过于庞大且复杂的数据量。换句话来说，你无法简单地把“大数据”存储在标准的数据库中，并提取你想要的数据。这是一个以信息技术为中心的定义，因为它重点关注在信息存储与检索的技术和使用新型的服务器与软件上，例如“Hadoop”，这是一种在技术上比标准关系数据库更先进的数据库。它可以令使用者存储和检索成千上万台分散机器的非结构化数据。以Facebook 为例，Facebook 使用Hadoop 存储庞大的非结构性数据。

供应链管理者们不需要知道这些技术的细节。但是他们需要意识到，如果为了商业目的，他们也应该收集和分析数据。打个比方，如果在你的生产车间、仓库和卡车上有数以千计的传感器，你有很多方法去分析那些传感器收集的数据。比如，你可以利用这些信息更好地预测机器什么时候会出故障，或者利用这些数据提高卡车的燃料利用效率。又或者，你的客服团队记录下顾客的语音留言和邮件，你可以分析这些数据去帮助你的公司提供更好的服务。

信息技术领域的专家更倾向于觉得这个“大数据”的定义已经足够了，但是从管理者的角度而言，下面的两个定义同样有意义。

第二个“大数据”的定义来自于Viktor Mayer-Sch?nberger和Kenneth Cukier 的书《一场改变我们生活、工作和思考的革命》。在这本书中，他们将“大数据”定义为一个既定主体数据的“宇宙”，其作者认为有两个重要意义。

第一，一旦获得了所有的数据，通过对数据的整合处理，也许可以洞察到人们以前从来没注意到的东西。例如，如果我们获得了一辆卡车在车祸前的一切运行数据，我们可以更好地判断是什么导致一场车祸，并对此加以防范。因为意外发生事故的概率是极小的，所以普通的数据样本并不能满足寻找相关性的要求。

第二个重要的意义是拥有这个数据的“宇宙”可能具有非凡的价值。例如，现在进行一场关于农业产业化的生动辩论。大型的种子生产商说如果农民们把他们土地质量的详细数据交给生产商，具体到每个平方英尺土地的质量，生产商们就可以大幅度地提高农作物的产量。显然，增产增收是好事，但农民们意识到如果种子公司拥有了每一个农场的每一平方英尺的具体数据，他们有可能把这些数据用于农产品期货的交易上，如此一来，农民们更偏向于保护他们对这些值钱数据的拥有权也就情有可原了。

供应链管理者们需要注意到两个重要的点。第一，你收集到的数据可能有除了原有目的的其他经济价值。第二，对于你给出去的数据，其他组织有可能将你的数据挪作他用。

关于“大数据”的第三个定义来源于大众媒体对它的使用。媒体喜欢把一些对数据新颖的用法也贴上“大数据”的标签。当你看到这些文章时，你很快会意识到这些文章中讨论的数据流并不是一个既定主体数据的“宇宙”。事实上，这些数据流并不是特别大量，更多的时候这些数据流只是被创新地使用了。

当然，仅仅因为这个定义是媒体大肆渲染的就忽略它的话就错了。事实上，这个定义指出了一些有意义的事情：创新地使用与处理所得到的数据是非常重要的。有时可以以一种独特的方式把数据结合起来，有时寻找一些极易获得的外部数据（例如天气、房子的等级、人口数量）就可以帮助做出更好的决定。

总而言之，供应链经理们可以从这三个“大数据”的定义中获得不小的启发。理解“大数据”是“数据的宇宙”的意思是非常必要的，因为你可能在事情发生之前找出导致小概率事件的原因，或者你意识到你交出去的数据有着其他的经济价值。最后，像采购、货运、资本情况的数据都是你的宝藏，但你需要开始用创新的方法挖掘它的价值。

多样的分析方法

有时“分析”与“大数据”是可以互换的，但是它们其实不是同一个意思。对“analytics”最笼统的定义是：处理，分析数据的能力。然而，这个笼统解释并没有告诉我们“分析”有什么独特之处，而专业的分析师和学术机构已经确定了三种不同种类的“分析”。

第一种，叫描述性分析，它可以帮助你了解供应链情况并将数据显示出来。这是现代商业智能系统的基础。它从你整个供应链和组织结构中收集数据，然后以仪表板，记分卡，并即席查询的方式呈现给经理。描述性分析还包括数据的可视化和地理制图，它们能以普通表格所不能呈现的方式帮你了解这些数据。

第二种是预测性分析，它利用所有你可以得到的数据（内部的和外部的）做预测。它几乎可以预测任何事情，像预测机器什么时候会坏，预测你必须去现货市场增加运输能力的概率，预测你的客户更愿意买什么东西。

最后，规范性分析会分析你的数据和预测，然后为你下一步的行动给出建议。规范性分析一般与优化技术联系在一起。在供应链中，优化技术在帮助经理做决定方面经常被用到，像应该建立多少工厂，建在什么地方，怎么最好地安排卡车的路线，如何安排仓库和工厂的运作，都是它被用到的地方。

以上就是三个关于“分析”的定义，它们一般会根据复杂性和战略重要性排序。描述性分析在最底端，因为考虑到它是最简单实施且是最没有战略价值的。预测性分析在中间，它的实施相对更为困难一些，但带来一定的价值。在金字塔最顶端的是规范性分析，它有着最负责的实施过程并带来巨大的战略价值。

作为供应链经理，理解这三种定义的含义与区别是非常重要的，这样经理们才可以为公司所处的阶段和程度定位。要有这三个维度的判断方向，而不是单一的方向。例如，你拥有一套好的描述性分析去及时反映你的供应链么？你有用预测性分析预测需要和机器的故障么？你有用规范性分析去判断生产和工厂的建立么？

在了解了这三个定义后，可以帮助你为“分析”项目评估。人们有时发现这些项目没有完全依据定义的情况运作。前文介绍的定义能给出一个具体的框架指导人们怎么做和如何对应公司的具体情况。

机器学习的应用潜力

供应链经理们不仅需要拥有“分析”的知识，还需要了解机器学习。机器学习是指一种“集算法”，它在近十年里在多个不同的领域中逐渐发展出来。例如统计、数据挖掘、人工智能。这些算法就是那些新预测性分析的“大脑”。简单来说就是，录入一组数据到机器学习算法中，然后机器学习算法会自动创建一个模型来预测未来的结果或者将数据中隐藏的规律挖掘出来。

似乎让供应链经理们知道机器学习法有点奇怪，毕竟这东西听起来像是计算机或机器人领域的东西。但就像供应链经理们所知道的回归分析一样，他们也应该了解机器学习算法。知道机器学习算法是什么原理和它能为经理们洞悉数据提供什么帮助。它能给你新的可以运用到公司里并创造价值的主意。

供应链经理们应该对越来越被广泛使用的“机器学习算法”有所熟悉。对于某些数据集，这些算法（“K 最邻近分类算法”“决策树”“随机预测”）可以通过梳理出数据集中的潜在模式或处理文字信息得出比传统回归分析更好的预测值。另一些算法则更适合被用来预测事件是否会发生，例如，订单是否会晚、道路是否可以容纳卡车，或者机器是否会出故障。这些都是典型的运用逻辑回归（一种预测可能性事件发生概率的统计学方法）。还有一些算法专门用来理解文字信息——像试图判断一封给各户的邮件是否妥当。这与朴素贝叶斯算法有关（一种用来将输入信息分类的概率学算法）。

一旦看到了各种机器学习算法的力量，你会意识到可以将不同的算法以一种有趣的方式组合起来解决复杂的供应链问题。一些公司的运输部门已经建立了成熟的模型去预测卡车在什么时候装卸，然后如何定价以达到利润的最大化。另一些公司则用算法更好地帮助销售团队决定推荐哪种产品给顾客（和亚马逊和Netflix 所使用的推荐引擎很相似）。还有一些公司则用算法预测库存何时耗尽和如何根据库存的情况调整价钱。供应链经理们应该注意到有不同的方法去处理商业问题。在分析的不同领域中，一个组织中处理问题的好算法会被其他组织发现并使用。例如，“关联原则”一直被食品杂货行业用来判断什么产品顾客更喜欢一起购买。一位零售的电商经理意识到他们可以用同样的思维去想想什么物品更容易被一起运走就把什么物品放在同一个仓库中。这个例子说明，你知道的不同方法和思维越多，你就更有可能把他们运用在你的买卖中。