智能数据：如何挖掘高价值数据作者：比约恩·布劳卿（美国）

章节目录树

第二部分智能数据的循环

具有数据基因的市场参与者区别于普通市场参与者的一点是，他们具有衡量“触点”实际效用的能力，能够将有效的措施移植到同类或者他类客户群体中去，并且他们会迅速终止无效措施。

客户旅程是一个客户所有“触点”的集合。大数据在市场营销方面许下的最大诺言是：基于充足的数据，我们可以估算出每一个客户在“客户旅程”中的行为顺序，并引导这些行为向有利于我们的方向发展。谷歌和苹果宣称它们可以做到这一点，并宣称这样对它们的数字产品有好处。此外，就没有人再能够做到这样了，就连亚马逊也不行。

同一个决策者，当听到公司已经拥有200万个客户时，这也许对他来说是个好消息。但是，如果他随后又听到，在这200万个客户中，“我们只掌握20万个客户的邮箱地址，而其中还有1/3我们无法确定是否还在被活跃使用”，那么这个决策者可能会感到不安。市场数据并不能算是可靠稳定的信息，通过购买方式获得市场数据也比我们想象的贵很多，这也是很多公司至今没有花钱去额外购买市场数据的原因之一。

☆在市场定位不精准。

☆我们了解了需要哪些数据辅助我们寻求问题的解决方案。

☆产品营销部门优先考虑的是消费者类型。这基于一个根本性问题：对于某个具体产品或者服务，我们如何能辨别出一个人

在各行各业都存在着这种或好或坏的客户细分。我们也看到，各个层面的市场主体都在努力尝试，通过利用更优质的数据达到更精准的客户分类，为客户分类补充新的维度和标准，使之达到与时俱进的水平。这样做肯定是对的，也有好处。但是却没有解决一个根本性问题：

如果我们想更好地吸引客户，我们就必须要知道，在购买之前，客户是怎么知道这个产品的，他在来买东西的路上都经历了什么。即便在数字化时代，还是需要了解这些情况的。数据仅能够帮助我们，在每次与客户实际接触的“触点”，丰富我们对客户的了解。上一句话的重点是“每次”。

总的来说，在智能数据流程中，我们可以基于更智能化的聚类分析，总结出具有良好投入产出关系的市场营销措施。此处，智能数据聚类分析起到了决定性的作用。因为，得益于规律性重复的、集成化的交易数据、互动数据和消费行为数据分析，智能数据流程不仅仅只是更准确地表述一个客户购买某个商品的可能性有多少。作为一个自学习系统，智能数据流程还能够描述出客户将会在何时、通过哪个渠道、以怎样的价格购买。

在《我们的数据》一书中，我们将这种理论上的市场全景图称为“市场拼接图”。完全竞争环境下的市场主体可以随时、按需要的“粒度”审视这张“市场拼接图”。在《我们的数据》这本书中，我们认为，最好的地图就是比例尺为1：1的地图，但是这样的地图肯定很大，装不进后备厢里了。三年来的实践经验和其后的数十项智能数据分析让我们更加相信，“市场拼接图”很有可能会停留在一个自相矛盾的营销梦想阶段。在所有企业中（我们认为在所有企业中都是这样），数据资源都在被荒废，在尊重数据保护基本政策的基础上，通过利用这些数据，可以总结出有效的市场营销措施。

提出自己独特的销售主张

•是否知道这项产品或服务

从毕加索所生活的时代到现在，信息技术的发展是否明显快于现代绘画艺术的发展，这个问题的答案是开放性的。可以确定的是，计算机系统在处理艺术问题方面始终有些困难，比20世纪60年代信奉科学技术的未来学家预言的还困难。IBM的沃森认知计算系统可以解码语言，能够理解上下文的意思，可以基于前期输入的报纸杂志信息和维基数据库回答测试题目，回答速度和准确度超过之前任何一位《危险边缘》人类冠军。但就算现今我们超智能的IT系统很聪明，能够提出令人感到意外的问题，它们大部分还是存在一些问题的。

相应地，在智能数据分析流程第五阶段首先要做的是，沿着下列引导性问题的思路，分析客户的“触点”。

☆不用非要获得大而全的数据量。试验证明，基于现有30%的数据以及既有的数据质量开展数据分析，我们就可以获得更好的增值。但同时阐明，这仅仅只是起点，每一次数据迭代更新都会带来惊人的“学习效应”。

☆当我们改善客户咨询服务后，我们可以优化A客户分组内的客户关系。

在分层聚类分析过程中，不需要事先就确定簇的数量，这对模式探索型的聚合分析流程来说是一大优点。然而，在划分聚类分析中，必须要预先就确定好簇的数量。总体来看，划分聚类分析的各种方法间存在共性，都是根据预先确定好的簇的数量选择出相应数量的对象，将每个对象的初始值作为单一簇的平均值或者中心点，然后反复调整聚类划分，直到误差函数最小化为止。其中，最著名且应用最广泛的误差函数是K均值（K-Means）算法：先根据既定的簇数随机选择出相应数量的对象，将这些对象的初始值作为每个簇的平均值，对剩余的每个对象，根据其与初始均值之间的差异程度，将其归入相应的簇。然后再重新计算每个簇的误差函数平均值。这个过程不断重复，直到每个簇中各对象的差异不显著（或者说误差最小化）。

☆提升某一个已识别的聚类中客户的购买意愿呢？用市场营销术语表达，就是我们能够常常让客户按下“购买键”。

如果想有一个概括性的认识，那么最好是视项目的复杂程度，采用单一或者复合图表的形式，将数据可能带来的增值（数据吸引力）和获得数据需要付出的成本（数据可获取性）之间的关系呈现出来。

市场份额不断下降的情况是客观的，我们面临的问题与30年前、60年前和90年前没有差别，即我们如何去阻止这种下降。

在总结并了解了在既有“触点”的互动情况的基础上，我们可以开始考虑一个问题：对某一聚类客户来说，可能的新“触点”有哪些？采用何种措施可以对他们产生怎样的效果？此时，关注一下其他行业、国家，尤其是其他创新型企业的经验，可能会有所帮助。

然而，特别是在智能数据流程的第四阶段，提出具有普遍性的智能USP和市场营销法则是很难的，甚至不可能，这是由第四阶段本身的性质所决定的。因此在本书的第三部分，我们会列举很多案例，这些案例试图去提出独特的销售卖点，为智能化的客户营销（在对的时间、采用适当的营销话术、提供适合的产品）奠定了基础。

日常生活的实践经验可以让我们认识到：

需要注意以下几方面：

☆在X客户分组内，有可能通过捆绑销售实现交叉销售。

☆如果需要去评价多渠道的效用或者去评价企业市场营销效率的标杆管理情况，那么可以采用数据包络分析方法。这种致力于绩效优化的分析方法是基于一种理念，即为不同的公司或者众多渠道的投入变量设置相应的产出水平。这个分析方法的优点之一是，每一个分析流程仅需为数不多的数据点。

此处我们指的是，创意讨论会经常会出现一种情况，就是整个讨论组都陷在一个思维方向里，会从个别的观察现象中推导出一些普遍原则，然后很快就会上升到对事物规律性的认识，尤其是当领导也有这种思维认识的时候。我们称这种现象为归纳式思考。比较少见的是，一个创意讨论组具有市场营销的理论构想，同时也发现了自己的问题，但是却忽视了所有理论上不会发生的情况。我们倒也经历过这种推论演绎式的思维态度，这也是有百害而无一利的。

2.协同过滤分析方法：这种分析方法是通过对比客户（例如网站用户）的喜好和购买情况，实现向客户推送个性化推荐建议。从严格意义上来看，与其说这种方法是一种统计学算法，倒不如说是一种特殊的过滤和比较逻辑。这种方法具有应用简单、运算强度低等特点，因此特别适用于处理大量数据。这种方法的缺点是，我们必须先期对目标客户有一定了解，才能为其推送有价值的推介信息。我们对客户的了解越多，我们越能够为客户提供更好、更精准的建议。这跟此前提到过的自学习系统概念是相吻合的。

有一次，一位企业管理者迷惘地说：“我原来认为，只要打开潘多拉的盒子，就自然会有新想法出来。”人们就是这样盲目推测大数据的魔力的。当然，人们会从数据中获得很多认识。数据分析会变得越来越智能化，但前提是要选择正确的问题作为出发点。这些问题不是关于对某一行业前世今生的（大）数据分析。最好是召集5~10个来自不同项目背景的聪明人，坐在一起共享一下他们精通的范畴，例如对商业模式的理解、对不同价值链领域的专业认知（可以是市场营销、企业运营、售后服务、采购等方面）以及对某一个数据驱动下的解决方案的发展潜力的看法等。然后，提出具有较大思维开放性的问题：

让我们暂时先把市场营销的事情放下。在一个广告宣传和产品销售更完善的世界中，极其智能化的客户聚类分析应该是什么样子的呢？我们可以设想一下。在这个世界中，宣传这个概念不再适用了，因为一对一的交流更像是对话，而不是宣传。针对具体的交易是如何发生的问题，产品价值和客户社会从属性因素的指导意义也逐渐弱化。我们不再按照年龄、收入或者最喜爱的汽车品牌等因素划分潜在客户类型。我们已经意识到，消费者本身具有复杂的特质。对于每一个消费者而言，在其做出每一次购买决策时，考虑的因素都是完全不同的。真正的智能数据聚类分析可以告诉我们，在不同的消费情境下，影响单次购物决策的因素都有哪些。相应地，以具体客户为中心，可以为每一次购物决策提供量身定制的分析结果。在极限情况下，每一个细分类别中仅存一个客户。

2.哪些因素会加速或延缓“客户旅程”，且客户会在后续“旅程”中仍然需要这些因素？

智能数据市场营销的“黑盒子”

☆提升必要的市场营销措施的盈利性？或者我们可以准确地预见到，哪些市场行为可以让我们实现盈利。

举个例子。在贸易中，一个典型的问题就是，我们不认识客户。客户进店的时候我们不知道他的名字，走的时候我们一样还是不知道，除非这个客户持有会员卡。我们可以期待，会发明一个客户关系管理系统，通过蓝牙、信标或者客户App等方式，帮助我们识别进店的客户是谁，并且将全套客户信息发送给店铺柜台。但是无论如何，我们现在还不知道，哪些正在测试的系统将来会投入使用，以及有多少客户会使用这些系统。

分层分析方法的优点是，不需要事先就知道簇数，而是借助于统计学参数预估出理想的簇数，从统计学的角度出发，理想簇数的确定需要考虑到组内同质和组间异质之间的平衡问题。分层分析方法的缺点是，计算量非常大，且只适用于小规模的数据量。很多时候，分层分析方法被用于分析通过社会调查形式获得的数据。分层分析流程也适用于从大数据中进行随机抽样，目的是获得稳定的分类并且确定簇的数量。后续，数据科学家会采取分区操作，将聚合结果扩展到整个数据库。

第4章五步流程实现增值

客户细分的目的是，基于现有数据的特征，将客户识别为尽可能同质的，或是尽可能彼此异质的群组（簇）。在将相似的要素进行分组或在发现数据中潜藏的模式方面，存在着不同的操作方法，这些方法源自机器学习领域“无监督学习”范畴。最重要的几个分类操作方法如下：

☆智能数据分类的起点，是智能数据流程的第一和第二阶段所总结出来的初步想法以及问题清单。它们能够提示我们，哪些关键领域需要进行细分，甚至包括相关的细分维度。

☆对部分客户来说，我们的产品太贵了，市场购买力没有达到这种程度。

在每个“触点”，无论是当前、潜在或是老客户，都或多或少地对一个商品、一项服务、一个品牌或者一家企业有所了解，即客户有前期的客观知识储备。但是同时，客户也会有感官认识，或强或弱，或正面或负面。（潜在）客户基于认知和情感两方面的经验，会在内心勾勒出关于产品、品牌或者企业的形象，即所谓的印象。印象经常与态度密不可分。

在理想情况下，客户集成分类是这样的：公司内所有市场营销以及和运营相关的职能部门都使用同一个由社会人口统计学、心理变量、交易数据信息聚合而成的信息池。我们可以把这个信息池想象成一个多维立方体，IT专业语言称其为OLAP数据集，OLAP意即联机分析处理。通过持续性地分析客户考虑问题的视角，数据集可以推测出影响购买的因素，并建立对这些因素的统一理解。反过来，一旦这种统一理解得以建立，公司内所有的部门就可以或者必须重新审视一下自己部门所处的这一环节，并调整自己的工作，使其与部门的职能定位与工作任务相符。

有时候，在客户细分方面缺乏一致性的影响并不明显，因为不同的部门终归还是在市场上各自为战。继而可以预见到的是，适用于某一个部门的广告传单，可能没有具体反映公司的整体情况，也未对公司整体业绩产生积极影响。这种传单对促进销售额增加的作用也就一目了然了。

☆通过动态利用统计学分析，我们可以更好地调整针对单一客户的市场营销与经营活动。

2.划分聚类分析

2.销售收入和净利润来源于何处？

当大数据解决方案尝试从尽可能多的数据中意外地发现事物之间的联系或者分类时，智能数据集成分类是有目的地先行一步。起初，只是处理一些日常可得的数据信息，例如交易数据。基于所有关键数据点，数据科学家可以将所有交易数据进行统计学分类，以行为作为分类依据，将数据分为不同的群组。接下来，可以总结出一些具有说明性质的数据特征，例如人口统计学特征、客户价值和需求等。明确的数据特征使提出适合的“独特的销售主张”（简称USP，详见智能数据流程第四阶段）成为可能。基于交易数据的基础客户细分再反过来促进我们与客户的日常沟通。

这两个问题的答案就是智能数据分析流程的下一阶段：提出自己独特的销售主张：此处我们探寻的是“是什么”的问题，即我们要改进产品的哪些方面。至于“怎么做”的问题——我们希望如何满足客户需求，我们放到下一阶段去讨论。

☆客户需求（尤其关注老客户需求）

我们的企业现阶段为什么没有成长，存在以下5个主要原因：

目前既存的系统化聚类分析流程都是将一个因素明确地归入某一个簇中，这是所谓的“硬流程”。模糊聚类分析属于“软流程”，即某一个因素可以被归入一个以上的簇，换句话说，就是在识别聚类从属性的不同等级。模糊聚类分析中最有名的算法是模糊C均值（FCM）。首先假定每一个被观察对象都能够或者倾向于被归入一个簇，那么处于簇中心位置的被观察者归入这个簇的可能性高一些，处于簇边缘的被观察者纳入这个簇的可能性相对低一些，或者说簇边缘的被观察者也有可能被纳入其他簇。

有时，这些措施可能听起来非常诱人，比如我们需要开发一个App，通过使用这个App，我们可以做到实时地识别客户、了解并满足客户需求。但是，大多数时候情况却是相反的，清单上的那些措施都听起来非常切实、基础，但最终只能面临被彻底忽视的命运。

智能数据流程是一个自学习系统。

正确地吸引客户

在探讨“是什么”时，经常会出现的情况是讨论泛滥。原因是，这个问题的答案范围本身就很宽泛，答案有可能是“我们需要适当调整一下直邮策略”“在周末开展打折促销”，或者“做广播广告以提高知名度”，甚至是“我们还是干脆换一种产品吧”“我们需要彻底改变我们的网点选址策略”。

☆目前我们已经掌握的哪些数据源可以帮助我们找到解决办法？

如果我们想更好地吸引客户，我们就必须要知道，在购买之前，客户是怎么知道这个产品的，他在来买东西的路上都经历了什么。

在一个智能数据分析流程开始之前，寻找到合适的起点问题的诀窍是，把自己看作一个成员，真正参与到整个思维活动中去。美国创新研究人员，例如汤姆·凯利（Tom Kelly），将其称为“初学者心态”。这种在基本态度上有意识地保持一定开放性的做法，有助于我们不被过多的细节所迷惑，不受之前策略失利的影响，专心关注业务上的问题。这可以帮助我们去探寻不同问题之间的联系，而在此之前，可能都没有人意识到这种联系的存在。

“好问题”的答案是明确的，通过这些答案可以建立一个决策树。通过决策树调整统计学聚类分析结果，我们会发现，聚类分析不一定能够百分之百贯彻下去。在理想情况下，90%以上的客户会被明确地归入某一类。70%~80%的聚类程度是可接受的水平。如果聚类水平低于70%，就不足以获得清晰可辨的分类结果。原则上，我们此时就可以判断我们初步设想有问题。在这一点上，大家的观点也不统一，不过及早地意识到这一点，并提出新的设想，重新运行一次智能数据分析流程，也没什么坏处。不准确的细分无疑会导致瞄准错误客户或者采取错误的市场营销措施，从而给公司造成损失，重新运行总比遭受这些损失要好。

☆在Y客户分组内，具有通过提供更高附加值产品实现向上销售的潜力。

4.模糊聚类分析

然而，如果把“客户旅程”概念作为总体方向性框架或者至少是一种思维模式来看，却是十分有价值的。它可以帮助我们确定，在每一次我们与客户具体接触时，客户处于“旅程”的哪一个阶段。某一客户是刚开始对一个商品感兴趣，还是对某一个商品的兴趣已经逐渐增强；是已经开始考虑购买，还是说仅需再营销一下就肯购买了。它能够帮助我们建立与客户新的“触点”，检测这些“触点”在“旅程”中的意义与作用，同时，随着时间的推移，我们可以更好地了解客户喜好。更重要的是，通过早期并持续地关注“客户旅程”概念，我们得以对“客户旅程”与“触点”概念有更好的理解，不会因无知而在新的数字化或者固定“触点”（例如App或者分支机构）方面大量投入，致使企业遭受损失。目前，企业在理论层面发现了很多“客户触点”，并在从理论向实践转化方面进行了大量投资。但遗憾的是，这些投资决策并没有考虑到这些“触点”是不是客户所希望的，这些“触点”在“客户旅程”中发挥什么样的作用，同样，也没有衡量这些“触点”的效用。举个例子，如果我是一个汽车生产商，只有当我清楚了，固定的贸易基地将来会在“客户旅程”中发挥怎样的作用，我才会知道如何去安排和设计这些基地（可以将贸易基地与数据化“触点”相结合，例如在贸易基地中使用“组态程序”来测算汽车贸易商的到店频率，还可以在贸易基地中安装电话会议设备），才会知道我需要保有多少基地才够用。我们并不是通过在方案设计阶段不停地思考来获得这些问题的答案的，而是通过在一开始就智能地利用数据，不断进行试验，同时分析试验的结果。

在进入智能数据流程的第二阶段之前，我们先拿出之前列好的初步想法清单和热图。按照下列三个启发性问题的次序逐一考虑清单上的假设。

在一个企业中，如果同时存在太多的客户分类，那么相应推出的市场营销手段将在市场上呈现“打乱仗”的状态。

换句话说就是：在每次市场营销措施实施之前，基于重要的购买影响因素，一个反应性能良好的、持续自学习的IT系统会整合出一个全新的聚类，并将单一客户有目的地归入其中。

在这个阶段，数据分析只有一个任务，就是推出基本观点并进行论证。到了下一步，任务就发生了改变，创意讨论组需要转变视角，并思考：

密度聚类分析背后的逻辑是，将被观察者视为一个空间内的点，尽管这些观察者之间存在很多差异化特征。首先我们要识别出这个空间内的高密度区和低密度区，并以此为基础建立起簇。这种分析方法的核心流程就是所谓的“具有噪声的基于密度的聚类方法”（Density-Based Spatial Clustering of Applications with Noise，简称DBSCAN）。根据这个空间内点之间的距离，我们会识别出密度最高的区域，并将这个高密区内的点作为核心点。还有一些点处于中等密度区域，我们将这些点称为边界点，被归至周边的簇。还有一些点，分布非常稀疏，我们将这些点称为噪声点。DBSCAN分析方法的优点之一，是不需要提前就确定簇的数量，这与分层聚类分析法有异曲同工之妙。与K均值分析法相比，DBSCAN方法具有一个关键优势，即可以识别非线性聚类，并可以有效对抗异常值。但是当空间簇的密度不均匀、间距差相差很大时，DBSCAN聚类质量较差。DBSCAN是相对比较新的聚类分析方法（1996年才被提出），目前已经发展成为机器学习领域最重要的算法之一。

☆如果需要去分析并评价已确定的KPI（即关键绩效指数，例如ROMI，市场营销投资回报率）的驱动因素，统计学家大多会采用验证性因子分析方法，特别是回归分析。这种分析流程的目的是，尽可能地通过其他因素去解释一个目标变量，并且揭示出不同因素对这个变量的重要性及作用强度，以期能够实现对KPI的有效管理。验证性因子分析方法最常见的应用是用于市场营销有效性研究项目。

数据怎样能够帮助我们寻找到解决上述问题的更优方案？

所谓的“好问题”（Power Questions）可以帮助我们，将客户归于某一细分类别中。例如可以这样提问：

以数据为基础的价值创造的潜力不一定来源于数据本身。

☆购买驱动因素（价格、产品、种类、咨询、服务、地点便利、舒适性）

☆聚焦企业经营中出现的实际问题和发展潜力，可以促使企业明确目标和措施，这个恰恰是许多具探索性的数据项目所欠缺的。

以智能数据为基础的市场营销会分析每一个“触点”的数据，在策划市场营销手段的时候会参考分析结果。我们需要始终去关注，采取某种市场策略是否值得。我们不需要去满足每一个我们认为有价值的客户需求，因为这样做成本太高。聪明的企业会为客户提供多种选择，去塑造客户的“客户旅程”，使之向企业所期望的方向发展。

通过这样反复的迭代更新，我们将能够更好地满足更多客户的需要。

在可预见的时期内，在大多数市场领域，我们并不认为单一客户的“客户旅程”是可以全然被预测并操纵的。不同客户的“客户旅程”是完全不同的，它与情境密切相关，且十分复杂，已经超越了我们当下能够近似模拟的程度。甚至连客户自己也不清楚自己“客户旅程”的下一步是怎样的。每一个客户在每一次购买决策之前，都越来越频繁地改变选择方向和购买目标，走了未预见到的捷径或者弯路，迷失在决策逻辑中，或者选择了其他种类的商品。总之，详细地去分析个人的“客户旅程”的效果低于预期，且与运营费用投入无关。很快就会产生边际效应。

直白地说，就是将已经明确的问题写在“创新实验室”的书写墙上（要是没有，那就写在挂图上好了），然后讨论组的成员（才第一次）通过头脑风暴的方式探讨具体方案，去发现新机遇或者去解决现实问题。通过这种方式，会获得一个长长的入围清单，列出数个有可能的具体措施，目的都是为了进一步释放数据驱动的潜力。

☆目前，我们究竟是在哪里与客户产生接触的？

☆一个时常被低估的数据来源是“丢单分析”。这对价值高、数量少的产品和服务作用明显。经验证明，客户非常乐于回答某些问题，比如你为什么没有购买某辆车。当一个客户在一次试驾过后，就再也没有出现在汽车店里时，我们必须要联系他并且询问他问题出现在哪里。此时，从相对小的“丢单分析”信息池中，我们可以归纳出有价值的认识，并采取相应的市场营销手段。

客户细分黑盒子

☆如果我们能够放宽退换货的条件，从长期来看，便可极大地提高客户贡献度。通过市场潜力分析，我们应该能够确认，在不影响盈利的情况下，我们在哪些业务上可以这样做。

☆在数据驱动的市场营销中，最常见的分类问题是将人分配至既存的聚类组中。借助决策树可以建立起最优分类原则，尽可能地将人员分配至恰当的分组中。决策树是最有效的分组方法之一，应用方式极为灵活，易于理解接受，并且通过算法的不断优化，例如随机森林算法，决策树也适用于较大量的数据分析。

☆由于售后服务太差，导致我们流失了很多客户。

讨论组新鲜但具批判性的观点也渗透到了早先的一些认识中。起初我们认为，人们在感性上关于投入产出的估计与著名的帕累托法则（80/20法则）不是特别吻合。现在我们觉得，一些想法之所以会产生出来，有可能完全是因为出于某种原因，这一讨论组更喜欢执行这种想法。总之，这些想法不能像变戏法一样被凭空编造出来，也不应该被当作儿戏。此时我们需要做到明确地提出问题，业务问题越是被明确地提出来，越容易被转化为一些初步的工作设想。在智能数据分析流程的早期阶段，这些设想肯定是粗线条的，可以采用下面的形式呈现出来。

☆集成分类为公司各部门提供了统一的客户描述，在很大范围内减少了因各部门之间客户理解不同而对客户营销带来的“摩擦损失”。

多维度的统计学细分流程如果想起作用，那么首要的就是对使用者而言，分类结果不能太宽泛。举一个分类结果宽泛的例子：有一个关于消费者的聚类分组，组中九成的消费者收入较高；85%的消费者是稳定客户，并且会关注商品的质量、安全性和售后服务；组中的消费者平均家庭人口在2~3人之间，每月平均支出980欧元用于家用，这其中有430欧元都是在同一家商店消费的。企业如果希望通过聚类分析来获得决策支撑，那么分类结果所要描述的特征应该尽可能少，并且清晰可辨，这样对企业来说容易理解、易于操作。

☆我们在那里究竟是怎样与客户产生相互作用的？

理论上的东西就介绍到这里。数据分析领先者会越来越多地将理论应用于实践。对此，他们需要具有战略性的远见，并对理论转化为实践的过程有足够的耐心。但我们相信，这种投入是值得的。

我们后续还会详尽地论述这一问题，这里先提一下：

数据本身对市场营销是没有价值的，只有通过统计学过程去处理分析数据，才会带来有益的认知。不同的分析目标，需要的统计学流程也是差异化的。在此，我们大概介绍一下：

[1]即那些不会再被访问的数据。——译者注

•是否需要这项产品或服务

大量研究证明，从长期来看，以客户为中心是最重要的竞争优势。市场越是朝着以客户为中心的方向发展，就越需要清楚准确地掌握客户情况。在一开始越是看重客户细分，客户细分的逻辑越精确，那么后期在策划和执行市场营销措施方面的投入就越少。

☆我们有（越来越多的）可能去正确评估某个单一客户在某个商品或者具体商品组合上的销售额贡献潜力。

通过在各分类组中的系统性对照实验，我们可以检测出，哪些产品变量在哪个客户分类组中可以取得最大的盈利效果。然后，在智能数据流程的下一阶段，我们可以进一步地校准我们的认识，综合考虑销售时机、销售渠道等因素，使USP更加具有针对性，从而一步步挖掘客户潜力。

3.它们产生于价值链上的哪一环节？

•是否会购买这项产品或服务

首先，按照不同部门描述企业面临的最大机遇和（或）存在的问题。会议的主导者必须注意，不要让讨论会向着归纳或者推论演绎式讨论的方向发展。这具体是什么意思呢？

☆营销战略部门按照心理因素进行客户分类，致力于探究客户价值和客户需求。这方面的一个例子就是目标客户模型Sinus Milieus，或称Sigma Milieus，即基于人群的市场细分模型。除了社会阶层从属（即社会地位）之外，这个模型还考虑了其他一些主要的影响因素，例如传统、现代化（个性化），还有自身重新定位等。战略规划者认为客户分类应基于他们的生活环境，这对企业的长期定位和战略规划来说无疑是有意义的。

市场营销人员不需要精通，也不需要深入理解这些数理统计学原理。但需要知道的是，原则上，对交易数据的分析是起点，进而去分析交互数据和市场研究数据。智能数据分析和传统的聚类分析方法的目的一样，都是尽可能地分析出同质群组中清晰可辨的消费者行为特征。获得一次性、静止的分析结果不能算作数据分析成功，我们需要的是每月、每天甚至是实时都能进行动态分析。

“更好地了解客户需求”。这九个字可谓是数据革命给予服务业最大的承诺。作为全球最大的在线商店，亚马逊很好地示范了在数据库基础牢靠的情况下，针对单一客户市场，它是怎样将数据革命的愿景转化为现实的。在线商店将数据资源嵌入到它们的系统中，作为发货商，在线商店可以获取所有客户的名字和地址信息。通过分析在线消费者留下的信息痕迹，在线商店可以更准确地定位到潜力客户群体。虽然在线商店不是真的对它们的消费者有私人了解，消费者对它们而言只是以不同的IP地址形式而存在，但光是这些IP地址也留下了内容丰富的购物信息，这对在线商店来说有很大用处。

与传统的聚类模型和与之对应的市场部门相比，智能数据分析至少可在下述5个层面为企业带来可量化的竞争优势：

真正的智能数据聚类分析

3.密度聚类分析

我们可以从细节的集合中获得关于整体的认识，而通过全局性的眼光，我们也可以更好地了解市场和单一客户。

☆定期的促销活动往往针对的不是低端客户。恰当的分析可以帮助我们识别出潜力客户，我们必须将优惠活动控制在潜力客户范围内。

☆客户买婴儿用品吗？

☆我们需要为我们的外勤人员配备类似iPad平板电脑的设备，通过与同类客户数据信息的比对，这些电子设备可以给销售人员提供诸如某一个客户购买同类产品的记录，以及促进某位客户追加购买的具体营销话术建议等。

在智能数据流程进入第三阶段之初，我们需要先系统全面地评价公司现行的客户细分情况。然后我们会很快地发现，不同部门之间遵循着完全不同的客户分类逻辑。在一个企业集团中，往往会有数十种客户分类共存。当我们系统梳理并回顾之前的工作，会呈现出如下情况：

一些小型企业偶尔会开展一些智能数据项目，在这些项目中提出的初步想法只需示范性地具有一定抽象性就可以了。然后，便可以开始去探寻数据源头，目的是更合理地实现为产品定价、满足客户需求或者是优化区域运营管理。然而，在一些大企业的智能数据项目中，按照不同的业务范畴和不同的价值创造阶段，这些初步设想会被系统性地区分开来。此处就会用到在第3章中介绍过的“热图”工具，主要是用于结构化地详细解释并定量分析这些以数据为基础的价值创造手段。这样的话，一个项目可能会持续3~4个月的时间。

很多与我们合作过的公司，本身都不是纯在线供应商。它们一般都来自相关领域，后来创立并扩展了数字化业务。它们服务于单一客户，并且会要求雇员尽量去满足客户的个性化诉求，并提供客户咨询。但是它们现行的市场营销和企业运营措施中的绝大部分是基于客户细分，或者说是基于一种建模——这个模型致力于寻求客户行为的普遍规律。

☆在Z客户分组内，清晰说明服务内容，可以有效提高客户口袋份额。

下面举几个简明扼要的好例子：

☆对特定目标客户群来说，我们的产品缺乏吸引力。

为了进一步说明这一点，我们拿银行业举例子，银行业受制于严格的数据使用限制，目前还没能够做到精确地满足客户需求。将来，银行不需要再按照年龄、收入等标准将客户归类，例如这个客户31岁，月收入2600欧元，按照储蓄账户的工资记录可以推测出他在一个大集团的子公司工作，他有一辆大众POLO汽车。相反，即便这个客户还没有在银行开立贷款账户，银行也知道，无须再去向他推荐住房抵押贷款业务。因为，这个客户刚刚被系统归入了一个新生成的聚类中：他是一个小朋友的父亲，住在一个新建住宅区内，且已经拥有了房屋近100%的产权。

☆系统性地寻找潜在的合作伙伴开展数据互换。他们可以是供应商、贸易商、金融服务提供商、通信公司或影响力较大的电视节目。这样做的目的是建立一种网络联系，网络参与者在数据方面互相支持，以期获得对客户潜力更准确的认识（有时也包括对单一客户的认识）。

我们如何能够使我们的产品与客户需求相适应，从而……

3.在一个客户聚类中，在每一个“触点”，哪些因素可促成购买？

提出正确的问题

就这样，就是这么简单！此外，还有一个关键点：

产品设计部门的可视化工具特别适合用来展示聚类分析结果。例如，用情绪板展示特定类型客户的生活空间，或者利用Mockups产品原型设计工具呈现出与真实大小一样的实体模型，使同事们对聚类分析结果产生感官上的认识。还有一些企业实现了进一步发展，引进并使用了设计思维工具。它能够让使用者产生身临其境的感觉，仿佛坐在目标客户群体的起居室中，或者仿佛自己是一个客户咨询顾问，坐在一个特定观察环境中的角落里，静静地观察并分析客户行为，此时，对客户分类将会有更敏锐及清醒的认识。

我承认，这听起来更像是自吹自擂的大数据自我营销。在本书的第三部分，我们将介绍一些智能化的企业，他们的经营证实了智能数据流程的优越性；这些企业日渐获得数据竞争优势，却没有陷入“数据自我负累”的泥潭。我们称这些企业为智能数据冠军企业，他们在很多应用领域确实赢得了竞争优势。

☆我们缺少哪些数据，还想进一步获得哪些数据？

1.哪些“触点”对哪些目标客户群体是真正重要的？

问题的维度没有发生改变，因此我们也就不需要引入新的参数或者变量来实现数据分析，况且在数据分析的过程中还会产生新的问题。市场份额不断下降的情况是客观的，我们面临的问题与30年前、60年前和90年前没有差别，即我们如何去阻止这种下降。数据只能帮助我们去寻找更好的答案。更直观的表达就是：

智能数据分析不是从深入的数据分析开始的，而要首先提出具有战略性的初步设想（这个初步想法应具有一定的包容性，可以涵盖企业经营中的核心指标）。在分析人员的组织方面，原则上最好是由来自相关领域的同事组成一个创意工作组，如果决策层、外部专家和客户也能参与进来，就更理想了。最好不要在自己的会议室里讨论，到外面去租一间配有书写墙和桌子的“创意实验室”。如果在讨论前能够去到一些场所，亲自接触客户，也是一个不错的选择，比如去产品旗舰店、营业窗口，或者去一个普通的银行网点，静静地坐在角落里，观察一下客户。

☆通过综合分析交易流水和市场研究数据，我们可以更好地理解客户需求，并可以相应地调整目标客户群体的宣传策略，例如50岁以上的客户。

☆如果我们通过数据分析可以更好地预测何时客流较大，那么我们就可以更合理地分配工作人员，提高客户满意度。

☆通过设置“触点”优先级，我们可以显著提高满足客户需求的效率。

☆如果需要去发现数据中潜藏的范式，在市场营销过程中，大都是希望去识别同质化或潜在的客户群体，那么可采用聚类分析流程。

使用正确的数据

我们应该允许银行合法地使用这些数据，因为IT系统早就可以完成对客户的动态实时分类了。我们不应该让真正的智能数据聚类分析仅停留在想象阶段。我们从银行的客户关系管理系统和账户信息中可以轻松访问这些数据。产生的统计费用很直观，且操作简单。银行的客户不会再收到标准化的银行通知单了，取而代之的是真正符合每个客户实际情况的通知单。这样，客户会觉得银行十分清楚他们的需求，最终，这会为银行带来更大效益。

☆客户基本上80%的结算都要通过转账完成吗？

客户旅程究竟将我们引向何方？

☆客户每个月是至少给我们支付400欧元购买生活用品吗？

4.通过数字化的解决方案，我们可以在哪些范畴内快速提升价值创造水平？

☆与竞争者相比，我们的外部营销业绩差。

1.分层聚类分析

市场是单一客户的集合。如果我们能够准确地认识每一个客户，了解他们的行为驱动因素、实际的购买行为，了解他们的统计学、心理学以及社会经济学特征，了解客户价值以及客户需求（包括显性及隐性需求、必要需求及愿望），他们的信息获得途径，他们对广告宣传的反应及行为，他们可接受的价格范围，购买前的考虑因素，每一个产品种类的顾客份额，他们的品牌忠诚度以及投诉行为，如果我们能够将每一个客户的上述信息都以数据的形式反映出来，我们就能够获得市场的全景信息，了解市场的全貌。从注释学意义上讲，是这样一种概念：我们可以从细节的集合中获得关于整体的认识，而通过全局性的眼光，我们也可以更好地了解市场和单一客户。

“更好地了解客户需求”。这九个字可谓是数据革命给予服务业最大的承诺。

结论：实现增值

我们的目的是要搭建一套自学习系统。

☆当智能数据分类与（大）数据革命的时代精神相悖时：在智能数据分类时，要有勇气对某些有帮助的参数“说再见”。当我们确定，可支配收入因素对购买决策的影响程度是地域环境从属性因素的50倍以上时，未来我们就需要将环境数据排除在考虑范围之外。此时也要考虑80/20法则。

物理学家和统计过程控制的创始人威廉·爱德华兹·戴明（William Edwards Deming）曾说过：“我们只信仰上帝，其余的人都得拿数据说话，我们才会相信他。”

我们这样做的目的，不是去创造出一种产品，使其能够适应全部组别客户的需求。能做到这样当然好，但这不现实。相比之下，我们更需要做的是，塑造出具有现实意义的、有市场吸引力的、能够经受住市场考验的产品线，并以数据为基础，不断地去优化它。

4.在每一个“触点”，我们可以通过采取哪些措施提升市场营销效果？

市场营销或者经营的目标“任务书”不会因为引入使用了大型计算机或者云计算而发生根本性改变。市场营销和销售人员必须一如既往地关注如何提高市场份额、发掘与开拓目标市场、提升零售业务顾客份额、防止老客户流失、提升客户间推荐频率、增强市场营销措施的影响力，等等。

☆我们了解了如何更好地走近客户。

根据简单的逻辑，团队就可以将已有及可能的“触点”划分先后顺序：

为此，我们需要关注一下通过数据获得的新认识：

柜台开出的票据和电子商店的运行数据均以百万计，在初始阶段，系统性地利用这些信息具有一定意义。与开展一个包罗万象的大数据分析相比，此举可以获得一个基于客户行为的客户分类结果。我们肯定是要推广这种CRM系统的，但是当我们意识到存在这种相互作用的客户分类，且据此实施了相应的市场营销和企业运营措施，并积累了关于这些措施的效率和效果方面的经验之后，我们将能够更智慧地推广使用这个系统。

☆典型的客户一般会具有X、Y、Z等共性特征，一般我们叫这类客户Jens M。

☆必须让之后直接或间接从事客户需求满足的部门工作人员参与客户细分。如果让营销战略部门自己去考虑需要涉及的部门，而没有把实际与客户接触的部门考虑在内，那客户细分工作也不会产生效果。

通过梳理并理解既有和潜在的数据源，大多数企业反而找不到清晰的思路了。一个原因是，很多企业发现它们拥有的数据量远远超出它们的应用能力。这一点在交易数据上反映得最为明显。但是，不能仅仅因为客户信息数据库不能与用户产生相互作用，就认为数据库中的数据是没有意义的。我们需要赶快建立起一种意识，即只有通过无负担地审视我们具有功能障碍的ERP系统数据，才能够使“数据坟墓”[1]重新焕发生机。事实情况也往往是这样的。另外，市场营销人员需要意识到，出于数据保护原因导致的数据使用障碍越来越少，低于内外部数据管理人员宣扬的程度，尤其在涉及个人数据的使用与收集的时候。还有一种普遍认识渐趋流行，那就是在单一客户层面，缺乏交易数据并不会导致智能数据分析工作停滞，相反会使项目进行得更快。一开始就掌握较少信息的人，反而会更快地获得相应的结果。这是因为掌握的数据越多，工作量也就越大，就越不易获得结果。

夸张点儿说，在很多企业中，客户细分的实际情况是这样的：一个粉刷匠、一个木匠和一个做窗户的人要合作盖一间房子。但他们对于业主的实际需求和想法却有着完全不同的看法。他们之中，一个只说德语，一个说波兰语，一个说葡萄牙语。更糟糕的是，既没有工长，也没有建筑师带着他们一起施工。

☆信息的数量经常不如期望中的那么多，信息质量也不尽如人意。我们可以先从规模小一些的信息池开始，着手做一些简单的关联测试。有时候，包含购物记录和客户关键特征的几百个电子邮件地址就足够了。如果这些测试显示项目大有希望，那么接下来我们便可以去考虑逐步提高可用的源数据的占比。

在智能数据流程的这个阶段还需要注意，智能化意味着，在可预见的时间内具有实现的可能性。在一个月之内或者一年内，我们究竟能够将哪些成果转化为生产力？做完这些之后，我们又通常会获得什么？

☆寻找到解决问题的非常见做法。经验表明，几乎所有的数据问题都有一个创造性的解决方法，这个方法既不会拖延项目进度，也不会影响分析结果的准确性，但一样可以解决问题。

☆迄今为止，我们还没有与哪些（哪类）客户产生接触，或者鲜有接触？

☆客户会购买名牌商品吗？

☆我们知道，在不增加公司技术、人力和财务成本的情况下，我们如何获得所需的数据。

综上所述，持续性地思考并贯彻集成分类的好处有两个：

还有一点对智能数据项目来说也很重要。如果在未来的1~3年内，没有机会将研究理论转化为实践，那么建立在所有部门的可得数据基础上的集成细分逻辑也不会有什么用。智能化的客户细分是迭代发展的，意味着包括子项目和测试在内的持续投入，这些子项目和测试在公司中获得了积极的关注，并为智能项目的开展扫清了可能存在的障碍。

☆运营部门会从交易数据、需求数据和潜力数据维度进行客户分类。经营部门会根据A、B、C类客户或者相应的A、B、C类潜力客户的营业额贡献情况，优化拜访客户的频率。

☆通过（a）自行收集，（b）以信息互换的方式从合作方处获得所需数据，（c）从外部购买所需数据，分别需要投入多少成本？

“尝试”在此处是一个无害的行为。在智能数据范畴内，“尝试”具体可理解为：我们需要将想法付诸实践，并评价实践的效果，否则的话，我们就无法兑现承诺并发现其他潜在可能性。

在这里，我们需要再老生常谈地强调一下，在开始任何一项数据驱动下的市场分析之前，都要记得：

☆当我们扩大或者缩减产品种类时，我们可以获得新的客户分组。

我们已经感觉到，在数据项目的这个阶段，舆论氛围发生了逆转，期望借助分析工具从数据瘫痪中解脱出来比我们想象的还要艰难和耗时。我们还是先别这样做了。在智能数据流程中的这个阶段，如果想获得成功，那么项目负责人就需要马上启动以下步骤：

☆我们必须优化产品设计，从而去吸引高价值贡献的客户群体；我们应该参照对照组实验的结果，去摸清我们需要怎样去修改哪些产品设计参数。

问题的答案与使用场合高度相关。但实际上，根据案例经验，答案也会因以下几方面因素而有所不同：

智能数据细分能够帮助我们有效减少、简化聚类结果。首先，我们分析易得的交易数据，根据交易额信息确定出所需聚类。接下来，我们转而分析市场研究提供的购买决策信息和有关公司构架的信息。然后，我们制作有针对性的广告，并将广告信息准确传递给正确的目标客户，达到90%以上的“击中率”。这样可以减少瞄准错误客户的情况，并且可以提高广告的有效性，使广告的效用与增额投入成正比。

智能数据分析和传统的聚类分析方法的目的一样，都是尽可能地分析出同质群组中清晰可辨的消费者行为特征。

☆尽可能准确地评估出，为获得缺失数据我们要付出多少成本，以及这样做可以为我们带来多少增值。简单地说就是，我们需要有一个确切的决策基础，才能做出投资决策，从而才能获得数字化竞争力。

大量研究证明，从长期来看，以客户为中心是最重要的竞争优势。市场越是朝着以客户为中心的方向发展，就越需要清楚准确地掌握客户情况。

1.我们的商业问题是什么？

对此，我们在一个世界领先的IT生产商的大项目中感触最深。企业总部的战略营销部门逻辑清晰地为大部分B2B聚类分组都起了名字，比如“印刷发烧友”或者“累垮的工人”。然后成立了产品设计部门，并制定了产品战略。遗憾的是，处于销售环节的员工无法理解什么是印刷发烧友，哪些人又是累垮的工人。

智能数据流程是一个自学习系统。我们最终采取的各种市场营销措施，其实质是一种假说。如果我们认真地践行了智能数据流程的第1~4阶段，那么这些假说的命中率将会很高。我们在每一个层面都秉持着效率优先的原则，因此这些措施的投入产出比会相对较高。但是，这些措施是否真正起作用，我们也只有在尝试过之后才知道。就如同我们必须去尝试投放不同的产品组合一样，我们也需要通过尝试来检验各个“触点”的效率和作用。最终，我们才会认识到，在哪个“触点”、针对哪些客户、通过采取何种措施能产生最大效果。

我们将这种做法称为智能数据分类。

“计算机没有什么用处。它们唯一能做的就是告诉你答案。”这句话出自巴勃罗·毕加索。众所周知，作为画家，毕加索擅长用极其扭曲的方式来表现客观现实，但他却不是数据分析方面的专家。像所有伟大的艺术家一样，他对当时的时事话题有着独特的感知能力。

相对较大的智能数据项目的目标之一，是将公司内部关于客户的不同视角和观点整合协调起来，这样，营销战略部门、产品营销部门和运营部门就可以建立起具有一致性的客户理解。现在对此比较流行的表述是：集成分类。

同时，即便是达到90%聚类水平的最好的细分情况，如果客户服务人员不能理解或者不能够正确使用，那也是惘然。这听起来是理所当然的事情，但是在实践中却经常被忽略。

☆渠道偏好（尤其关注口袋份额较低的客户和潜在新客户）

在智能数据框架内，我们会去尝试系统地调整一个产品所有可能的变量，这项工作需要由一个复合型的专家团队来完成。需要注意的是，在着手工作之前，要清楚地定义出产品变量的范围，例如价格、颜色、打捆、包装、产品说明书、附加金融服务。后续，不同的信息会被分别归入这些变量范围内。

5.需要为在每个“触点”上采取的每个措施界定一个衡量效果的标准。只有在一个“触点”起到的作用很清晰的情况下，我们才能够理解它在“客户旅程”中的功能定位。如果我们无法去界定在某个“触点”上采取的一个或多个措施有效与否，那很可能是这个“触点”本身的认定有问题，或者建立这个“触点”是多余的。

☆由于拥有更好的（高聚合性、智能化预分类）数据基础，智能化的聚类可以更准确地描摹某一聚类中客户的实际购买行为。此外，可被明确归入某一聚类的客户比例有所上升。由此，在理想情况下，在单一客户层面，我们采取的市场营销措施可以更加精准地发挥作用。

客户细分的意思就是，将市场细分为不同的客户群组，每一个群组的客户都具有同质化的消费行为。或者更确切地说，按照做出消费决策之前相同或者尽可能相似的决策因素，将客户进行分类，但是不同的决策因素最终产生出相同的决策结果也是有可能的。不同客户群组之间，在消费行为方面最好界限清晰。在书本中，这属于逻辑的同一性原则，但在实践中情况可能还不一样。

☆集成分类将可得信息整合起来，让我们更好地了解客户；

这种操作方法是基于前期已经识别出来的数据特征（例如通过识别市场上同质化群组的社会人口统计学特征、使用行为和观念）测算出被观察者（个人或公司）之间的差异，并据此建立矩阵。这个矩阵也分为许多行，同数据库中被观察者的分类占比保持一致。被观察者之间的差异涵盖了所有已识别的数据特征，并且可以通过不同的方法计算出来。在分层聚合的过程中，一对儿被观察者在一个循环流程中被反复概括比对，就连最小的差异也会被发现。这个流程会一直不停地循环重复，直到所有的被观察者都被纳入某一个簇中。这个积聚的过程可以通过多种不同的算法实现。比较常见的算法包括单联聚类法（即SL聚类，又称邻近算法）和凝聚层次聚类（沃德法）。根据算法之间不同的聚合逻辑，会产生不同的聚合结果。采用单联聚类法可以识别出一些较小的边缘群体，若采用凝聚层次聚类法，那么簇的规模一般会比较均衡。

首先要有效提出优化措施，完成了这一点，就意味着智能数据流程的第一阶段结束了。可以通过讨论小组的方式完成这项工作。有时，高层管理者或者中层经理更愿意独立去完成这一阶段的工作，他们或是整夜思考相关问题，或是与雇员和客户直接交流，或是通过与IT部门负责人的沟通，大体掌握通过哪些投入可以获得哪种数据。面对具体的决策事项，民主讨论或者集中决策都是有其根据的，根据不同的事情选择不同的决策形式。但是无论如何，需要坚持的原则是：

1.关联分析方法：这是一个很简单的分析方法，尤其适合于“购物车”研究，用于寻找经常被同时购买的商品。如果想使用这种分析方法，我们需要拥有完整的匿名交易数据。

☆智能化、集成化的客户细分需要具有一定的超前性，要通过识别与未来客户细分相关的关键性问题或标志性特征，尝试预测与其他行业领域的融合问题。

☆我们通过现行的交互方式想取得哪些效果？尽管人们都喜欢强调自身的优点，这是可以理解的，但系统地关注一下引起客户不满的业务记录也很重要。我们经常能够在分析不满意客户或者已丢失客户的过程中，发现改善客户服务的最重要措施。

从技术层面上看，模糊聚类分析的逻辑与K均值算法类似。模糊聚类分析这一设想的目的是，实现一个被观察对象被归入不止一个簇中，这在某些特定的应用案例中更具现实价值。如果市场和客户细分部门希望获得明确的聚类结果（例如要去评估某一聚类集合的市场潜力），在对客户针对不同商品种类的消费行为和购买决策进行统计分析时，多维的聚类可能更有意义。例如，为了精准定位并营销旅行社潜在客户，我们可以利用模糊聚类分析方法，通过分析交易数据信息，从而去识别客户的旅行类型。此时，有些客户或被归入多个特征组，例如海滩度假组、城市游组等，这可以帮助我们为客户提供多样化的选择。

划分聚类分析中还有一种算法是K中位数（K-Medians）或者模糊C均值（Fuzzy C-Means）。K均值的最大好处是，它尤其适合大规模的数据分析，因为它在算法方面不像分层聚类分析那么复杂。但是K均值算法的问题在于对异常值的敏感度过大，偶尔会导致十分小的聚类被划分出来。另外，该算法是基于随机选取的初始值，因此在反复调整过程中，划分结果不是很稳定。此外，结果缺乏可再现性也是缺点之一。分层聚类分析可以补偿划分聚类分析的缺陷，因此可以将分层聚类分析中产生出的聚合分类结果作为K均值分析方法的簇数起点值。

☆亚马逊开了一个好头，现在所有的企业都想拥有一个好用的推荐引擎，以此实现自动生成个性化的推荐建议，最大限度地匹配客户的喜好，尽可能地促进销售。此时，可采用下列两种方法：

总结一下，当我们解决了如下问题，智能数据流程的第二阶段就接近尾声了。

客户需求理解

在问题清单的最上面，必须列示最有可能获得最大成效的措施。

智能数据：如何挖掘高价值数据 作者：比约恩·布劳卿 （美国）

第二部分 智能数据的循环