班谦,江苏精尚智能科技有限公司总经理,2005年毕业于清华大学经管学院,中国九三学社会员,中国计算机学会会员,清华大学无锡、常州商会会员。先后在铂金埃尔默公司、CYTIC设计公司担任重要职务,对产品研发、公司治理、市场营销、数据分析等领域具有丰富的工作经验。
数据分析涉及到数据挖掘、数据清洁、数据模型、数据优化。通过收集资料获得大数据,基于数据分析随之建立数据库形成一个网络从而开发出大数据应用的产品,方便大众生活。
数据分析发展历程
国外的数据分析史。数据分析最早使用在二战时期,应用运筹学解决战场物资分配问题。到了1962年,随着计算机的开发成功,出现了用计算机辅助决策。再随着个人电脑PC的应用,就产生了在PC上开发的数据分析软件。1966年,8所大学受农业部委托,要开发一个应用于农业数据采集的分析包,产生了第一个数据分析案例。这个公司的名字叫做Statistical0Analysis0System,就是现在SAS公司的原型。再后来,美国每年有一届数据分析大会,汇集了所有从事数据分析的工程师、建模师。随着科技的发展,在市场的需求下产生了大众熟悉的互联网技术,物联网技术。
数据分析不是凭空产生的,也不是突然产生的,如果缺少前期计算机发明的硬件技术和软件技术的提升,任何的数据分析都无从谈起。
中国的数据分析。2008年后,随着土地、原材料、人力等生产要素成本的提高,外向型经济不得不转向生产要素成本更低的地方。在过去的五年到十年,中国完成了一个信息化基础建设,进入新时期中国鼓励大众创新、万众创业,提出数据时代的口号。近两年我国进入了数据时代,但实际上数据时代和之前的产业相比显得过于虚弱。
数据分析与处理
哈顿的分布式。指的就是一种内存分析技术,解决的是一个数据储存和数据处理的问题。它的表现,用一条直线的回归分析就能够描述这些点下一步有可能出现的情况。实际上,当数据量越来越大的时候会发现其实它并不是一条直线。这个模型告诉我们,当数据小的时候,是一种简单的分析;数据大的时候,又是另外一种分析。它的分析的层次是随着需求的提升而不断提升的。
应用语义技术。语义技术是大数据的分析之一,它主要针对的是非结构化数据,案例里面很多是结构化数据,能够统计的数据是非结构化。举个例子,在赶集网上,你输入“修空调修不好不要钱”,然后你得一个个这样去看,到底哪一个才是和你需求相关的,这就是现在正常的搜索。当我们把一些相关的文本定义之后,再把它们搜索功能进行优化,第二次搜索结果会出来直接相关信息。你不一定会找到你最想要的。因为你用的是自然语言,机器无法识别,我们现在讲话都是自然语言,“修空调修不好不要钱”是自然语言,而搜索它识别的是文本语言,所以这就是差别。它没办法识别“修空调修不好不要钱”是什么意思,他只能识别修空调或者空调。语义技术在搜索上的应用在国外用于教育领域、医疗领域非常多,在国内是刚刚开始。
数据分析的趋势
第一次工业革命产生了工厂,第二次工业革命产生了公司,均是一种实业形态,而实业形态伴随着很多具体的行业。不同于靠投资拉动的传统经济,当前新型经济讲究三驾马车拉动经济增长,即投资、消费和出口。由于投资已经造成很多重复,而出口的地位随着人民币的升值竞争力在下降,所以当前国家注重如何拉动人民币消费。
消费和互联网的数据存在重 要 关系。新经济下的一些业态,即时通信工具、智慧城市、柔性制造、智慧物流等概念无一不是要借助互联网,无一不会产生数据。在这种新业态下,它产生最多的就是数据。
新常态下数据分析主要呈两种趋势。
第一个趋势:生产更小型化、专业化、智能化,将更多的政治资源和经济资源留给市场。现在很多大国企、大央企赚钱不是因为它们的技术比别人更好,能力比别人更强,而是因为它的政治和经济资源垄断。
第二个趋势:互联网。随着芯片技术的发展,当前在物联网技术、电子信息技术发展迅速,造成今天有很好的条件来开展物联网云计算大数据这样的产业。
数据分析的必要性
数据分析之所以将来会有大量的商机,是因为现在的决策要逐步科学化。在这个时代,数据是资产,数据分析的目的是为我们提供管理、预测和决策,而且数据之间不是一个因果关系,是一种大的相对关系。有观点认为,今后所有的产业要么数字化要么不存在,这很形象地指出今后所有的行业产业都离不开数据。比如,现在消费者消费已经可以不用现金支付了,可以微信支付,还有现在微信和POS机相结合的产品已经出来了。
在数据的基础上产生了很多商业机会,国外在第一、二、三产业数据应用的实际案例很多,我们会发现他们与我们的实际情况非常相似,但是目前中国还没有人开始做这些事。欧美90%的制造业都用各种模型去采购生产调度库存成本,但这个对我们国内的企业尤其是对我们的民营企业、家族企业,要求还太高。谷歌公司40%的工作是天天在做着数据,工作就是数据挖掘,因为在谷歌的平台上有大量的数据,其目的就是改进产品生产。真正的物联网项目应当是这样的:有数据采集,有数据传输,还有数据分析。
数据分析改变生活
国外的许多大公司都有数据部,数据部的工作就是每天做大量模型,对全球经营的业务、他们所关注的数据进行大量的模型演示。由于我们现在的世界越来越标准化,所以模型演示具有可行性。ISO是标准,环保是标准,手机也是,机壳、机芯,包括里面的电路板,全部尺寸都标准化了。在标准化的世界里,他们认为可以做各种模型,因为基础是一样的。而在数学领域有一句话,所有的经济行为百分之九十是可以用数学模型来描述的。一个人,他的行为习惯,他的思考模式可能会有差异。但是,当你有足够多这种人的数据之后你就会用所有不同类型的人的思考模式建立一个数据库,建立一种分析模型。以后只要出现一个人,只要从里面抽取对这种模型影响最大的几个变量,选择三方面这样的问题问他,马上就可以知道他的性格、最适合做的工作、最适合选择的专业。这就是数据分析的力量,这就是数据对我们生活的改变。
数据分析与创新中国错过了第一次工业革命时代和第二次工业革命时代,改革开放以来花了三十多年时间做的最大的事情就是去模仿、创新、赶超别人。我们把其他国家前两次工业革命所有的发明创造全部模仿出来了,取得了一定的成就。但是成就的背后是别人对我们的不满。三十年后的现在,没有更多的国外技术输入到中国,一味的模仿导致中国现在出现严重的投资不足问题。
面对投资不足问题,中国当前迫切的需要自主创新。其实这三十年我们是希望不但能够模仿,而且为未来自主创新打下良好的基础。所以现在突然发现有钱没地方投的时候,大量的投资机构和我们说要投好项目。那是因为我们自主创新的技术和产品太少了。以前从国外随随便便来一个产品,在中国都能够生根,都能够卖出去。然而现在更高更尖端的技术对我们始终是个壁垒。
数据分析的能力决定国家的实力。当前我们面临的市场机会非常大,但是也有很多的不足,最主要的是我们缺少人才。数据分析师、数据建模师需要背景,这是我们的短板。现在国家日益注重数据分析的重要性,将大数据改名为数据科学,不少高校开始专门成立数据研究院。清华大学去年成立了数据科学研究院,第一批数据研究生去年开始招生,今年北京大学、复旦大学也先后成立了数据科学研究院。
把握数据时代创业机会
互联网讲简单点就是一种应用,从事互联网工作的人员一般不说自己是互联网公司的,介绍自己是数据分析。因为数据分析讲究核心技术,需要人员的技术能力。创业,如果有这样的激情按捺不住,那就趁早,不要说找不到工作再创业,之所以要趁早,是因为越早你的责任越小,不需要对家庭有什么责任,自己一个人失败了再重来。很多时候用不着去担心够不够格,只要让自己觉得我尽力,知道哪个地方不足,这就够了。
无论中国怎样,请记得,你所站立的地方,就是你的祖国,你怎么样,中国便怎么样,你是什么,中国便是什么。在校大学生应当多接触一些电子科学工程等自然科学,永远保持学习的态度,永远保持学习的激情。当前我国市场面临的机会很大,大家要好好把握数据时代的创业机会。