演讲人简介:徐永南,现任美国TransactionNetworkServices公司NetworkArchitect。在东南大学计算机系任教期间,主持和参与国家863以及其他国家级和省部级科技项目十数项,获得多项国家级和省部级科技奖励。是国内计算机安全和互联网研究和建设的早期参与者之一,参与多项国家标准的制定,多次组织和主持中国电子学会和中国计算机学会下属专业学会的学术交流和学术会议。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,近年来因互联网和信息行业的发展而引起人们关注。大数据是作为云计算、物联网之后IT行业又一大颠覆性的技术革命。
什么是“大数据”?
“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
首先,“大数据”体量大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次,数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;最后,真实性高。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
“大数据”分析的方法
可视化分析:“大数据”分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
数据挖掘算法:这是“大数据”分析的理论核心。各种数据挖掘的算法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正因为这些被全世界统计学家所公认的各种统计方法才能深入数据内部,挖掘出公认的价值。因为有这些数据挖掘的算法才能更快速处理大数据。
预测性分析能力:从“大数据”中挖掘特点,通过科学建立模型,之后便可通过模型带入新的数据,从而预测未来的数据。
数据质量和数据管理:“大数据”分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
“大数据”技术
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫自然语言理解,也称计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归等。
数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化。
“大数据”技术的应用
以医疗行业为例
[1]SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
[2]在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
[3]它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。