何为大数据
想必很多人都经历过这样的“贴心”服务:你打算网购一件大衣,在淘宝上输入“大衣”。有关大衣的信息会铺天盖地而来,不但淘宝的首页,就连微博,甚至打开门户网站都是有关大衣的广告。或者你是某家商城的会员,你可能发现他们发给你的邮件或者寄给你的促销广告上的商品信息正是你感兴趣的。商家正是从会员卡的购买记录中,了解到你的喜好。这种用户行为分析,可以帮助商家确定一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等,从而设计个性化的服务。这些都源于对“大数据”的利用。
谷歌通过分析人们上网搜索记录,例如“咳嗽、发烧”等词条,并通过地图将这些关键词被检索的趋势显示在其所对应的地区。相应的关键词密度越高、越频繁,该地区暴发流感的可能性就越大。令人惊讶的是,通过对这些海量信息的分析,利用“流感趋势”对流感进行的预测,其速度甚至比美国疾控中心还要快。这样的例子还有很多。微软必应搜索通过集成以往的飞机票价画出未来票价走势;对冲基金通过剖析社交网络twitter的数据信息来预测股市的表现……
现在,我们就不难理解什么是“大数据”了。大数据指的是所涉及的数据量规模巨大到无法通过常规的工具,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。这些数据包罗万象,互联网上发布的信息只是其中的一部分。通过筛选、整理、分析这些数据,所得出的结果不仅仅只是简单、客观的结论,更能用于帮助“预测未来”。
大数据有多“大”
大数据到底有多大?我们来看看这些数据:互联网一天产生的全部内容可以刻满1.68亿张DVD;每天通过网络传输的电子邮件达2000多亿封,发出的社区帖子达200万个,卖出的手机为37.8万台;Facebook每月新增10亿照片和1000万个视频;腾讯公司注册用户超过7亿,同时在线人数超过1亿……IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
然而,大数据之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,研究和预测人类的行为,从而带来“大知识”、“大科技”、“大利润”和“大发展”。
无法躲避的大数据
在互联网无孔不入的时代,我们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为大数据分析的材料。
如今,我们已经离不开手机、电脑、智能电视等智能终端设备,日常生活基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。
要不想和大数据沾上边,除非你把自己完全绝缘起来。不上网、不使用手机、不看电视,总之不和任何信息设备发生关联,这样大数据使用者在进行数据挖掘时就找不到你的个人信息了。(受访者为西安电子科技大学计算机系副教授马卓)