搜索
大数据中国 首页 行业资讯 业界动态 查看内容
车品觉:忘掉大数据吧!
2014-5-4 00:56 |来自: 福布斯中文网| 查看: 3242| 评论: 0
决战大数据》这本书的出版让我更多机会接触到更多同业, 还在Define中的大数据需要更多的讨论和实践有助于去芜存菁, 分享一下我当下的感觉共勉之:

  不懂商业不要谈数据, 否则千差万别。

  不要为了数据而数据。

  数据无大无细, 今天的大数据可能明天的小数据。

  数据须要工程化流程化, 急不得。

  数据化思想, 在于迥中找到答案

  什么是大数据?今天有很多专家也不一定有答案,如果有专家跟你说这个不是大数据,你也不用太在意。因为在专家的圈子里面今天也不一定有答案。

我跟我的编辑在讨论我的这本书《决战大数据》的时候,我说如果没有“大”那个字,会怎么样?会少50%的人买你的书。那如果这本书叫《数据化思考》呢?那可能只有10%会买了。

我上两周刚把自己公司商业智能部门干掉,我们把部门改成数据技术与产品部,这是我响应了马总DT的战略。

现在大部分公司都是中央管理数据,然后报告做出来给业务部门去用。在阿里,我们的痛苦是,发现我的部门越来越多,但是如果业务部门越来越不能直接使用数据,这样公司是很难成为一个数据化公司的。所以我把BI部门干掉,我们今天用另外一个方法来处理今天数据的理念。

其中一个很重要的理念是,1997年、或者2000年前,大部分的网站都会写“COPYRIGHT RESERVED”,它意思想说“这内容是我的,你千万不要分享给别人”。但到了2014年,你几乎看见每一个网站会跟你说“分享我吧,分享得越多越好”。这是在10年里最大的变化。

晚上7点钟的时候,大家都在微信里晒今天晚上吃什么。但是在2000年的时候,这个事情几乎是匪夷所思的、不可能,有人会说晚上吃什么关你什么事啊。今天不是,在餐馆里吃饭的时候,先不要吃、先拍个照,发出去然后开始吃饭。在分享数据上出现一个非常大的变化,所以过去几年我们讲的大数据,都是社会化数据(social data),它是更多的人愿意分享数据后产生的数据。

1995年的时候,当Microsoft发布自己的Windows 95的时候,当时我们做数据挖掘的人是以MB级的数据量来做的。今天的人对MB是看都不看,MB今天能干什么!

9年后Google上市,我们数据挖掘的人大概到GB级左右,一个Memory Stick大概有GB级,所以今天看来也没什么。

  2013年美国总统选举的时候,它的数据挖掘的级别已经上了TB级的层次。

数据量在挖掘的地方已经越来越大,美国总统选举是一次完美的大数据的接力,去决定总统到底什么样的topic(话题)来讨论。

实际上,Social Data到今天可以说我们已经开始层出不穷地收集更多不可思议的数据了。Google Glass、Smart Watch以及其他可穿戴设备,你会发现已经不止是社会化数据了、包括人身体的数据的获取。

你会发现,今天我们讲的“大数据”,其实明天有可能只是个“小数据”。今天有很多公司说自己是大数据公司,过几年你会发现今天的数据实际上是蛮小的。

用上面的话来说,就是我们有了足够多的case、多到覆盖全世界所有这个领域的case,基本上就知道这里面会发生什么。那时,我不须要用很复杂的模型去找出结果,而是充分利用会用空间中数据与数据间的关系。譬如,今天有一个新人进入淘宝网址,可能他只要输入电话号码,很快就能知道这不是个新人、而且他跟淘宝的空间中与多少人是有关系的。这不需要重新计算,因为空间已经足够大、能覆盖整个样本空间的时候,那个case只是其中的一个case而已。

互联网催生了大数据,数据的存储、数据的能力产生了很多今天实时的计算。所以有人说,大数据是在云计算技术基础上所产生的应用。例如流计算就使我们更有可能实现实时的应用,一边数据进入一边计算;以及非结构化的数据的爆炸、用户的行为更丰富,这都是今天大数据的重要课题。

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2025-5-2 18:11 , Processed in 0.111517 second(s), 24 queries .

返回顶部