2014年6月12日星期四

大数据时代:净化数据很关键


今天,我们正处于决策成本产生巨变的爆发点,过去那些想尽办法都无法获取的数据,在今天唾手可得,而当有些表面上完全不相关的行业数据关联起来时,居然产生了新的商业价值。


更重要的是,过去,我们更多地是带着问题 去寻找能够验证自己观点的数据,而今天我们却可以使用数据去预测可能出现的问题 。海量数据可以使人的智慧得到更大的发挥,并变得更加规模化。


大数据的本质是人,数据研究的极点就是莫测的人性 。我们一旦掌控了数据之后的数据,就会拥有制胜未来 商业的无敌利器。


定数 据是脏的


在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。


这种情况的出现,到底是因为数据源脏了,


还是因为数据提炼过程做得不好?


有一家初创公司,专注于与地理位置相关的数据收集、整理和查询服务。它将地理位置的相关指标,按照酒店和旅馆等属性划分为不同细类,对外提供基于位置信息的实时查询,为包括美国最大点评网Yelp 在内的多个知名应用提供底层数据服务。


这家公司最令人印象深刻的是,它对于所收集来的数据会提供一个数据质量评分,以反映数据的可信度和质量水平。它会对这些数据的源头以及对处理数据阶段所用的算法进行评分。也就是说,这家公司在提炼数据的每一个阶段都进行了数据化管理。


这家公司的做法让我们看到了一个趋势,也是一个非常重要的趋势。因为它首先已经接受了数据源肯定是脏的和数据源一定会被污染的事实。所以,它在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。这种情况的出现,到底是因为数据源脏了,还是因为数据提炼过程做得不好?这个过程我们一定要区分,而且这样的区分是可取的。这家公司是假定数据是脏的来做数据管理,而不是假定数据是稳定的。而且,假定数据是“脏”的来处理数据,在大数据时代将是一个非常重要的趋势。


事实上,我们今天在处理的大数据,依然只是冰山一角,而更大的数据都隐藏在我们的语言中,比如我们说的话和写的字。所以,将来我们要准确地从互动中抓取数据,也一定要依赖对自然语言的处理。现在,美国的很多数据研究人员都在瞄准非结构性数据,即语言处理这一领域。


来源:福布斯中文网

责任编辑:尹心荷



本文标签:






via 大数据时代:净化数据很关键

没有评论:

发表评论