数据量大 就是大数据,这个说法对吗?
3 回答
陪伴而非守候
TA贡献1757条经验 获得超8个赞
数据量大是大数据的必要而非充分条件。所谓的大数据
,是一种技术高度发展下衍生的概念,指原本没有能力处理也被认为没有价值的大量非结构化的数据,比如用户的访问记录、聊天记录、购买记录等等,由于谷歌三驾马车
论文发表后分布式计算技术被普及而变得可以方便地存储和处理,而另一方面通过原有只能运用在小数据样本上的统计学习方法,反而得到了一些传统的数据分析方法(强调因果)不能获得或与人类直觉相反(比如典型的啤酒与尿布
问题)的知识。
引用Coursera数据科学专项课程的一个定义:
Big data = now possible to collect data cheap, but not necessarily all useful (need the right data)
哈士奇WWW
TA贡献1799条经验 获得超6个赞
大数据介绍
- "大数据"首先是指数据体量大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量; - 其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 - 接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。 - 最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
大数据特点
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。 大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。 - 1、 数据体量巨大。从TB级别,跃升到PB级别。 - 2、 数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。 - 3、价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 - 4、处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。 大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。 解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。 大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。 因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
- 3 回答
- 0 关注
- 2365 浏览
添加回答
举报
0/150
提交
取消