为了账号安全,请及时绑定邮箱和手机立即绑定

Python火热的罪魁祸首 -- 大数据

标签:
Python

小明装逼完毕,作为阿姨大侄子的我,看着小明装逼我也手痒痒,所以我就赶紧来给大家报个到,初次相知,还请余生多多指教。

https://img1.sycdn.imooc.com//5d22f1ce00019d2201040098.jpg

我有偷偷的关注你们哦!


看到有人后台留言说想了解大数据,恰好我现在也在研究大数据相关的东西,就先给大家介绍一下大数据吧,提高一下大家的热情(目前处理数据最好的语言是Python,对大数据没有兴趣的也热起来了吗  ๑*◡*๑ ),请看下文 


https://img1.sycdn.imooc.com//5d22f1e60001055806400480.jpg

  • 大数据产生的背景

       

      在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据,但互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据,数据呈现爆炸式增长,这时我们就进入了大数据的时代。


     (单位:ZB) 

https://img1.sycdn.imooc.com//5d22f1f2000194f810480354.jpg

(年份)

1GB(Gigabyte)=1024MB

1TB(Terabyte)=1024GB

1PB(Petabyte)=1024TB

1EB(Exabyte) =1024PB

1ZB(Zettabyte)=1024EB


  • 什么是大数据


        大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。


更通俗一点,大数据就是海量的数据,但我们不仅仅只关心这些数据的量,更在意的是如何利用这些数据(对这些数据的存储、计算、分析、应用),这些都和传统的处理方法不在一个量级上,需要我们创造出新的工具,想出更好方法去处理他们,更好的为我们去服务,融入到我们的生活中,这样就形成了大数据时代。


如果我们想驾驭这庞大的数据,我们必须了解大数据的一些特征。


  1. 体量(Volume)

    互联网的发展迅速使得数据体量非常大,且非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,总数据量的80~90%


    https://img1.sycdn.imooc.com//5d22f2200001e43503000225.jpg

  2. 多样性(Variety)

    不仅仅是单一的数据增加,数据的形式上也产生了很多形式(文本、图像、视频、机器数据等)

    https://img1.sycdn.imooc.com//5d22f278000111e206000450.jpg

  3. 价值密度(Value)

    海量的数据中有大量的不相关信息,但这些信息是对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能的基础数据,好比沙中淘金,是大数据的低价值密度性                                                                                                                              

  4. 速度(Velocity)

    大数据处理速要求越来越高,尤其是现在的实时分析而非批量式分析,从数据输入、处理与丢弃,到立竿见影要求几乎是ms级的

    https://img1.sycdn.imooc.com//5d22f28a0001e2a506000450.jpg


(云计算相结合的大数据存储速度显著提升)


  • 大数据的应用


  1. 实时交通信息

    利用社交网络和天气数据来优化最新的交通情况

  2. 智能城市系统

    自动通知消防、公安、医院等,迅速

  3. 自然灾害预测

    实时监测、对潜在危机做出快速响应,通过卫星和遥感技术,远程获取灾区情况,制定合理


现在大数据应用真是太多了,在这里就不一一说了,说几个最贴近你的吧,抖音推荐系统、头条、淘宝、京东商品推荐,猜你喜欢等功能,有没有感觉很准!


  • 作为一名程序员,你应该做些什么呢


相信这个才是你最感兴趣的,我先简单给大家介绍一下一个简单的大数据项目处理的流程及其所需要的一些技术。


  1. 我们要搜集大量相关的数据,这样大数据要存储大量的数据,并且非结构化数据较多,现在存储数据的方式特别多,最典型的的要数Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。

  2. 数据量特别大,我们需要很强的计算能力去计算我们已经保存的数据,目前普遍使用的是Hadoop和Spark这框架。目前Spark更流行,是一个不错的选择,不管是批量式计算还是实时数据计算(只能算是伪实时,可满足ms级别上的需求,实时的需要用Storm来处理)。

  3. 我们可以对我们的数据进行实时和批量的计算,然后就是对数据的分析,这一部分涉及到许多算法,也是整个大数据时代的灵魂,Spark MLlib 组件给我们提供了机器学习的算法库,我们可以去使用,选择出最适合我们业务的一个或者多个算法。

  4. 按照算法分析完我们的数据之后,就要给用户在我们的应用(网站、APP等)上展示出来,这就是一个简单大数据应用过程。


当然,实际项目中处理起来要比这个要细致的多,每一步中都还有很多细节需要处理,具体细节以后会给大家介绍。另外,大数据与现在的云计算有着密不可分的关系,大数据必须采用云端分布式架构对海量数据进行分布式存储、分布式处理。云计算提供的强大的计算、存储能力,恰好可以接收现在大数据所产生的数据。

    

 小惊喜       现在处理大数据的语言利器是Python哦!薪资也是领域里最高的之一,所以,大家选择学习Python,离走上高富帅已经越来越近了,希望就在前方,骚年,一起向前冲吧!


裸睡的猪(ID:IT--Pig)

作者:猪哥-Pythoner,禁止未授权转载,授权请私聊


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消