为了账号安全,请及时绑定邮箱和手机立即绑定

数据分析基础—4.1 数据抽样

webp

在数据收集过程中,利用数据的全体进行分析,还是采集其中的一部分作为样本进行分析,要根据业务需求来判断,采集特征数据的方式根据数据范围的不同分为普遍调查和抽样调查。

       普遍调查

       是对数据全体范围内的所有对象进行逐个调查,达到准确了解数据总体特征的方法。

       最典型的例子就是我国十年一次的全国人口普查项目。其优点是采集的数据准确、全面;缺点是成本高、效率相对较低。

       抽样调查

       是从全体数据中随机抽取一部分数据作为样本数据进行调查分析,从样本特征推断数据的总体特征。

       其优点是效率高而且成本低,缺点是其采集的数据存在偏差有时会影响分析结果的准确。

       常用的抽样方法有以下四种:

webp

       1、简单随机抽样

       将全体数据进行编号,然后在总体数据中随机抽取一定数量的数据组成样本数据,即为简单随机抽样。适用于数据量较少的情况。

       例如:抽签或者抽奖活动,

       2、分层抽样

       如果目标数据可以被分为若干个互不重叠的部分(即分层),每个层中的数据具有相似的属性,那么可以按比例从各层随机抽取数据组成样本数据,即为分层抽样。

       例如:一所大学要对所有学生进行普通话水平进行调查评估。学生总数25000人,拟抽取样本500人,考虑学生主要来自六个方言区域,所以分成六个层(如学生来源占比10%、20%、15%、30%、15%、10%),每个层按比例分别抽取50人、100人、75人、150人、75人、50人,组成500人的样本数据。

       3、系统抽样

       又称为等距抽样,首先设定抽样间距为n,然后在前n个数据中抽取初始数据,再按顺序每隔n个单位选取一个数据组成样本数据,即为系统抽样。

       例如,设置抽样间距为20,初始数据从1到20个数据中随机抽取,假如抽取到第16个,那么每隔20个单位抽取一个数据进入样本,即为第16个、第36个、第56个、第76个……均被抽取进入样本数据中。

       4、整群抽样

       又称聚类抽样,是将全体数据拆分成若干个互不交叉、互不重复的群,每个群内的数据应尽可能具有不同属性,尽量能代表整体数据的情况,然后以群为单位进行抽样,称为整群抽样。

       例如:美国大选的民意调查一般采用整群抽样的方式,美国有50个州1个特区,每个州有很多个郡,选民的意愿与其所处的郡无关,因此每个郡都可以看作是整群抽样的一个群,对郡内每个选民进行意见收集。

       以上四种基本抽样方法都属于数据随机抽样,实际应用中常根据业务需求将整个抽样过程分为不同的阶段进行,来完成数据的采集任务。

webp



作者:小明学数据
链接:https://www.jianshu.com/p/9adb2792a1e6


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消