是后分层、分层抽样的优缺点、二重抽样分层,分别应用什...

 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
简单随机抽样、系统抽样、分层抽样的比较
下载积分:840
内容提示:简单随机抽样、系统抽样、分层抽样的比较
文档格式:PPT|
浏览次数:176|
上传日期: 13:24:14|
文档星级:
该用户还上传了这些文档
简单随机抽样、系统抽样、分层抽样的比较
官方公共微信市场调研中的混合双重分层抽样方法
1背景介绍随着“顾客是上帝”的观念被越来越多的企业和公司认同,企业开始从消费者的诸多角度来考虑问题,于是市场调研便愈来愈发挥它的作用.大多数市场调研项目的目的是为了获取有关总体特征或者参数的信息.有关总体参数的信息可以通过采用普查和抽样的方式获得.而有限的预算和时间决定了大多数企业会选择抽样调查.当前许多企业需要进行长期的或者对每个样本的投入预算比较大的大范围(通常跨越几个城市甚至全国性的)调查,例如日用品的跟踪调查,收视率的调查,汽车项目的调查等,由于此类项目在每个样本上耗费比较大,预算的有限决定了最后接受调查的样本容量不会很大.而且在通常情况下,大多数调查都会采用多种抽样方法.混合双重分层抽样正是根据上述情况设计的.本文提出的混合双重分层抽样调查方法是在结合考虑了预算和精确度后进行的,它是双重抽样方法的一个延伸,第一重采用混合多级抽样,获取一个比较大的样本,得到一些总体的辅助信息,第二重样本为主要调查对象,在第一重的基础上采...&
(本文共5页)
权威出处:
金融在经济发展中的作用一直备受争议。积极的研究观点认为金融发展不仅可以通过平滑消费机制提高家庭福利,而且可以通过杠杆原理撬动企业的投资,进而有助于经济发展。消极的研究观点认为正规金融存在信贷约束,使得享受不到金融服务的贫困家庭或者中小企业缩减投资,经济发展受限。长此以往,易形成恶性循环。越贫困,越得不到融资,就更加贫困,产生“贫困陷阱”,最终导致贫富两极分化。与此观点相悖,积极的研究认为金融对经济发展的消极影响并不严重,因为传统的信贷约束论的研究忽略了民间金融市场的作用,受到信贷约束抑制的中小企业或者贫困家庭往往可以进入民间借贷市场。然而,由于民间金融市场缺少监管,缺乏规范,统计数据困难,其对经济发展的作用难以直接衡量。因此,上述争议仍是学术界和政府关注的热点问题。本文利用中国两个最新的微观家庭金融调查的数据库,2011年西南财经大学的“中国家庭金融调查”以及2009年北京大学国家发展研究院的“农村金融调查”,以家庭之间的借贷为...&
(本文共160页)
权威出处:
随着工业化、城镇化进程的加快,中国农村富余男性劳动力持续向非农产业和城镇转移,农业生产出现了女性化趋势,而且这种“男工女耕”的现象将会越来越普遍。农村妇女成为新农村建设的主力军,农村妇女的经济行为关系着农业现代化建设,关系着粮食安全和国家的可持续发展,也关系着农民生活水平的提高和妇女自身的发展。因此,本文以我国粮食主产区黑龙江省的农村妇女为研究对象,研究农村妇女的经济行为及其影响因素,更好地为社会主义新农村建设服务。本研究基于社会主义新农村建设这个大背景,以户口在黑龙江省农村,并在农村中生产和生活的18岁至65岁女性为研究对象,在行为科学、行为经济学和社会性别理论的指导下,立足于优化农村妇女经济行为,提高其创业理财能力,综合采用文献研究、理论研究和实证研究的方法,系统研究和阐述了农村妇女经济行为的理论与现实问题,提出了农村妇女经济行为优化策略,独占研究视角。首先,在对国内外相关文献进行认真梳理的基础上,借鉴了农户和农民经济行为理...&
(本文共188页)
权威出处:
以理性人、完全市场、标准偏好为假设前提的传统资产选择理论,认为家庭根据风险差异配置金融资产,投资比例仅取决于投资者的风险偏好,大多数居民都会投资一定数量的股票。而学者们通过对美国、意大利、巴基斯坦、中国等国的调查,现实情况恰恰背离了传统理论的预测结果,出现了传统金融理论无法解释的金融市场上的异常现象——股票市场有限参与,大部分人并不参与股票市场,参与股票市场的投资者持股情况也存在明显差异。家庭实物资产中,房产占有相当大的比重,也是家庭总资产中最重要的部分。我国房地产市场上高房价神话还在持续上演,兼具消费与投资双重属性的房产对大多数家庭的重要性是毋庸置疑的,因此家庭在进行资产配置时房产因素的作用不容忽视。随着我国金融市场建设的不断完善,股票市场发展迅速。根据中国证监会统计,截止到2011年12月底,境内上市公司数(A、B股)达2342家。上海证券交易所公布的2010年报,年末自然人投资者的持股账户数目占99.79%。继2007年之...&
(本文共67页)
权威出处:
随着我国高等教育大众化进程的不断加快,进入劳动力市场的高校学生数量逐年大幅度增加。而由于经济增长的就业弹性持续降低,二元劳动力市场的双重阻隔,出现了明显的高校学生就业难问题。高校学生就业难问题引起了社会各界的广泛关注,对高校学生就业问题的研究已成为教育经济学、劳动经济学以及社会学等研究领域的重点和热点问题。人力资本和家庭资本作为影响高校学生就业的两种主要资本形式,均对高校学生就业的各个方面产生着深刻的影响,任何单一的研究视角均不能得到满意的、有说服力的研究结论。只有将人力资本和家庭资本两种研究视角相结合,对高校学生就业的各个方面进行深入、细致的考察研究,才能得出有说服力的研究结论。因此,本文将从人力资本和家庭资本的双重视角作为研究切入点,通过实际大规模抽样调研数据对高校学生的就业状况及就业结果进行实证考察,从而揭示出人力资本和家庭资本影响高校学生就业的作用机制:并在此基础上提出促进我国高校学生就业的具体政策建议。本研究采用定性研...&
(本文共237页)
权威出处:
目前关于抽样方法的专著与论文中,在论述分层抽样方法时,一般只介绍单因素分层,而对多因索分层的抽样方法涉及较少。但是,在社会医学与卫生事业管理的抽样调查中,要研究的总体很大,往往由于经费与人力有限,只允许抽取少量样本数,客观上要求按多因素分层,然后在各因素的不同水平中抽取一定的样本数。在这种情况下,国内一般采用“经验判断抽样法”,但这种抽样法主观性较大.为了使所抽取的样本具有较好的代表性,最好是寻求较为客观、简单、易行的多因素分层抽样方法; 1985年卫生部医政司为了了解在新形势下,广大农村居民的医疗卫生需求,组织了一次有十个省(自治区)参加的“农村卫生服务抽样调查”,在设计方案中明确要求,协作省(自治区)按本省的经济水平和地理方位(东、西、南、北、r卜),抽敢5个县作为调查县,使样本具有较好的代表性. 安徽是协作省之一。我们采用了一种较为客观,简单易行的“两因素分层抽样方法”,此法是在Bryant[11等提出的两因素分层抽样方法...&
(本文共2页)
权威出处:
在体育调研工作中,所采用的分层抽样时层面的划分通常是按一个特征设计的,方法比较简单。但是体育调研通常所及到的调查项目较多,而且调查的结果又与一个以上分层特征有关,故使用以往分层抽样的方法得不到满意结果。本文引入的"两特征分层抽样方法"可以高效地解决以上提出的问题;由于所抽取的样本近似简单随机样本,这将有利于最后的计算机统计分析。~~体育调研中的两特征分层抽样方法@祁国杰$合肥教育学院...&
(本文共3页)
权威出处:
扩展阅读:
CNKI手机学问
有学问,才够权威!
出版:《中国学术期刊(光盘版)》电子杂志社有限公司
地址:北京清华大学 84-48信箱 知识超市公司
互联网出版许可证 新出网证(京)字008号
京ICP证040431号
服务咨询:400-810--9993
订购咨询:400-819-9993
传真:010-
京公网安备75号2109人阅读
& & 在统计研究中,针对容量无限或者容量很大以至于无法直接对其进行研究的总体,都是通过从中抽取一部分个体作为研究对象,以考察总体的特征。被抽取的部分个体称为该总体的一个样本。从总体中抽取样本的过程,称为抽样。
& & 抽样包括随机抽样和非随机抽样。非随机抽样是从总体中抽取指定的个体,具有主观意向性,这里不做讨论。
& & 随机抽样是按照随机原则,保证个体都有一定概率被抽取到的抽样方法。常见的随机抽样方式有:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样、二重抽样以及比率抽样。
& & 以下将依次介绍各种随机抽样方法的原理、应用场景及其SAS实现。在论述之前,需要准备好测试数据。我们从互联网上找了一批数据形成一张表,数据的内容是国内股票市场各只股票的若干财务数据,字段如下:
每股收益(元)
每股收益同比(%)
每股净资产(元)
净资产收益率(%)
每股现金流量(元)
净利润(万元)
该表共有2472条观测(记录),按照Source(来源板块)进行统计,则各组观测数如下:
创业板&&&&&&&&&&&& 351
沪市主板&&&&&&&&&& 948
深市主板&&&&&&&&&& 473
中小板&&&&&&&&&&&& 700
数据下载地址:/share/link?shareid=134615&uk=
构建程序初始环境:
&&& workspace&&&&&& =&&&D:\SASWorkspace\练习&;&&&&*工作区根目录;
call symput(&workspace&, workspace);
libname Practice&&workspace.\中间数据\&;
然后把原始数据上传到Practice逻辑库中,并命名为MainIndex_2012sea3。
*为了不破坏原始数据,把表copy到work逻辑库中;
Work.MainIndex_2012sea3;
setPractice.MainIndex_2012sea3;
下面逐一介绍各种随机抽样方法及其SAS实现。
(1)简单随机抽样
简单随机抽样,指从总体中等概率地抽取出n个个体组成样本。在SAS中,可以使用surveyselect过程步来实现随机抽样。Surveyselect过程步的基本格式如下:
PROC SURVEYSELECT
&&& DATA=& * 输入数据集;
&&& OUT=& * 输出数据集;
&&& METHOD=& * 抽样方法;
&&& SAMPSIZE=& * 选择项指定需要抽样的样本量;
&&& SAMPRATE= * ;
&&& NOPRINT;
&&& ID 指定抽取的样本所保留的源数据集变量
&&& STRATA& 指定分层变量
&&& CONTROL 控制变量
&&& SIZE 不等概抽样指标变量
在第一个程序中,我们来实现最简单的场景:从2472条观测中随机抽取100条。在程序中,除了必要的data和out选项外,还需使用method设置抽样方法为简单随机抽样,其值为srs;并设置抽取的样本容量sampsize = 100或n = 100。代码如下:
*随机抽取100条记录,保留所有字段,不打印;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_srs1
&&& method = srs
&&& sampsize =100&/*也可以使用n = 100 */
&&& noprint
上面的程序对于结果表保留了原始表的所有字段,如果我们只需要保留其中的某几个字段,则可以使用id语句。
*随机抽取100条记录,只保留StockCode和StockName字段,不打印;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_srs2
&&& method = srs
&&& sampsize =100
id StockCode StockN
如果没有指定随机数种子(seed),则SAS程序会使用计算机的时间作为种子。可以使用seed选项设定随机数初始种子。Seed的值必须是一个正整数,否则SAS会使用计算机的时间作为种子(零或负整数的情况),或者出错(小数的情况)。
*随机抽取100条记录,保留所有字段,不打印;
*指定随机数种子;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_srs4
&&& method = srs
&&& sampsize =100
&&& seed =1000
在实际应用场景中,有时候需要独立重复抽取多组样本,这时可以使用rep选项。SAS程序会以rep设定的值独立重复抽取若干次样本,每组样本的容量是sampsize或n选项指定的值。
*随机抽取100条记录,保留所有字段,不打印;
*指定独立重复抽样的次数;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_srs5
&&& method = srs
&&& sampsize =100
&&& rep =3
&&& noprint
样本容量的另一种表述是其占总体的比例。比如,抽取10%的样本。这时我们使用samprate或rate替代sampsize。Samprate的值可以是正小数,也可以是正整数。当samprate的值是正小数时,其值在(0, 1]之间,不可为零;为1时表示100%。当samprate是正整数时,表示相应的百分比,如10表示10%,需要注意的是,整数1表示100%,而不是1%。
*随机抽取总体的10%作为样本,保留所有字段,不打印;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_srs6
&&& method = srs
&&& samprate =0.1/*也可以使用rate =0.1 */
&&& noprint
*随机抽取总体的10%作为样本,保留所有字段,不打印;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_srs7
&&& method = srs
&&& samprate =10/*也可以使用rate =10 */
&&& noprint
有时候,我们并不需要把原始表的所有观测都作为研究对象,而只是针对其中的某一子集来抽样。比如如果我们只需要研究沪市主板的股票,那么只需要在相关的观测中抽取样本作为研究对象。Data选项后面可以使用where=语句来实现对总体观测的筛选。
*如果只想在沪市主板上抽取100个样本;
&&& data = Work.MainIndex_2012sea3(where=(Source ='沪市主板'))
&&& out = Work.MainIndex_2012sea3_srs8
&&& method = srs
&&& sampsize =100
&&& noprint
(2)分层抽样
分层抽样是将总体按某种特征分为若干次级总体(层),再在每一层中进行随机抽样,把结果组成一个样本的方法。描述层次特征的变量称为分层变量,比如在我们的测试数据中,我们可以使用Source(来源板块)变量把原始数据分为沪市主板、深市主板、中小板、创业板四类(层)。Surveyselect过程步使用strata语句来指定分层变量。在抽样之前,需要对原始数据按照strata指定的分层变量进行排序。最简单的分层抽样场景是,最总体中的所有样本,指定一个分层变量,每一层都使用同样的抽样比例。以下是最简单分层抽样场景的代码:
*由于分层抽样需要对原始数据进行排序,因此我们再复制一张临时表;
Work.MainIndex_2012sea3_
setWork.MainIndex_2012sea3;
*按照分层变量Source排序;
data =Work.MainIndex_2012sea3_by
*用Source分层,每一层抽取10%的样本;
&&& data = Work.MainIndex_2012sea3_tmp
&&& out = Work.MainIndex_2012sea3_strata1
&&& method = srs
&&& samprate =0.1
strata S * 使用Source作为分层变量;
如果各层抽取的比例不一样,则应赋予samprate一个数组,数组的每一个元素的值分别代表各个层的抽样比例。数组元素的顺序需与分层变量排序后的顺序一致。
*用Source分层,一共有4层,各层抽取的比例不一样,在samprate中定义;
*分层变量Source的排序顺序是:创业板 沪市主板 深市主板 中小板;
&&& data = Work.MainIndex_2012sea3_tmp
&&& out = Work.MainIndex_2012sea3_strata2
&&& method = srs
&&& samprate = (0.1,0.3,0.5,0.2)
&&& noprint
strata S * 使用Source作为分层变量;
同样,也可以使用sampsize分别指定每一层的抽样个数。
*用Source分层,一共有4层,各层抽取的个数不一样,在sampsize中定义;
*分层变量Source的排序顺序是:创业板 沪市主板 深市主板 中小板;
&&& data = Work.MainIndex_2012sea3_tmp
&&& out = Work.MainIndex_2012sea3_strata3
&&& method = srs
&&& sampsize = (10,60,50,30)
strata S * 使用Source作为分层变量;
如果层数较多,且需要对不同层分别指定抽样比例或抽样个数,则需要建立抽样表。抽样表需要包含分层变量,以及每一层对应的抽样比例或抽样个数;如果是抽样比例,则变量必须命名为_rate_,如果是抽样个数,则变量必须命名为_nsize_。
*按比例分层抽样,建立抽样表;
create tableWork.Samptab_rate (
&&&&&&& Sourcechar(10),
&&&&&&& _rate_num
insert intoWork.Samptab_rate
values ('创业板',0.1);
insert intoWork.Samptab_rate
values ('沪市主板',0.3);
insert intoWork.Samptab_rate
values ('深市主板',0.5);
insert intoWork.Samptab_rate
values ('中小板',0.2);
*按比例分层抽样,将抽样表赋值给
&&& data = Work.MainIndex_2012sea3_tmp
&&& out = Work.MainIndex_2012sea3_strata4
&&& method = srs
&&& samprate = Work.Samptab_rate
strata S * 使用Source作为分层变量;
*按个数分层抽样,建立抽样表;
create tableWork.Samptab_size (
&&&&&&& Sourcechar(10),
&&&&&&& _nsize_num
insert intoWork.Samptab_size
values ('创业板',10);
insert intoWork.Samptab_size
values ('沪市主板',60);
insert intoWork.Samptab_size
values ('深市主板',50);
insert intoWork.Samptab_size
values ('中小板',30);
*按个数分层抽样,将抽样表赋值给
&&& data = Work.MainIndex_2012sea3_tmp
&&& out = Work.MainIndex_2012sea3_strata5
&&& method = srs
&&& sampsize = Work.Samptab_size
strata S * 使用Source作为分层变量;
(3)系统抽样
系统抽样是把总体的个体进行排序,计算出抽样距离,然后按照这一固定的抽样距离抽取样本的方法。第一个样本采用简单随机抽样的办法抽取,此后每隔一个抽样距离的大小抽取一个样本。抽样距离等于总体容量除以样本容量。
*每隔10个抽取一个1个;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_sys1
&&& method = sys
&&& sampsize =248/*总体容量2472,样本容量248,意味着抽样距离为10 */
在系统抽样中,可以使用控制变量来对原始数据进行排序。控制变量使用control语句。SAS程序首先安装control中的变量排序,然后采用系统抽样抽取样本。
*每隔10个抽取一个1个;
*使用Source作为控制变量,这样程序会对输入数据按照Source进行排序;
&&& data = Work.MainIndex_2012sea3
&&& out = Work.MainIndex_2012sea3_sys2
&&& method = sys
&&& sampsize =248
&&& control S
下面的程序是将系统抽样与分层抽样相结合,实现较为复杂的抽样方式,以满足实际应用的需求。在这个例子中,程序按照strata指定的变量对原始数据进行分层,在每一层中使用control变量排序,然后分别进行系统抽样各抽取248个个体,因此,最终的结果有992条观测。
*分层系统抽样;
&&& data = Work.MainIndex_2012sea3_tmp
&&& out = Work.MainIndex_2012sea3_sys3
&&& method = sys
&&& sampsize =248
&&& control EPS;
版权声明:本文为博主原创文章,未经博主允许不得转载。
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:61481次
排名:千里之外
原创:26篇
评论:52条
(1)(1)(3)(4)(4)(2)(4)(3)(2)(3) 上传我的文档
 下载
 收藏
免责声明:本人所有资料来自网络和个人所创,版权归原作者所有,请注意保护知识产权,如有需要请购
买正版图书,请您下载后勿作商用,于24小时内删除,本人所提供资料仅为方便学习交流。 本人如有侵
犯作者权益,请作者联系官方或本人,本人将立即删除。
 下载此文档
正在努力加载中...
2014人教A版高中数学必修三2.1.3《分层抽样》导学案(1)
下载积分:1000
内容提示:2014人教A版高中数学必修三2.1.3《分层抽样》导学案(1)
文档格式:DOC|
浏览次数:18|
上传日期: 21:16:06|
文档星级:
该用户还上传了这些文档
2014人教A版高中数学必修三2.1.3《分层抽样》导学案(1)
官方公共微信

我要回帖

更多关于 分层抽样的优缺点 的文章

 

随机推荐