
第三节 数据来源
本研究的数据主要来自中国人民大学社会学系与香港科技大学社会科学部合作收集的“中国综合社会调查(CGSS)2006”数据。在一些地方用到了1996年的“当代中国生活史与社会变迁”(LHSCCCH)的调查数据(Treiman & Walder, 1996)。
CGSS调查的抽样设计按照分层多阶段随机抽样的方法进行。以区县为PSU将全国分为5个抽样框,在每个抽样框内进行4个阶段的抽样:第一阶段,按照简单随机抽样或PPS方法从各一级子抽样框中抽选PSU(区、县行政单位);第二阶段,根据2000年人口普查数,按照PPS抽样与系统抽样相结合的方法,从被抽中的县区中抽选相应数目的SSU(街道、镇或乡)单位;第三阶段,抽选TSU(居委会、家委会或村委会)的方法与第二阶段相同;第四阶段,根据第五次人口普查摸底册进行等距系统抽样,抽选住户作为PPS抽样的最终抽样单元,然后依据KISH表随机选择一个18岁以上、在本户居住一周以上的人作为调查对象。最终抽样单元中城市样本与农村样本之比为5900∶4100。这一抽样设计可以通过适当组合和加权反映全国的情况,具体的抽样设计详见“中国人民大学中国调查与数据中心-中国综合社会调查(CGSS)项目”(2008)。在使用数据时,我们利用参照2005年小普查数据进行修正后的权重对数据进行了加权设置。在这一调查数据中,本研究主要关注14岁及以前尚未获得非农户口的“农民子女”,他们的性别、年龄、省份分布如表3。
表3 CGSS 2006中14岁以前未获得非农户口的受访者人数分布

注:研究对象被限定年龄为20~69岁。Stata中的加权设置语句为:svyset urbanpercent [pweight=weight], strata(stratum)。未考虑第二阶段、第三阶段、第四阶段的抽样设计,对于集中性指标如均值和比例的估计不存在影响。
“当代中国生活史与社会变迁调查”采用多阶段分层随机抽样的方法,从全国(西藏自治区除外)共抽取6090个20~69岁的城乡成年人(Treiman, 1998;Treiman & Walder, 1996)。抽样过程中,将每个县分成城、乡两个部分,为了保证有足够的城市样本,城市部分的抽样概率是农村部分的3倍。在农村样本内,根据各县农村人口中高中以上人口的比例,所有县被分为25层,根据与各县成人规模成比例的方法(PPS)从每一层中抽出两个县,在每一个县,再根据PPS的方法抽取一个乡镇,每个乡镇里面再根据PPS的方法抽取两个村,然后根据各村的人口登记簿(常住和临时住户)随机抽取30个家庭,接着从每个家庭里随机选择一个20~69岁的成年人作为最终访问对象。如此,得到3003个农村样本。城市的抽样方法与此类似,对应各层的抽样单位被换成县级市(或大城市的区)及街道委员会、居委会等,城市样本为3087人(Treiman, 1998)。
根据“当代中国生活史与社会变迁调查”的上述抽样设计,每个家庭中的成人数量不同且城乡的抽样概率不一致,因此为了反映全国的情况,本研究在进行描述和模型分析时都将采用加权的方法进行。权重的构建过程如下。首先,创建一个家庭户权重(HHWT),令其等于各家庭成年人数与家庭平均规模(城乡分开计算)之比。这一权重适合城乡样本独立分析时使用。其次,根据全国城乡人口的比重创建总体权重(POPWT),城乡人口的总体权重分别等于(1995年的总人口/城乡样本数)×HHWT,由于1995年时有29%的人口居住在城市,因此城市人口的总体权重为(351740000/3087)×HHWT,农村人口的总体权重为(859470000/3003)×HHWT。最后,我们将权重标准化(Normalize),保持加权后的样本规模与原始样本规模一致,WEIGHT=POPWT/Mean(POPWT)。这一权重在将城乡样本合并使用时是合适的(Treiman, 1998, Part Ⅲ.1)。
需要说明的是本研究尝试着将这两个不同时点的调查数据合并使用,但是由于两次调查的职业(我们的主要研究变量之一)分类标准存在差异,且我们缺乏CGSS详细的职业编码依据,合并使用可能导致难以预料的问题,因此我们暂时放弃了合并。此外,两个抽样调查数据的代表性值得评估。本研究将CGSS 2006结果与2006年国家统计局的“就业与人口变动抽样调查”汇总表数据进行比较发现,两个数据在分年龄段的职业构成类型、就业状态上存在一定的差异。不过,两个调查的抽样方式、对象范围、变量定义方式存在差异,且两个调查都是抽样调查,相互评价很难。但经过多年的积累,多个全国代表性调查数据的比较表明,CGSS调查数据的代表性是可靠的(谢宇,2010b;谢宇等,2014)。