ChinaFamilyPanelStudies,CFPSChina

china 7
FamilyPanelStudies 中国家庭追踪调查 技术报告系列:CFPS-41系列编辑:谢宇责任编辑:赵逸文 中国家庭追踪调查文本编码技术报告 王祎睿谷丽萍戴利红吴琼 2021.06 CFPS官方网址:/cfps 目录 目录..........................................................................................................................................................................1

一.职业..................................................................................................................................................................3 1.1
采集方式...............................................................................................................................................3
1.2编码规则...............................................................................................................................................4
1.3编码工作的组织模式........................................................................................................................5
1.4CFPS2010-CFPS2018职业编码变量名分布...............................................................................51.5衍生变量:职业威望.......................................................................................................................6

二.行业.................................................................................................................................................................7
2.1采集方式..............................................................................................................................................7
2.2编码规则..............................................................................................................................................8
2.3编码工作的组织模式........................................................................................................................8
2.4CFPS2010-CFPS2018行业编码变量名分布...............................................................................9三.行政/管理职务..............................................................................................................................................9
3.1采集方式...............................................................................................................................................9
3.2编码规则...............................................................................................................................................9
3.3编码工作组织形式.............................................................................................................................9
3.4CFPS2010-CFPS2018行政/管理职务历年变量名分布.......................................................10四.

职业期望......................................................................................................................................................

104.1采集方式

............................................................................................................................................

104.2编码规则

............................................................................................................................................

104.3

编码工作组织形式..........................................................................................................................

114.4CFPS2010-CFPS2018职业期望变量在发布库中的变量名................................................11五.疾病

...............................................................................................................................................................

125.1采集方式

............................................................................................................................................

125.2编码规则

............................................................................................................................................

125.3

编码工作组织形式..........................................................................................................................

125.4CFPS2010-CFPS2018疾病变量在发布库中的变量名.........................................................125.5相关变量:身体不适

.....................................................................................................................

13六.

死亡原因......................................................................................................................................................

136.1采集方式

............................................................................................................................................

136.2编码规则

............................................................................................................................................

146.3

编码工作组织形式..........................................................................................................................

146.4CFPS2010-CFPS2018死亡变量在发布库中的变量名.........................................................14七.专业

...............................................................................................................................................................

157.1采集方式

............................................................................................................................................

157.2编码规则

............................................................................................................................................

157.3

编码工作组织形式..........................................................................................................................

167.4CFPS2010-CFPS2018专业变量在发布库中的变量名.........................................................16八.学科

...............................................................................................................................................................

168.1采集方式

............................................................................................................................................

168.2编码规则

............................................................................................................................................

17
1 CFPS官方网址:/cfps 8.3

编码工作组织形式..........................................................................................................................

178.4CFPS2010-CFPS2018学科变量在发布库中的变量名.........................................................17九.

学校类型......................................................................................................................................................

189.1采集方式

............................................................................................................................................

189.2编码规则

............................................................................................................................................

189.3

编码工作组织形式..........................................................................................................................

199.4CFPS2010-CFPS2018学校变量在发布库中的变量名.........................................................19十.方言

...............................................................................................................................................................

19

附录.......................................................................................................................................................................

21附录1

行业编码体系表.........................................................................................................................

21附录2

行政/管理职务编码表..............................................................................................................

21附录3职业期望编码体系表

...............................................................................................................

22附录4死亡原因编码体系表

...............................................................................................................

23
2 CFPS官方网址:/cfps 社会调查中的大部分信息是通过数值型方式来记录的,譬如表示收入的数字或表示某个选项的数字。
数值型数据便于记录,也便于后期整理和发布,因此被广泛采用。
但是,数值型数据并不适用于所有场景,因为它对输入信息的格式有着严格要求,适用于应答较为固定的封闭题型的场景。
在其他一些场景中,假如我们想要获得更为丰富的信息,应该选择文本型数据的采集方式。
文本型数据既可以采用结构化的采集方式,也可以采用非结构化的采集方式。
它们有各自的优势和缺陷。
文本型数据的结构化采集方法就是采用封闭题型设计,让受访者或访员直接从列表或选项中选择信息。
结构化封闭题型的优势在于其获取的数据格式规范,后期处理成本低;但其缺陷也较为明显,一是需要受访者或者访员在现场进行归类,如果归类原则较为复杂,存在分类错误的风险;二是现场分类的类别一般不能过多,这样的限制也会影响采集信息的丰富程度。
文本型数据的非结构化采集方法不提供给受访者或访员固定选项,而是通过一系列的开放型问题进行文本信息获取,譬如询问受访者的工作单位名称、职位名称、工作的具体内容等。
与高度结构化的固定选项题型相比,开放文本题能够采集更为丰富的信息,但是,开放文本的采集方式更容易造成数据的不完整性。
以职业信息为例,如果受访对象的职业文本缺失关键信息,编码员在后期可能无法通过访员记录的文本来进行准确有效的编码。
除了数据的完整度有待核查之外,因为原始的文本信息格式不够规范,同时调查不会将受访者的隐私信息直接共享给数据用户,所以文本题的数据处理过程比数值型变量更复杂。
针对开放型文本信息,普遍做法是依据一定的原则是将文本信息转化为结构化编码。
CFPS作为一项综合型社会调查项目,采集了多种类型的文本信息,其中包括职业、行业、疾病、行政职务、方言等。
下面我们对每一种类型的文本信息的采集方式、数据资源以及编码规则进行介绍。

一.职业 1.1采集方式 职业信息的采集方式在历年有所变化。
CFPS2010在职业文本的采集上最为特别,既直接询问了受访者工作的具体内容,又让受访者对自己的职业进行分类,也即2010年CFPS综合采用了结构化和非结构化两种方式来采集职业信息。
涉及到的职业信息有受访者的当前主要工作(G307),非农工作(H405),第二职业(G701),兄弟姐妹职业(B309)以及第
3 CFPS官方网址:/cfps 一份工作。
2012年,CFPS针对受访者在两次调查之间从事的所有工作按照其雇佣性质(受雇、非农自雇、家庭帮工)进行逐一提问。
职业信息的采集均通过自由文本的方式输入,不再需要受访者提供直接的分类。
与2010年不同,CFPS在2012年没有直接提问受访者当前的主要工作,而是在询问完所有工作之后,在G7最主要工作部分,在调查中按照一定的规则生成了“主要工作单位名称”,详细说明见《中国家庭追踪调查2012年当前主要职业综合变量的建构》。
2012年,CFPS还在V部分(父母信息)模块采集了受访者14岁时的父母职业信息;并对在婚人员在E2模块其配偶的职业情况。
自2014年开始,CFPS职业信息采集的方式都保持一致,采用自由文本的方式,采集内容包括主要工作(GE模块),实习工作(GA模块),以及配偶工作。
除此之外,CFPS在2018年还额外采集了第一份工作的职业信息。
表1展示了不同年份采集的职业信息。
为了从数据源上保证职业文本的有效性,CFPS项目组针对职业文本的采集和编码做了以下工作:
(1)在访员培训中讲解采集文本型数据的注意事项。

(2)在访问过程中对职业文本数据进行实时核查,并将不符合编码规范的文本记录发给访员,要求提供反馈。

(3)将访员反馈的文本信息会被纳入编码范围。
这一质量控制的过程适用于职业、行业和疾病文本的采集。
编码的判断过程可能会结合多个变量,如主要工作和第一份工作的职业编码要结合这份工作的“工作单位名称”和“工作单位做什么”,实习与兼职的职业编码要结合这份工作的“工作单位做什么”。
1.2编码规则 CFPS2010至CFPS2018中的职业编码采用的标准以《中华人民共和国国家标准职业分类与代码》(GB/T6565-2009)为基础。
该编码表采用从粗到细的三级分类制。
例如,针对最终分类(细类)为“哲学研究人员”的观测,其第2级分类为“科学研究人员”,第1级(粗)分类为“专业技术人员”。
CFPS基于该分类原则,进行了重组,将该编码表的原始1级分类代码(包含0到9以及代表军人的X类和不便分类人员的Y类)用如下代码表示:1替换0;2替换1和2;3、4、5类不变;6替换了6、7、8和9;7替换了X类,9替换了Y类,另增加8代表无职业者。
并从格式上将国标码的横杠链接模式改为五位数字码,譬如按国标码模式是2-11,在CFPS数据采集系统中是2.1.1,在发布数据集中转换成发布码20101。
此外,在CFPS的编码中,“-7”表示无法分类的职业描述,该代码只能由编码判定员给出,主要针对记录信息与职业无关、十分不详等职业描述不清的情况;“99999”表示文本无效导
4 CFPS官方网址:/cfps 致的无法编码。
从2014年开始,职业编码体系针对“打工”和“工人”等职业描述,加入了以下三个编码:“99700”表示零工、临工、散工、打工、工作、上班、务工;“99800”表示工人;“99900”表示技术工人、技工、技术员、操作工。
同时,CFPS还保留了问卷设计中的3个通用代码:“-1”不知道、“-2”拒绝回答、“-8”不适用。
职业编码的代码和标签详见CFPS项目网站中“数据文档”页面的《职业-职业威望转换说明.xlsx》。
1.3编码工作的组织模式 CFPS2010至CFPS2016的编码全过程均采用的是人工编码。
2010年成人问卷中的G303和G305设计为封闭性选择题,G307、G308、H405、H406是访员在计算机辅助调查系统(CAPI)下根据CFPS职业和行业代码字典,采用查询法对受访者的职业和行业进行现场分类编码。
其余问题则均设计为开放性问题,访员根据受访者的回答详细记录职业的重要信息。
CFPS2010的职业编码过程可以参考技术报告《中国家庭追踪调查2010年职业行业编码》。
职业编码的工作模式是“双向独立验证并判定”。
它的具体方法是在第一阶段对每条文本信息由两位编码员进行独立编码,如果两位独立编码员的编码结果一致则直接通过。
2010年至2016年第一阶段的编码全是人工编码。
从2018年开始,我们在编码的第一阶段启用了一位人工编码员,同时由我们的工作人员进行计算机辅助编码
1。
结果不一致时需要引入第三位经验较为丰富的编码员,如果该编码员的结果与之前任意一位一致则采用此编码,当三个结果均不相同时由编码管理员(一般为资深编码员)审核并决定用前三人中谁的值,或者赋予除了这三个人给的值之外的值。
1.4CFPS2010-CFPS2018职业编码变量名分布 在CFPS2010至CFPS2018中,职业变量的发布数据中的变量名汇总如下表。
编码变量 一般为原始文本信息之后添加code,如果问卷中的文本变量名在跨年间发生变化,编码变 量也会有所差异。
内容实习/兼职 第一份工作主要工作 表1CFPS2010至CFPS2018职业变量的变量名 CFPS2010QG601_OCCU CFPS2012 CFPS2014QGA401CODE CFPS2016 QGA401CODE QG303CODEQG303CODE CFPS2018QGA401code KGD4codeQG303code 1吴琼,戴利红,张婧申.机器学习在社会调查职业编码中的应用[J].调研世界,2019(09):56-605 CFPS官方网址:/cfps 配偶/同伴职业-上期婚姻配偶职业-婚 姻史受雇工作非农自雇家庭帮工父亲职业 母亲职业 主要职业(综合变量) 职业类别第二职业非农工作兄弟姐妹职 业孩子职业 TB5_CODE_A_
S TB5_CODE_A_
F FOCCUPCODE(综合变量)TB5_CODE_A_ MMOCCUPCODE(综合变量) QG307CODEQG701_OCCUQH405CODEQB309_OCCU_ 1-15TB5_CODE_A_ C1-10 qe209bcode_best qg411code_a_1-10qg510code_a_1-10qg609code_a_1-1014岁时父亲职业编码:qv103code_best 14岁时母亲职业编码:qv203code_best job2012mn_u QEA203CODE EEB4022_A_1CODE QEA203CODE EEB4022_A_1CODE QEA203code EEB4022_A_1code 1.5衍生变量:职业威望 为了方便用户更好地使用职业变量,CFPS将职业国标码体系(ChineseStandard Classificationofupations,CSCO)转换为国际标准职业分类代码(InternationalStandard Classificationofupation,ISCO-88),并依据ISCO-88职业分类代码建构了国际标准职业 社会经济指数(InternationalSocio-EconomicIndexofupationalStatus,ISEI)、标准国际 职业声望量表(Treiman’sStandardInternationalupationalPrestigeScale,Treiman’sSIOPS) 两套职业社会经济地位测量指标,以及成人问卷受访者职业现在工作、主要工作的EGP职 业分类代码(EriksonandGoldthorpe’sClassCategories,EGP)。
2010年职业威望系列变量 的解释说明见《CFPS-10中国家庭追踪调查职业社会经济地位测量指标构建》。
由职业编码 转换成的职业威望的对应表见CFPS项目网站中“数据文档”页面的《职业与职业威望转化 说明.xlsx》。
我们生成的职业威望系列变量的变量名如下表。
表2CFPS2010至CFPS2018职业威望变量的变量名 2010 职业编码变量现在工作QG307CODE第一份工作QG601_OCCU ISCOQG307ISCO QG601_ISCO ISEIQG307ISEI QG601_ISEI SIOPSQG307SIOPS EGPQG307EGP QG601_SIOPS
6 CFPS官方网址:/cfps 2012 201420162018 第二份工作QG701_OCCU非农工作QH405CODE父亲主要职业FOCCUPCODE母亲主要职业MOCCUPCODE母亲职业qv203code_best父亲职业qv103code_best配偶职业qe209bcode_best非农工作SG411CODE_BEST实习QGA401CODE主要工作QG303CODE实习QGA401CODE主要工作QG303CODE实习QGA401CODE第一份工作KGD4CODE主要工作QG303CODE QG701_ISCO QH405ISCO FOCCUPISCO MOCCUPISCO QV203_ISCO QV103_ISCO QE209B_ISCO SG411_ISCO *QGA401COD
E_ISCO *QG303CODE_ISCO QGA401CODE_ISCO QG303CODE_ISCO QGA401CODE_ISCO KGD4CODE_ISCO QG303CODE_ISCO QG701_ISEIQH405ISEI *QGA401CODE_ISEI *QG303CODE_ISEI QGA401CODE_ISEI QG303CODE_ISEI QGA401CODE_ISEI KGD4CODE_ISEI QG303CODE_ISEI QG701_SIOPSQH405SIOPS *QGA401CODE_SIOPS *QG303CODE_SIOPS QGA401CODE_SIOPS QG303CODE_SIOPS QGA401CODE_SIOPS KGD4CODE_SIOPS QG303CODE_SIOPS *QG303CODE_EGP QG303CODE_EGP QG303CODE_EGP 注:*为暂时未发布变量,将在相应数据集的下次数据更新时发布。
用户如需提前使用,请发信至项目组服 务邮箱。

二.行业 2.1采集方式 2010年,我们行业编码的依据是受访者的工作属于什么行业;2012年及以后,我们的行业编码的依据是受访者的工作单位属于什么行业。
CFPS2010涉及行业编码的题目有两种提问方式,一是直接询问受访者的工作属于哪个行业;二是询问受访者的工作内容,据此判
7 CFPS官方网址:/cfps 断相应的行业。
2012年,我们在共用模块的【G4受雇】中询问受雇单位是做什么的,在【G5非农自雇】模块中询问受访者主要做什么生意,在【G6不拿工资为家庭经营活动帮工】模块中询问受访者参与的家庭经营活动主要生产什么产品或者从事什么经营活动。
2014年后提问形式都保持一致。
我们在【GA实习与兼职】模块提问了实习单位从事的活动,在【GE主要工作】模块提问了工作单位主要是做什么的。
2018年我们还采集第一份工作的单位信息。
2.2编码规则 行业编码的主要依据是受访者所在的单位以及受访者对单位主要经营活动描述。
当受访者没有单位信息时,我们则根据其工作内容来进行行业信息的判断。
CFPS的行业编码采用的标准行业代码使用的是《国民经济行业分类》(GB/T4754-2002),该编码表将国民经济行业划分为20类。
CFPS事后编码完全采用了该编码表既有的分类和代码,并在此基础上添加了一个类别“21”,表示不便分类的其他行业。
此外,CFPS事后编码同样保留了问卷设计的3个通用代码:“-1”不知道、“-2”拒绝回答、“-7”职业描述不清,无法分类、“-8”不适用。
行业编码的代码和标签见附录
1。
2.3编码工作的组织模式 CFPS2010的行业编码过程可以参考《中国家庭追踪调查2010年职业行业编码》。
行业编码的工作模式是“双向独立验证并判定”。
它的具体方法是在第一阶段对每条文本信息由两位编码员进行独立编码,如果两位独立编码员的编码结果一致则直接通过。
2010年至2016年第一阶段的编码全是人工编码。
2018年,第一阶段启用了一位人工编码员,同时由我们的工作人员进行计算机辅助编码。
结果不一致时需要引入第三位经验较为丰富的编码员,如果该编码员的结果与之前任意一位一致则确定该编码为最终编码,当三人结果均不相同时由编码管理员(一般为资深编码员)审核并决定用前三人中谁的值,或者赋予除了这三个人给的值之外的值。
CFPS项目组在调查季访问进行中会通过实时核查系统,把采集不符合规范的文本发送给访员,访员会审核并反馈更新值。
完成以上的四遍编码后,会有两位编码员对访员反馈中的文本进行人工编码,项目组的工作人员会做判断和选值,用其选定的数据替换原始数据。

8 CFPS官方网址:/cfps 2.4CFPS2010-CFPS2018行业编码变量名分布 在CFPS2010至CFPS2018中,职业变量的发布数据中的变量名汇总如下表。
表3CFPS2010至CFPS2018行业变量的变量名 工作单位做什么(行业) 实习/兼职第一份工作主要工作受雇非农自雇家庭帮工工作属于哪个行业第二职业非农工作兄弟姐妹工作 CFPS2010QG601_IND QG308CODEQG701_INDQH406CODEQB309_IND_1-15 CFPS2012 qg410code_a_1-10qg509code_a_1-10qg608code_a_1-10 CFPS2014QGA4CODE QG302CODE CFPS2016QGA4CODE QG302CODE CFPS2018QGA4codeKGD3codeQG302code
三.行政/管理职务 3.1采集方式 行政/管理职务体现了职业中的权威地位。
除了2012年,CFPS均采集了受访者的行政/管理职务相关信息,我们描述行政/管理职务的文本与职务的部门以及下属数量结合,进行行政/管理职务的编码。
CFPS先询问受访者是否有行政/管理职务,对于给出肯定应答的受访者再询问其行政/管理职务是什么。
为了从数据源上保证编码文本的有效性,CFPS项目组会在历年追踪调查开展前的访员培训中,讲解采集行政/管理职务类数据的具体注意事项。
3.2编码规则 行政/管理职务变量的编码来源是附录2的《行政/管理职务编码体系表》。
历年行政/管理职务的编码逻辑可参考《中国家庭追踪调查2010行政/管理职务综合变量的建构》。
3.3编码工作组织形式 行政/管理职务编码过程中需要用到GE模块的其他变量,所以首先资深编码员会把编码可能需要的变量全部提给编码员,并讲解《中国家庭追踪调查2010行政/管理职务综合变量的建构》的要点。
行政/管理职务的具体编码过程为:首先由两位编码员对每条文本信
9 CFPS官方网址:/cfps 息进行独立编码,如果两位独立编码员的编码结果一致则直接通过,如果结果不一致,则引入第三位经验较为丰富的编码员。
该编码员的结果与之前任意一位一致则确定该编码为最终编码,如果编码结果与之前两位编码员的结果都不一样,则由其确定用这三遍编码的哪个值。
3.4CFPS2010-CFPS2018行政/管理职务历年变量名分布 从2010年到2018年中,行政/管理职务变量的发布数据中的变量名汇总如下表。
表4CFPS2010至CFPS2018行政/管理职务变量的变量名 是否有行政管理职务职务编码 CFPS2010QH407 *QH407CODE CFPS2012 QG309 无 QG310CODE CFPS2014QG14 QG1401CODE CFPS2016QG14 QG1401CODE CFPS2018QG14 QG1401code 注:*为暂时未发布变量,将在相应数据集的下次数据更新时发布。
用户如需提前使用,请发信至项目组服 务邮箱。

四.职业期望 4.1采集方式 职业期望是对于未来希望从事的职业的想象和描述,并很有可能影响今后实际的职业选择。
CFPS以开放性问题的形式采集了职业期望信息,即由访员根据受访者的回答详细记录未来职业的重要信息。
职业期望有两种类型:一是个人对自己的职业期望,二是父母对孩子的职业期望。
对于10岁以上的样本,我们在大部分年份针对正在上学的人群询问其将来最希望从事的具体职业是什么。
对于0-15岁的孩子,我们在不同年份针对不同阶段的样本询问其父母对孩子的职业期望。
4.2编码规则 建构职业期望分类表的基本原则包括:第
一,与国家标准职业分类和代码保持一致。
CFPS的职业编码使用的是《中华人民共和国国家标准职业分类与代码》(GB/T6565-2009)。
一方面,职业期望的类别必须是可以具体到三级代码的职业分类,要么是某一个具体的职业小类,要么是多个职业小类的集合。
另一方面,所有的职业分类都可以进入职业期望分类表。

二,每一职业期望类别拥有足够的个案数。
这为下一步研究提供基本的数据支持。

三,每一类别代表社会经济地位和性别差异。
换句话说,如果某几项职业期望类别之间不存在地 10 CFPS官方网址:/cfps 位或性别构成的差异,我们便可以进行合并。
这是因为我们更希望把握和体现受访者不同的职业期望。
由此,基于CFPS既有的职业期望原始数据和国家标准职业分类体系,我们建构了一套职业期望变量的编码来源,即《职业期望编码体系表》。
该分类表包括27类职业期望类别。
其中,前23类为详细职业期望类型,如“国家机关、党群组织、事业单位负责人”、“企业负责人”,并给出了它们分别对应的国家标准职业分类;第24-26类为粗略职业期望类型,分别是“读书”、“为人民服务”、“打工”;最后一类是不便分类的其他从业人员。
之所以单独给出粗略职业期望类别,主要的考虑是这三类反映了不同的职业取向,且拥有一定的个案数。
职业期望编码体系表的详细类别见附录
3。
4.3编码工作组织形式 职业期望编码采取手动集中编码和自动集中编码的方式进行。
其中,手动集中编码指的是在调查结束后,由专业编码员采用双向独立验证并判定的方式根据对职业的理解和编码列表的掌握情况选择相应的职业编码;自动编码指在上述职业编码完成后,由专业编码员借助编码软件进行全自动的职业期望编码。
后者是因为职业期望分类表是以职业分类为基础编制而成的。
4.4CFPS2010-CFPS2018职业期望变量在发布库中的变量名 从2010年到2018年中,职业期望变量的发布数据中的变量名汇总如下表。
表5CFPS2010至CFPS2018疾病变量的变量名 少儿孩子自报父母对孩子 成人成人自报 CFPS2010wm601codewd101code 2010 CFPS2012*KS801code*wd101code 2012KS801 CFPS2014*KS801codewd101code 2014KS801CODE CFPS2016KS801CODEWD101CODE 2016KS801CODE CFPS2018QS801_B_2code WD101code2018 QS801_B_2code 注:*为暂时未发布变量,将在相应数据集的下次数据更新时发布。
用户如需提前使用,请发信至项目组服 务邮箱。
11
五.疾病 CFPS官方网址:/cfps 5.1采集方式 CFPS在各轮次分别采集了成人和少儿的疾病信息。
总的来说,我们对二者的问法有所不同:在少儿问卷的疾病题目中,CFPS对于初次参加访问的儿童询问家长孩子患过的最严重的疾病,在后续调查中询问过去12个月孩子的患病情况。
在成人问卷的疾病题目中,CFPS采集受访者被医生诊断的慢性疾病名称。
5.2编码规则 疾病编码的编码来源是《中国家庭追踪调查疾病编码》,详见官网数据文档中的《CFPS疾病编码.xlsx》。
5.3编码工作组织形式 疾病编码的工作模式是双向独立验证并判定。
针对疾病文本,CFPS项目组在调查季访问进行中会通过实时核查系统把被判断为不符合规范的文本反馈给访员,访员会审核并反馈更新值。
完成以上的四遍编码后,会有两位编码员对访员反馈中的文本进行人工编码,项目组的工作人员会做判断和选值,用其选定的数据替换原始数据。
5.4CFPS2010-CFPS2018疾病变量在发布库中的变量名 从2010年到2018年,疾病变量的发布数据中的变量名汇总如下表。
表6CFPS2010至CFPS2018疾病变量的变量名 CFPS2010少儿CFPS2012少儿CFPS2014少儿CFPS2016少儿CFPS2018父母代答 过去12个月最严重的疾病 WC501、WC501CODEWC5CODEPC5_CODEWC5_B_1CODE 出生至今最严重的疾病WC501A_LBLWC501_2010、WC501_2010CODEWC5_2010CODEPC5_2010CODEWC5_2010CODE CFPS2010成人CFPS2012成人CFPS2014成人 第一种慢性疾病名称QP404ACODEQP403AQP402ACODE 12 第二种慢性疾病名称QP404BCODEQP403BQP402BCODE CFPS2016成人CFPS2018个人自答 QP402ACODEQP402ACODE CFPS官方网址:/cfps QP402BCODEQP402BCODE 5.5相关变量:身体不适 在医生诊断的疾病之外,CFPS还询问了受访者身体不适的情况,它没有标准的编码规 则。
2010-2014年均是选择题,询问受访者过去两周内的主要身体不适情况,但2010年的 选项与后面两轮有所不同(见下表)。
2016和2018年是文本型,我们通过提取关键词信息 采用程序进行编码,并对剩余样本实施人工编码。
2010身体不适的固定选项 数值数值对应的身体不适
1 发烧
2 疼痛
3 腹泻
4 咳嗽
5 心慌/心悸
6 其他【请注明】___
7 无自觉症状 表7身体不适变量编码体系表 2012和2014身体不适的固定选项 数值数值对应的身体不适
1 发烧
2 疼痛
3 腹泻
4 咳嗽
5 上不来气
6 无法集中注意力
7 步行困难
8 心慌/心悸/心口痛 77 其他【请注明】____ 78 以上都没有 2016
年及以后文本型身体不适的编码表 编码

编码对应的身体不适
1 发烧
2 血糖高/血糖低/糖尿病
3 肩颈不适
4 呼吸系统不适
5 口腔不适
6 眼部不适
7 妇科问题
8 心脏不适
9 感冒 10 血压低/血压高 11 肠胃不适 12 头部不适/睡眠不佳 14 腰部不适 15 中暑 16 全身不适、疲劳 17 腿部不适 77 其他【请注明】
六.

死亡原因 6.1采集方式 CFPS2010至CFPS2018的死亡变量出现在个人问卷和成员问卷。
CFPS2010在成员问卷中采集过世父母的死亡原因,受访者兄弟姐妹的死亡原因变量没发布。
在个人问卷的婚姻模块,CFPS也会根据受访者婚姻状况询问受访者在某一段婚姻中配偶的死亡原因。
从 13 CFPS官方网址:/cfps CFPS2012开始,我们会问受访者所在家庭成员去世的原因。
6.2编码规则 CFPS死亡原因编码的编码来源是《中国家庭追踪调查死亡原因编码》,详细见附录
4。
6.3编码工作组织形式 CFPS2010至CFPS2018的死亡原因编码均是调查中的现场人工编码,即访员在访问过程中,直接询问受访者的亲属的死亡原因,由访员根据受访者的原话判断这位亲属死亡原因,并从访问系统的死亡原因列表选择对应的编码。
6.4CFPS2010-CFPS2018死亡原因变量在发布库中的变量名 从2010年到2018年,死亡原因变量的发布数据中的变量名汇总如下表。
表8CFPS2010至CFPS2018死亡原因变量的变量名 个人问卷 父亲母亲初婚配偶前任配偶刚过世配偶上期配偶 成员问卷 成员父亲母亲配偶孩子1孩子2孩子3孩子4孩子5孩子6孩子7孩子8孩子9孩子10 2010QB401QB501QE604QE404QE505 2012 QE513QE205、QE308、QE406、QE506deathreason_pdeathreason_fdeathreason_mdeathreason_sdeathreason_c1deathreason_c2deathreason_c3deathreason_c4deathreason_c5deathreason_c6deathreason_c7deathreason_c8deathreason_c9deathreason_c10 2014 EEB302EEB408QEA210 ta401_A14_pta401_A15_fta401_A16_mta401_A17_sta401_A14_c1ta401_A14_c2ta401_A14_c3ta401_A14_c4ta401_A14_c5ta401_A14_c6ta401_A14_c7ta401_A14_c8ta401_A14_c9ta401_A14_c10 2016 EEB302EEB408QEA210 ta401_a16_pta401_a16_fta401_a16_mta401_a16_sta401_a16_c1ta401_a16_c2ta401_a16_c3ta401_a16_c4ta401_a16_c5ta401_a16_c6ta401_a16_c7ta401_a16_c8ta401_a16_c9ta401_a16_c10 2018 EEB302EEB408QEA210 ta401_a18_pta401_a18_fta401_a18_mta401_a18_sta401_a18_c1ta401_a18_c2ta401_a18_c3ta401_a18_c4ta401_a18_c5ta401_a18_c6ta401_a18_c7ta401_a18_c8ta401_a18_c9ta401_a18_c10 14
七.专业 CFPS官方网址:/cfps 7.1采集方式 CFPS2010到CFPS2014采集到的专业数据都是封闭型的固定选项选择题,即访员直接报出专业分类,受访者做选择;2016年起此部分的采集方式发生了改变,CFPS2016和CFPS2018的问卷直接采集受访者提供文本信息。
专业问题针对如下教育阶段和学校类型展开提问:职业初中、普通中专、成人中专、职业高中或技工学校。
7.2编码规则 2016年后的专业编码的编码依据是教育部发布的《中等职业学校专业目录》(2010年修 订版)。
我们根据该目录,将原始文本概括为18个类别及“其他”,如下表所示: 表9专业编码体系表 2010专业的固定选项 数值数值对应的专业
1 农林类
2 资源与环境类
3 能源类
4 土木水利工程类
5 加工制造类
6 交通运输类
7 信息技术类
8 医药卫生类
9 商贸与旅游类 10
财经类 11文化艺术与体育类 12社会公共事务类 13师范类 77其他【请注明】 2012和2014专业的固定选项 数值数值对应的专业
1 制造大类
2 资源开发与测绘大类
3 水利大类
4 交通运输大类
5 医药卫生大类
6 材料与能源大类
7 财经大类
8 土建大类
9 生化与药品大类 10 艺术设计传媒大类 11 文化教育大类 12 旅游大类 13 电子信息大类 14 轻纺食品大类 15 公安大类 16 法律大类 17 农林牧渔大类 18 环保、气象与安全大类 19 公共事业大类 77 其他 2016
年及以后文本型专业的编码表 编码编码对应的专业
1 农林牧渔类
2 资源环境类
3 能源与新能源类
4 土木水利类
5 加工制造类
6 石油化工类
7 轻纺食品类
8 交通运输类
9 信息技术类 10
医药卫生类 11休闲保健类 12财经商贸类 13旅游服务类 14文化艺术类 15体育与健身类 16教育类 17司法服务类 18公共管理与服务类 19其他 15 CFPS官方网址:/cfps 7.3编码工作组织形式 专业编码的编码方式主要是利用统计软件,对原始信息进行文本分析,提取关键词信息,建立关于专业方面的编码字典,对文本进行机器编码,把专业的原始文本归到18类;对于无法用程序归类的文本,我们的处理方式是:编码员对剩余样本实施人工编码。
7.4CFPS2010-CFPS2018专业变量在发布库中的变量名 在CFPS2010至CFPS2018中,专业变量在发布数据中的变量名汇总如下表。
表10CFPS2010至CFPS2018专业变量的变量名 CFPS2010成人CFPS2010少儿CFPS2012成人CFPS2012少儿CFPS2014成人 CFPS2014少儿CFPS2016成人 上学模块1/学校基本情况 KR440KR440KR301(初中)、KRA401(高中)KR301(初中)、KRA401(高中)KRA401(高中)KRA401(高中)*PS501code(高中) 教育史 WH403KW402(初中)、KW502(高中)KW402(初中)、KW502(高中)KW402(初中)、KW502(高中)KW402(初中)、KW502(高中)*KW502_B_1code(高中)、*KW502_B_2code(高中) CFPS2018个人自答CFPS2018父母代答 QS401code(初中)、QS501_b_1code(高中)WS401code(初中)、WS501_b_1code(高中) KW1002_B_1code(初中)、KW1002_B_2code(高中) 注:*为暂时未发布变量,将在相应数据集的下次数据更新时发布。
用户如需提前使用,请发信至项目组服 务邮箱。

八.学科 8.1采集方式 前一节介绍的专业信息只针对高等教育之前的学业阶段,而学科只针对高等教育阶段(大专、本科、硕士和博士)。
CFPS2010到CFPS2014采用封闭型的固定选项方式采集学科信息,即访员直接报出学科分类,受访者做出选择;从2016年开始,CFPS让受访者直接汇报自己的学科文本信息,访员记录受访者汇报的文本。
16 CFPS官方网址:/cfps 8.2编码规则 学科编码依据国务院学位委员会、教育部于2011年公布的《学位授予和人才培养学科 目录(2011年)》的学科门类。
该门类把我国高校的学科分成了13类,即哲学、经济学、法 学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。
我们在 整合学科门类时,将“艺术学”归到“其他”,其他门类保持不变,如下表所示。

11学科编码体系表 编码 编码对应的学科
1 哲学
2 经济学
3 法学
4 教育学
5 文学
6 历史学
7 理学
8 工学
9 农学 10 医学 11 军事学 12 管理学 99 其他 8.3
编码工作组织形式 学科编码的编码方式主要是利用统计软件,对原始信息进行文本分析,提取关键词,建立关于学科方面的编码字典,把学科的原始文本归到12类;对于无法用程序归类的文本,我们的处理方式是:编码员对剩余样本实施人工编码。
8.4CFPS2010-CFPS2018学科变量在发布库中的变量名 在CFPS2010至CFPS2018中,学科变量的发布数据中的变量名汇总如下: 表12CFPS2010至CFPS2018学科变量的变量名 CFPS2010成人CFPS2012成人 上学模块1/学校基本情况 教育史 KR601(大专、本科)、KR801(硕士、博士) QC402(大专)、QC302(本科)、QC202(硕士)、QC102(博士) KR501(大专)、KRA601(本科)、KW602(大专)、KW702(本科)、 KR701(硕士)、KR801M(博士)KW802(硕士)、KW902(博士) 17 CFPS官方网址:/cfps CFPS2014成人CFPS2016成人CFPS2018个人自答 KR501(大专)、KRA601(本科)、KW602(大专)、KW702(本科)、KR701(硕士)、KR801M(博士)KW802(硕士)、KW902(博士) *PS701code(大专)、*PS9code(本科、硕士、博士) *KW602_B_1code(大专)、*KW702_B_1code(本科)、*KW702_B_2code(本科)、*KW802_B_1code(硕士)、*KW902_B_1code(博士) QS701_B_1code(大专)、 KW1003_A_1code(大专)、KW1003_A_2code(本科)、 QS9code(本科、硕士、博士)

KW1003_A_3code(硕士)、KW1003_A_4code(博士) 注:*为暂时未发布变量,将在相应数据集的下次数据更新时发布。
用户如需提前使用,请发信至项目组服 务邮箱。

九.

学校类型 9.1采集方式 CFPS2010至CFPS2018在教育史模块、上学模块或学校基本情况模块采集了受访者的学校信息。
我们根据院校名称,对高等教育院校的类型进行编码。
9.2编码规则 学校编码的编码规则是我们根据中国专科及以上院校的实际情况做的分类。
如下表所示, CFPS2010和CFPS2014皆把院校编到了14类和其他。
虽然题干提问的是就读的本科院校, 但回答中包含大中专院校、高职院校、成教院校等多类教育形式不同的院校。
因此,此次编 码对各类学校采取明细分类,无明细分类需求的用户可自行合并。
2016
年开始,我们把2010 至2014年学校编码中的“全国重点”进行细分,包括“
1、全国重点院校(985高校,第
批次录取)”和“
2、全国重点院校(非985的211院校,第一批次录取)”,其他编码依次往 后挪一个类别。
CFPS2010-CFPS20141全国重点2普通重点3二本4三本5部队院校6艺体院校7海外院校 表13学校编码体系表 CFPS2016、CFPS20181全国重点院校(985高校,第一批次录取)2全国重点院校(非985的211院校,第一批次录取)3普通重点院校(第一批次录取)4普通本科院校(第二批次录取)5三本院校(第三批次录取)6部队院校(提前批录取)7艺术、体育类院校 18 CFPS官方网址:/cfps 8大专高职9中专10夜大与函授11自考12广播电视大学13网络教育院校14党校99其他 8海外院校9高职与大专院校10中专院校1111成人教育院校(夜大和函授)12自考院校13广播电视大学14网络教育院校15党校,代码99其他 9.3编码工作组织形式 学校变量的具体编码为双向独立验证并判定。
9.4CFPS2010-CFPS2018学校变量在发布库中的变量名 在CFPS2010至CFPS2018中,学校变量的发布数据中的变量名汇总如下表。
表14CFPS2010至CFPS2018学校变量的变量名 CFPS2010成人 CFPS2012成人CFPS2014成人CFPS2016成人CFPS2018个人自答 学校基本情况 PS1CODE_COLLEGEQS1_B_1CODE 上学模块
1 *KRA603CODEKRA603CODE 教育史COLLEGETYPE(来源:C301您读的是哪类本科?) 注:*为暂时未发布变量,将在相应数据集的下次数据更新时发布。
用户如需提前使用,请发信至项目组服 务邮箱。

十.方言 CFPS方言编码的主要依据是《中国语言地图集》(TheLanguageAtlasofChina,以下简称《地图集》)。
《地图集》由中国社会科学院语言研究所和澳洲人文科学院合作,由中国社会科学院语言研究所李荣、熊正辉、张振兴担任主编,于1983年开始编制,1987年完成。
《地图集》在全面的语言学调查的基础上,按古入声字、古浊声母字的演变规律对汉语方言进行分类,相比其他分类方法更为科学,已成为方言学界实际上的学科标准。
《地图集》有中文和英文版本,中文版由香港朗文(远东)出版公司于1987年和1991年分两次出版。
19 CFPS官方网址:/cfps 方言编码被设定为限制性数据,并不在公开发布的数据集中,用户需要使用的话请填写我们的限制性数据申请表。
方言编码的详细说明见《技术报告系列:CFPS-28中国家庭追踪调查方言编码》。
我们采用了双向独立验证并判定(Two-wayIndependentVerificationwithAdjudication)的方式进行编码。
第一轮编码由三个编码员分别单独对每一个受访者所填写的方言信息进行编码,若结果一致,则保留;若不一致,则由另一位经验较为丰富的编码员结合CFPS数据中的其他信息,重新确定所属编码类别编码。
经统计,2012年成人库中的QZ104变量,不同编码员之间的匹配率83.04%,不匹配的情况在二次编码时结合多变量信息已得到很好解决,可编码的样本达到99.88%。
编码时,编码员通过被访者填写的文字信息,并结合其所在区县,按照《中国语言地图集》进行编码。
整个过程遵循以下基本原则:a)受访者的回答为“本地话”:按照其所在区县的方言类型编码;b)受访者回答出的方言类型与其所在区域的方言不符:以受访者回答为准;c)非单一方言及少数民族语言:统一编码为99(代表无法编码);d)受访者的回答为“家乡话”:参照其出生地及3岁时户口所在地信息编码。
20 附录 附录1行业编码体系表 Code12345678910111213141516171819202199 Label农、林、牧、渔业采矿业制造业电力、燃气及水的生产和供应业建筑业交通运输、仓储和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地产业租赁和商务服务业科学研究、技术服务和地质勘查业水利、环境和公共设施管理业居民服务和其他服务业教育卫生、社会保障和社会福利业文化、体育和娱乐业公共管理和社会组织国际组织军队无法编码 附录2行政/管理职务编码表 Code012345678-
7 Label无职务公共部门基层行政/管理职务市场部门基层行政/管理职务公共部门中层行政/管理职务市场部门中层行政/管理职务公共部门高层行政/管理职务市场部门高层行政/管理职务公共部门顶层行政/管理职务市场部门顶层行政/管理职务无法分类 21 CFPS官方网址:/cfps -
8 不适用 -
2 拒绝回答 -
1 不知道 CFPS官方网址:/cfps 附录3职业期望编码体系表 Code Label
1 国家机关、党群组织、事业单位负责人
2 企业负责人
3 科学研究人员
4 工程技术人员
5 飞机和船舶技术人员
6 卫生专业技术人员
7 经济和金融业务人员
8 法律专业人员
9 教学人员 10 文学艺术工作人员 11 体育工作人员 12 新闻出版和文化工作人员 13 其他专业技术人员 14 行政办公和其他办事人员 15 安全保卫和消防人员 16 餐饮、旅游和健身娱乐场所服务人员 17 运输服务人员 18 社会服务和居民生活服务人员 19 农业生产人员 20 机械、电子、电力设备制造加工和维修人员 21 运输设备操作人员及有关人员 22 其他设备操作人员及有关人员 23 军人 24 读书 25 为人民服务 26 打工 27 不便分类的其他从业人员 -
1 不知道 -
2 拒绝回答 -
8 不适用 -
7 职业描述不清,无法分类 -
9 缺失 28 工人 29 看他/她自己 *注:2010
年的职业期望体系表没有“28工人”、“29看他/她自己”。
我们在往后轮次里加入了这两个类 别。
22 附录4死亡原因编码体系表 编码 11.01.0.11.0.101.0.111.0.121.0.131.0.141.0.151.0.21.0.31.0.41.0.51.0.61.0.71.0.81.0.91.11.1.161.1.17101111.0.5211.0.5311.0.541212.012.0.5512.0.5612.0.5712.0.5812.0.5912.0.6012.0.6112.0.621313.0.6313.0.6413.0.6513.0.6613.0.67 含义传染病和寄生虫病传染病伤寒和副伤寒败血症流行性乙型脑炎流行性出血热麻疹病毒性肝炎艾滋病痢疾肠道其他细菌性传染病呼吸道结核其他结核钩端螺旋体病破伤风百日咳脑膜炎球菌感染寄生虫病疟疾血吸虫病肌肉骨骼和结缔组织疾病泌尿生殖系统疾病肾小球和肾小管间质疾病前列腺增生泌尿生殖系统的其他疾病妊娠、分娩和产褥期并发症直接产科原因计流产妊娠高血压综合征梗阻性分娩产后出血母体产伤产褥期感染间接产科原因计妊娠、分娩和产褥期的其他情况起源于围生期的某些情况早产儿和未成熟儿新生儿产伤和窒息新生儿溶血性疾病新生儿硬化病起源于围生期的其他情况 CFPS官方网址:/cfps 编码 17.0.8117.0.8217.0.8322.02.0.182.0.192.0.202.0.212.0.222.0.232.0.242.0.252.0.262.0.272.12.233.0.283.144.04.1566.326.3377.07.17.1.347.1.357.1.367.1.377.1.387.1.397.1.407.1.417.1.4288.0.4323 含义其他意外事故和有害效应自杀被杀肿瘤恶性肿瘤鼻咽癌食道癌胃癌结肠、直肠和肛门癌肝癌肺癌乳腺癌宫颈癌膀胱癌白血病良性肿瘤其他肿瘤血液、造血器官及免疫疾病贫血血液、造血器官及免疫的其他疾病内分泌、营养和代谢疾病糖尿病内分泌、营养和代谢的其他疾病精神障碍神经系统疾病脑膜炎神经系统的其他疾病循环系统疾病急性风湿热心脏病慢性风湿性心脏病高血压性心脏病急性心肌梗死其他冠心病肺原性心脏病其他心脏病其他高血压病脑血管病循环系统的其他疾病呼吸系统疾病肺炎 1414.0.6814.0.6915161717.0.7017.0.7117.0.7217.0.7317.0.7417.0.7517.0.7617.0.7717.0.7817.0.7917.0.80 CFPS官方网址:/cfps 先天畸形、变形和染色体异常先天性心脏病其他先天畸形、变形和染色体异常诊断不明其他疾病损伤和中毒外部原因机动车辆交通事故机动车以外的运输事故意外中毒意外跌落火灾由自然环境因素所致的意外事故淹死意外的机械性窒息砸死由机器切割和穿刺工具所致的意外事故触电 8.0.448.0.458.0.4699.0.479.0.489.0.499.0.509.0.51-1-2-8-9-10 慢性下呼吸道疾病尘肺呼吸系统的其他疾病消化系统疾病胃和十二指肠溃疡阑尾炎肠梗阻肝疾病消化系统的其他疾病不知道拒绝回答不适用缺失无法判断 24

标签: #长安 #文件 #显卡 #怎么看 #会员 #cs #怎么回事 #chanel