定性数据:单变量
发布时间:2021-2-26 14:01阅读:786
我们以一个例子来说明单变量定性数据的整理及表示方法。
例2.1 {C02F2.1-2.7}
金环茶叶店最近对160名顾客进行了问卷调查,以了解顾客最喜欢哪一类茶叶。
该茶叶店将茶叶分为6类:绿茶、红茶、青茶、黄茶、白茶和黑茶。问卷让顾客只选一类其最喜欢的茶。图2.1是对160名顾客的调查结果。
图2.1 顾客对茶叶喜好的问卷调查
图2.1是调查原始记录的汇总,不经过整理不能为我们提供更多的信息。下面介绍这类数据的不同整理方法。
2.2.1 频度表
我们要问的第一个问题是,在这160位受访顾客中,有多少人最喜欢红茶,有多少人最喜欢绿茶,等等。频度表就是用表的形式反映在这些顾客中喜欢不同茶叶的人数。制作频度表的第一步是计算喜欢每一种茶的人数。我们当然可以一个一个数,但更容易的方法是用Excel的 COUNTIF 来做。
COUNTIF 的功能是在所选定(指定)的区域(range)内计算(数)(count)符合所要求条件(标准)(criterion)的单元格(cell)数目,其语法结构为:
= COUNTIF(range, criteria)
其中,range是要计数的区域,而criteria是“条件”。COUNTIF的计算结果是返回所选区域中满足该条件的单元格的数目(见Excel小贴士2.1)。
图2.2显示了如何用COUNTIF来计算例2.1中喜欢不同种类茶叶人数(频度)的计算模型。
图2.2 茶叶喜好调查:COUNTIF的应用
Excel小贴士2.1 – COUNTIF {C02T2.1}
COUNTIF的语法结构为:
=COUNTIF(range, criteria)
其中,“range”可以是一个数组——多列、多行、单列或单行。criteria一般是用引号“ ”引起来的一个条件或标准(argument, statement)。COUNTIF会在区域内计数符合criteria所要求条件的单元格的个数。
criteria可以是一个条件:用 =, >, <, <> (不等于)连接某一个数或某一个“陈述”(单词、单字等),如下面的例子中#1~#6。
criteria也可以是一个以上的条件,但这时就要用COUNTIFS (COUNTIF后多一个S)。COUNTIFS的语法为:
=COUNTIFS(criteria_range1, criteria1, [criteria_range2, criteria2]…)
其中,criteria_range1, criteria1与COUNTIF相同,计算区域1中满足条件1的单元格数,[criteria_range2, criteria2]则计算区域2中满足条件2的单元格数,等等。最后,公式返回区域1和2中同时满足条件1和2的单元格数。区域1和区域2可以是同一个区域,也可以是不同的区域。
下面的例子是用COUNTIF及COUNTIFS计算数组B4:F7中满足不同条件的数字的个数。#7是用COUNTIFS计算满足两个条件(比10大但比13小)的数字的个数(共10个){C02T2.1}。
根据上述COUNTIF的计算结果,我们可以将图2.1的原始数据整理成如图2.3所示的频度表。频度表将数据组中的数据分成互为排斥且不重复的类别(mutually exclusive),并将各类别中数据出现的次数计数。例如,我们将图2.1中的160个数据根据顾客喜好的茶叶种类分类(绿茶、红茶等),而后将每一种茶叶出现的次数计数(用Excel的COUNTIF功能)。
图2.3 频度表
频度 是指某观察值(如绿茶)在所有观察值中出现的次数。
累积频度 是各观察值的频度逐项累积的结果。
某观察值的 相对频度 是该观察值的频度除以所有观察值次数之和的结果。
累积相对频度 是观察值的相对频度逐项累积的结果。
在图2.3所示的频度表中,我们引入了4个新名词:频度(frequency)、累积频度(cumulative frequency)、相对频度(relative frequency)、累积相对频度(cumulative relative frequency)。各名词的定义如下。
很多时候,我们可以为一个区域或一个单元格赋予一个名字,在使用这个区域(单元格)时,引用该名字就可以了。仍以图2.1为例,我们将图中的区域A4:J19命名为“茶叶喜好”,之后在COUNTIF公式中(或其他计算中),就可以直接用该名称代替该区域,如图2.4所示。我们将在第16章介绍如何为一个区域(或单个单元格)命名。
图2.4 区域命名及应用
本例中,我们已经知道茶叶的种类,很容易知道可将数据分成6类。很多时候面对一个庞大的数据组时,我们并不能很容易知道数据组中有多少个不重复的类别。Excel的“高级筛选器”(advanced filter)可以用来筛选出不重复的数据。Excel小贴士2.2对此有介绍。
Excel小贴士2.2 –筛选不重复数据{C02T2.2}
我们以一个例子说明高级筛选器(Advanced Filter)的用法。
下面是某儿童节公园记录的入园儿童的年龄。计算各年龄的儿童数。
步骤:
(1)列出所有年龄——用高级筛选器找出所有不重复年龄(不重复数据)(unique value)。
①找出每一列不重复年龄——以A列为例。
单击【数据】→【筛选】→【高级筛选】,出现如下图所示的“高级筛选”对话框,在对话框中完成下列设置。
a.【方式】:选择“将筛选结果复制到其他位置”。
b.【列表区域】:A4∶A14(包括表头A)。
c.【条件区域】:A4。
d.【复制到】:A18,将筛选的结果放到A18 (从A18开始)。
e.【选择不重复的记录】:选中复选框。
单击“确定”按钮,得到A列的不重复数据(A19:A24)。
②与上述第①步相似,完成B、C、D、E、F各列的不重复数据筛选。
(2)因为只能将单列的数值筛选,我们将A、B、C、D、E、F各列的不重复数据复制(copy)并粘贴(paste)到一列,见下图step 2。
(3)与上述(1)中的①步相似,筛选该列的不重复数据,并将各数据按年龄从小到大排序。
(4)用COUNTIF计数原始数组中各不重复数据的出现次数。
2.2.2 柱形图(直方图)
柱形图 (直方图,histogram)是一种二维统计图,其横坐标一般为样本的分组(属性)(category),纵坐标一般为各组的度量。
下面以“频度”为例来说明如何作柱形图(见图2.5)。其他种类图的作法与此相似(见图2.6){C02F2.1-2.7}。
(1)在图2.3的频度表中,选横坐标的列(茶叶种类)(A44:A51)及纵坐标的列(频度)(B44:B51)。
(2)单击【插入】→【推荐的图表】→【所有图表】→【柱形图】→【簇状柱形图】(选取所需图的种类),即可得如图2.5所示的柱形图。
用相同的方法,可作累积频度、相对频度、累积相对频度的柱形图,如图2.6所示。
图2.5 柱形图的作法
图2.6 顾客茶叶喜好柱形图
2.2.3 饼图
饼图(pie),或称饼状图,是将一个圆划分为几个扇形,各扇形相对面积的大小表示不同量、频率或百分比之间相对大小关系。
饼图的作法与柱形图的作法基本相同,只是需要选择“饼图”而已。图2.7是例2.1的频度与相对频度的饼图。
图2.7 顾客茶叶喜好饼图
2.2.4 柏拉图
柏拉图(Pareto chart),也称伯拉分布图(Pareto distribution diagram),它将柱形图和折线图放在同一图中,柱形图表示频度,各频度值(由左到右)从大到小排列,折线(曲线)则表示累积相对频度。在柏拉图中,自变量为横轴,而频度值及累积相对频度值为纵轴。左右纵轴代表的意义不一样,度量单位也不一同。在图2.8中,左轴表示的是频度,右轴表示的是累积相对频度{C02F2.7-2.18}。
图2.8是根据茶叶喜好调查所作的柏拉图。
下面我们详述用Excel制作图2.8所示柏拉图的步骤。
1.排序
用Excel的【排序和筛选】根据频度由大到小将表2.2(见图2.3)重新排序,并计算累积频度、相对频度及累积相对频度,如图2.9所示。
图2.8 顾客茶叶喜好柏拉图
2.选择与所作图有关的单元格区域
选A2:A8单元格区域(茶叶种类),然后按住【Ctrl】键不放,依次选择B2:B8(频度)及E2:E8(累积相对频度),如图2.10阴影所示。
图2.9 将表2.2重新排序
图2.10 选择与所作图有关的单元格区域
3.绘制初步的柏拉图
步骤如下:
选择菜单命令【插入】→【推荐的图表】→【所有图表】→【组合】。
【组合】中的图可以在同一个图中有两个纵轴(主纵轴和次纵轴),从而使同一个图可以包含两种不同度量单位的值。
在【组合】中,选择【自定义组合】:
(1)在【系列名称】下,【频度】选“簇状柱形图”,这一选择使主轴表示(度量)“频度”;
(2)【累积相对频度】选“带标记的堆积折线图”;
(3)同时选择“次坐标轴”,从而使次坐标轴表示(度量)“累积相对频度”,如图2.11所示。
单击【确定】按钮,可得初步的柏拉图,如图2.12所示。
图2.11 绘制初步的柏拉图
4.加工初步的柏拉图,使图看起来更专业、易懂、美观
我们说图2.12是“初步”的柏拉图是因为该图已经包括了要表达的基本信息,但我们可以对其做进一步的加工修改,使图看起来更专业、易读、易懂、美观。
图2.12 初步的柏拉图
(1)添加横轴。
双击横轴所在位置,选择【设置坐标轴格式】→【坐标轴选项】→【填充线条】→【线条】,如图2.13所示,完成以下设置。
线条:实线( S )。
颜色( C ):黑。
透明度( T ):0%。
宽度( W ):1.25磅。
图2.13 加工柏拉图(1)
(2)将横轴的标签改为黑体字。
双击横轴所在位置,单击鼠标右键,打开如图2.14所示菜单。
(3)单击“字体”,打开如图2.15所示对话框,完成以下设置。
字体颜色( C ):黑。
字体样式( Y ):加粗。
大小( S ):10。
单击【确定】按钮。
图2.14 加工柏拉图(2)
图2.15 加工柏拉图(3)
(4)添加纵轴(主纵轴及次纵轴),改变纵轴标记字体、刻度线标记,方法与上述方法相似。
(5)将图的名称改成“茶叶喜好调查柏拉图”,如图2.16所示。
图2.16 加工柏拉图(4)
(6)折线“累积相对频度”太粗,我们将其改细一点。单击折线,打开如图2.17所示对话框,完成以下设置。
线条:实线( S )。
颜色( C ):黑。
透明度( T ):0%。
宽度( W ):1磅。
(7)在折线上的各数据点加上数据。单击折线上任一数据点,可得图2.18所示对话框,完成以下设置。标签选项:值(V)。
图2.17 加工柏拉图(5)
(8)与上述为折线上的各数据点加数据的方法相似,在各频度点上加上数据。
图2.18 加工柏拉图(6)
(9)将柱状图中各柱间的距离设为0,如图2.19(a)所示。至此,我们完成了所要求的柏拉图,如图2.19(b)所示。
图2.19 加工柏拉图(7)
2.2.5 折线图和散点图
折线图和散点图也是表示数据的常用工具。图2.20中的A是用例2.1的数据所作的折线图。Excel的散点图不太适用于本例,因为散点图只适用于“比较至少两组值或两对数据,显示集值之间的关系”(Excel使用说明),而本题的数据显然不太适合。图2.20中的B是用“散点图”作的散点图,可以注意到其横轴( x 轴)的标记不是我们所期望的“茶叶种类”,而是代之以数字1,2,…。我们可以用折线图很容易地解决这个问题,将折线图中的线条去掉即可(还记得怎么做吗?),如图2.20中C所示{C02F2.19}。
图2.20 折线图与散点图
图2.20 折线图与散点图(续)
温馨提示:投资有风险,选择需谨慎。