怎样对化学方程式怎样对化学测验数据进行处理
【怎样对化学方程式】怎样对化学测验数据进行处理
运用统计方法对通过化学测验等手段获得的大量数据进行处理,不但能使数据不再杂乱无章,而且能反映数据的分布特征,对数据所属总体作出具有一定可靠程度的估计和推断,揭露数据隐含的信息,为教学评价提供可靠依据。现对一些数据处理方法作扼要介绍。
一、数据的初步处理
通常采用列表法和图示法对数据进行科学分组、归纳、概括,使之系统化。
(一)列表法
表格形式中,以频数分布表最重要和常见。下面以某班级化学考试成绩为例,说明如何编制。
1.求全距R:在本例中
R=最高分-最低分=95-50=45
2.决定组数和组距:组数过多会失去分组化繁为简的意义,太少则组距太大,造成计算结果的失真,一般以10~20组为宜。本例分为10组。
组距指每一组的间距。一般是将数据等距分组并且进为整数。
3.决定组限:组限即每组的起止范围。最高组要包括最大值数据,最低组要包括最小值数据。本例中的组限为50~54、55~59、…,也可省去上限,记为50~、55~、…。
4.求组中值:组中值指各组的中点值,也称组中点,用Xc表示:
本例中第一组的组中值为:
5.登记频数:将每个数据按所属的组一个一个登记于表中,登记时可用划“”法或记“正”法。登记完毕后,统计各组登记的数目,即得频数(f)。至此,一个简单的频数分布表制作完毕,由此表可大致了解数据分布的情况、整体水平及差异程度。
(二)图示法
处理教学测量数据常用的图形是直方图和多边图。
1.直方图
由频数分布表可以制作频数直方图:以分数为横轴,频数为纵轴,建立直角坐标系。在横轴上标出各组分数的上、下限,以组距为宽、各组频数为高作出各矩形,即得频数直方图。左下图就是根据表21的资料所作的直方图。
2.多边图
频数多边图的画法与直方图相似,不同的只是它是以每组的组中值代表该组数据作横坐标,再在纵坐标上找出相应的频数相交成一点,然后把每个点用直线联接就成多边图。右上图为据表21制作的频数直方图。
3.频数分布曲线
如果所考察的分数增多,组距减小,多边图的折线会变为光滑均匀的曲线,这种曲线称为频数分布曲线。下面是三种常见和有用的分布曲线。
二、数据特征量的计算
上述图表只是一种粗略、直观的概括,为了进一步分析研究,要计算出反映数据特征的量数,如集中量、差异量、相关量等。
(一)集中量
集中量中以算术平均数用途最广。它的计算式为:
其中,f1——第i组数据的频数,
Xi——第i组组中值,
N——总频数(N=Σfi)
当原始数据较多或分组较多时,可以通过有统计功能的计算器或计算机帮助运算。具体的使用方法参见各计算器的使用说明。
(二)差异量
研究数据分布不仅要考察它的集中趋势,还要考察分数的离散程度、变化的大小,即差异量。教育统计中常用的差异量有全距、方差和标准差等。
全距计算方便,但它受两端数据的影响太大,没考虑中间数值差异,感应不灵敏。
方差和标准差是最重要、最常用的两个差异量数。
方差是离差平方和的算术平均数,用σ2(或S2)表示:
N——总频数
方差考虑了所有数据的变异性,在理论研究上有重要价值,也方便了代数运算。但方差与原数据单位不一致,因此将方差开平方后得到的标准差σ(或S)在实际中使用更多些。
Xc──组中值,
f──各组频数,
标准差可以用有统计功能的计算器或计算机方便地算得。
若两组数据测量单位不同(如两门不同学科、平均数相差较大的测量),不能直接利用标准差的大小来比较差异程度,而应用使用相对差异量——差异系数。
差异系数是标准差与算术平均数的百分比,这是一个没有单位的相对量,用Cv表示:
利用差异系数可以比较不同学科或不同班级考试的差异程度,还能用于判断学习分化程度:若Cv≤9%,可以认为没有分化现象,若Cv≥18%,则分化现象显著。
(三)相关量
对教育现象中两个变量间相互关系的研究,称为相关研究,两个变量之间相互关系密切程度的量称为相关量。相关研究对分析测验的质量以及进行教改实验研究,具有重要作用。
相关量常用相关系数表示,取值范围为-1≤r≤1。正号表示正相关,说明两个变量变化方向一致(同增同减);负号表示负相关,说明两个变量变化方向相反(此增彼减)。r的绝对值大小表示相关的密切程度,r越大,说明两个变量关系越密切,r越小,相关程度越低,r等于零称零相关,说明两个变量变化无关。
相关系数的计算方法很多,需要根据不同类型的数据和条件选用。下面介绍在教学测量和评价中常用的两种相关系数计算法。
1.积差相关系数:
Y数列的离差,N为两个变量的数对个数,σx为X数列的标准差,σy为Y数列的标准差。
如果公式中的离差和标准差用原始数据代入并化简,数据较多时,计算积差相关系数是一件很复杂的事。对于只有单变元统计功能的计算器,可用计算器分别求得。
对于有线性回归功能的计算器,求积差相关系数简单又准确。详细见各计算器说明书。
使用积差相关系数时,有几点说明:
①使用条件:两个变量都是正态变化的连续变量,两个变量的关系是线性的,数据要成对,一般大于30对。
②相关系数不是等单位度量,不能进行简单比较。例如,r1=0.6, r2=0.3, r3=0.20, r4=0.50,不能认为r1=2r2, r1-r2=r4-r3。
③相关仅仅是两列变量联系的密切程度和方向,并无因果关系。
④评判两列数据相关程度的强弱,首先要从性质上具体分析事物间是否真的存在相关,因为毫无联系的两列变量代入公式,也可能会求出一个有显著意义的相关系数来。其次相关程度还与取样大小有关,对所求的相关系数,应根据具体情况选用适当的统计量进行显著性检验。积差相关系数可利用积差相关系数显著性临界值表(附表1)进行判断。
例如:算得化学平时成绩和毕业考试成绩的相关系数r=0.780,自由度=N-2=10-2=8查表知显著性水平为α=0.01时,r(8)0.01=0.765<0.780这说明有99%以上的把握说化学的平时成绩和毕业考成绩有显著关系。
2.等级相关系数:
教学中,有些变量只能分出等级,如思想品德优劣、课堂教学质量等,这些变量是不连续的,应采用等级相关的方法处理。此方法又称等级差数法,适用于两变量都为等级次序和可变为等级次序的资料,或当两列连续变量N<30时,也要按大小顺序排列编号、变换为等级变量。
rR——等级相关系
数,
D——两数列成对等级的差数,
N——总对数。
rR的显著性可通过查等级相关系数临界值显著水准表(附表2)进行判断。
下面以表3资料为例,说明等级相关的计算方法。
①求变量X、Y的等级Rx、Ry:将数列由大到小排号,最大为1,依次递增。遇相同数目,取几个值所占等级的平均数。
②求出对应的等级差数D和D2,并将D2加和。
③代入公式:
④查附表2,在双尾检验中,当N=10,显著性水平为α=0.1时,rR(10)0.05=0.648<0.744,故有90%以上的把握判断化学毕业考成绩与平时成绩相关。
等级相关不涉及变量的分布状态及成对数目大小,它的适用范围更大,不过精确度比积差相关系数差。
三、测量数据的转换
由于每次测验的参照点不同,原始分数没有绝对零点,不同测验的每“1”分互不相等,因此不同次考试、不同学科的考试成绩不能直接用原始分数比较,也不具加和性。为了使原始分数具有意义并有可比性,必须将它们转换成具有一定参照点和单位量表的分数。通常转换成下面几种标准分:
(一)Z标准分
Z标准分是一种以平均数为参照点、以标准差为单位的导出分数:
Xi——原始分数;
σ——总体标准差
Z标准分具有下列性质:
(1)一组数据中,各Z标准分的平均数为零,标准差(σz)等于1。因此它有固定零点位置,有相等单位,可进行四则运算。
(2)Z标准分的分布形状同原始分数。为了两组数据的Z分数可进行比较,原始分数最好是正态分布或近似于正态分布。若是非正态分布,可将原始分数转换成百分等级,然后从正态曲线面积表找到百分等级对应的Z分数,这个Z分数叫做正态化的Z分数,这样就能较准确地比较。
(3)若原始分数的分布是正态分布或近似正态分布,标准差的取值范围大约从-3个标准差到+3个标准差。
Z标准分在教学测量中有广泛的应用:
(1)确定考生在团体中的相对地位:
正态分布的原始分数一经转换成Z分数,就可以通过查正态分布表得知此原始分数的百分等级,知道在它之下的分数个数占全体分数个数的百分之几,确定考生的相对地位。
例:某学生化学分数Z=1,也就是说他的分数比平均分多一个标准差,查表可知正态曲线下的面积P=0.3413(如下图阴影部分)。这样Z<1的曲线面积为P+P'=0.5+0.3413=0.8413
占全部曲线下面积的84.13%,也就是说比该学生分数低的学生占84.13%,比他高的占15.87%。若考生总数为100,则该学生在其中处于第16名。
(2)比较学生考试成绩的优劣:
Z分数由于有可比性和加和性,可以用于比较同一考生同一学科不同次考试的成绩、同一考生不同学科的成绩,或不同学生多学科的总成绩。
例1:一个学生期中、期末化学成绩的比较。
从原始分数看,考生期末成绩低于期中考试,似乎退步准分Z看,期中时他处于全班平均分之下,而期末却在其上进步。
例2:两名学生高考时三门学科总分的比较。
从原始总分看,两名学生学习水平无差别,但若以标准总分看,乙的成绩比甲好。
(3)在管理学生学习质量中的应用。
根据标准分作出学习质量的Z管理图,可真实反映学生的学习进步情况。
平处于全班平均分之上,折线总趋势是左下右上,说明高一阶段该生化学成绩在进步。
(二) T标准分
由于Z分数常出现小数、负数,不仅带来运算上的麻烦,也不易为人们所接受。教育统计中又常将Z分数转换成T分数:
T=10Z+50
这种T分数的平均分为50。
国外标准化学考试中还常采用C分数,它以平均分为500分,标准差为100,其通式为:
C=100Z+500
(四)总体平均数的区间估计
在数理统计中,一般把研究对象的全体称为总体,其中每一研究对象称为个体,从总体中随机抽取的一部分个体称为样本。
S;总体的各种特征量叫做总体参数,通常用希腊字母表示,如μ、σ。
根据样本统计量的值去推断总体参数的值称为总体参数估计。为了使统计推断正确可靠,样本应该有较好的代表性。为此,要求抽样方法合理、样本容量尽可能大些。通常把样本容量≥30的称为大样本(≥50更具代表性),<30的称为小样本,它们往往采用不同的推断方法。
当样本容量一定时,从总体中随机抽取样本有多种可能,存在抽样误差,各可能样本的某一统计量的分布称为抽样分布。各统计量抽样分布的标准差常称为该统计量的标准误,用SE并下标该统计量的符号来表示(例如用于总体参数值,样本的代表性好,由此作出的总体参数估计比较可靠。
抽样分布及其规律是统计推断的基础。
对总体参数的估计一般采取确定总体参数有多大可能性(置信度P)出现在某一区间(置信区间内的方式。置信度P=1-α,α为风险度,又称显著性水平,通常取α=0.05或α=0.01)。置信区间以对应的样本统计量为中心,上、下限对称地距此中心距离为样本统计量标准误的若干倍。
对于大样本,总体平均数μ按下式估计
对于小样本,总体平均数μ按下式估计
例:从1990年某省高考化学试卷中随机抽取400份的平均成绩是75.5分,标准差是10分,试估计全省高考化学平均成绩。
即全省化学均分有95%可能在74.5与76.5之间。
即有99%把握确定全省化学均分在74.2与76.8之间。由此例可见,提高可
靠性要以降低精度(扩大置信区间)为代价。
[NextPage]
五、统计假设检验
利用样本信息,根据概率理论对其总体参数的假设作出拒绝或保留的决断,称为假设检验。
假设检验时要作两个相互对立的假设,即零假设(或称虚无假设)和备择假设(或称择一假设)。所谓零假设就是假设当前样本所属总体与原设总体无区别,用H0表示,记如μ=μ0。备择假设则假设样本所属总体与原设总体不同,用H1表示,记如μ≠μ0。
假设检验是在假定零假设真实的前提下,考察样本统计量的值在以假设总体参数值为中心的抽样分布上出现的概率,如果出现的概率很大,则接受零假设、拒绝备择假设;如出现的概率很小,由于小概率事件很难发生,则拒绝零假设而接受备择假设。
通常把概率α≤0.05(或0.01)的事件看成小概率事件,这个概率标准也称为显著性水平。显著性水平越高(α值越小),越不容易拒绝零假设,推断的可靠性越大,反之亦然。
拒绝性概率分置于理论抽样分布的两侧时称为两侧检验。拒绝性概率置于一侧(右侧或左侧)时称为单侧检验(如下图所示)。运用何种检验形式须视具体问题而定。
通常假设检验按以下四步进行:
①提出假设;
②选择适当的检验统计量并加以计算;
③确定检验形式,规定显著性水平,并确定临界值;
④将算得的检验统计量与临界值比较,作出拒绝或接受检验假设。
例:某校高一年级进行化学教改实验,实验班共50人,学年末参加统一考试平均得分为79.5分。全年级平均分数为75分,标准差为10.3分。问实验班的平均分与全年级的平均分有无显著差异?
①提出假设:
H0∶μ=75;H1∶μ≠75
②选择检验统计量:这是一个大样本平均数假设检验问题,选用Z统计量:
③规定显著性水平 并确定临界值:
由于没有资料能够说明该班学生的考试成绩必然高于年级平均分,故采用双侧检验。
如果取显著性水平α=0.01,正态分布两尾面积各为0.005,查正态曲线
④统计决断:
假设而接受备择假设。我们可以在99%的可靠性上作出实验班的平均分与全年级平均分有显著差异的结论。增大样本容量可以减少拒绝真实假设和接受错误假设两类错误的发生。
六、平均数差异的显著性检验
比较两个班、两个学校或不同地区的某些指标是否有差异时,研究的是来自不同总体的两个样本的信息,希望通过这两个样本的数据来比较它们所代表总体间的关系。由于平均数是一组数据的代表量,因此经常通过样本平均数的差异分析它们各自所代表的总体间的差异,这种方法称为双样本平均数差异的假设检验。下面介绍独立大样本和相关样本的平均数差异的显著性检验。
(一)独立大样本平均数差异的显著性检验:
随机抽取的不存在相关的两个样本称独立样本。独立大样本的显著性检验,采用Z检验:
n——样本容量,σ——总体方差。
问两个班的成绩有无显著差异?
①提出假设:
H0∶μ1=μ2;H1∶μ1≠μ2
②因为是独立的大样本,选Z检验:
③没有资料说明两个班谁优谁劣,故采用双侧检验:
④统计决断:
实验班与对比班的平均分有显著差异。
(二)相关样本平均数差异的显著性检验
对同一样本(如班级、学校)的两次测验作出评价时,由于在同一群体中进行,两次测验的分数是相关的。相关样本平均数差异检验的统计量t为:
D为两组样本差,Di=Xi-Yi
t服从自由度df为n-1的t分布。
例:随机抽取10名学生作被试,并编制好两套测试“复份”,实验前随机抽取一份对学生进行测验,实验后用另一份测试。
问实验是否取得显著效果?
①提出假设:
H0∶μx=μy; H1:μx≠μy
②同一群体两次测试,总体正态,采用t检验。
③没有资料说明实验一定有效,采用双侧检验。取a=0.01,df=n-1=9,查表,临界值t(9)0.005=3.25
④统计判断:
t>t(9)0.005,故拒绝H0,接受H1,有99%的可靠性推断此次实验取得明显效果。
https://m.oubohk.cn/huaxue/58766/