365bet体育在线投注_mobile.365-848.com-365bet官网手机版
做最好的网站

教育测量与评价期末复习重点

2018-12-31 06:20 来源:未知

  第二章教育测量的质量指标 信度主要对整个测量而言。 难度主要对测量的项目而言。 区分度第一节信度 信度是指测量结果的稳定性或可靠性程度。用同一种工具反复测同一种特质对象,结果的一致 性程度就叫信度 一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规 则,其结果就不应随工具的使用者或使用时间等 方面的变化而发生较大的变化。 或者说,测验的抗干扰能力强,误差因素控制得好,测值的一致性高,就叫信度高,人们感觉 可靠。 指的是同一个量表对同一组被试施测两次所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用积差相关的 公式来计算。(板书、推导该公式) 两个变量的总体都呈正态分布,至少是单峰对称的分布。作此判断需要总体分布 的卡方检验。 两个变量之间呈线性关系,可由散布图的形状来决定。 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性, 于3个月后再测一次,得分记为Y,问测验 结果是否可靠? 1011 12 2020 21 22 23 23 7 2021 21 20 23 23 9 在使用重测法计算稳定性系数时,应 注意以下问题: 1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致; 2、两次测验之间的时间间隔要适宜。太长,身心发展、遗忘、环境改变等使信度 降低;太短,练习与记忆等提高了成绩, 信度降低。 3、重测法适用于速度测验而不适用于难度测验;因被试很难记忆第一次,而难度 测验相反。还适用于运动技能的测验。 4、适用于异质测验,即一个测验包含几个不同的部分,分别测量不同的心理特质。 因为这种测试不适于计算内部一致性信度。 4、应注意提高被试者的积极性。2、复本信度 指的是两个平等的测验测量同一批被试所得结果的一致性程度。 其大小等于同一批被试在两个复本测验上所得分数的相关系数。 所谓复本测验是指在格式、内容、题型、题数、难度、指导语说明、施测要求等方 面都一致(或相等)的两份或多份测验。 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差, 其中5个学生先做A型测验,休息15分钟后,再做 B型测验;而另5个学生先做B型测验,休息15分 钟后,再做A型测验。10个学生A型测验结果记 为X,B型测验结果记为Y,其测验的复本信度如 1919 18 17 16 15 15 14 13 12 2017 18 18 17 15 13 15 12 12 复本信度的优缺点表现: 1、两个复本在同时使用时,可以避免再测信息的一些缺点如首测对再测在记忆、练习、效果 的影响,间隔期间获得新知识的影响,两次施测 的环境不同和被试主观状态不同的影响,以及为 了应付测验所作训练的影响等。反映究竟是不是 真正的平行测验;换言之,反映了测验内容造成 的误差。 2、测验的两个复本,如果在不同的时间使用,其信度既可以反映被试在不同时间的稳定性,又 可以反映测验内容的一致性。换言之,既反映了 时间影响,又反映了测验内容的抽样误差。 这种同时兼顾试题抽样与时间影响的信度,称为等值稳定性系数,与其他信度系数相比,该 系数最小,也就是说,此种复本信度是对信度最 严格的检验。 3、在追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验,分析复本信度。 缺点: 1、编制两个完全相等的测验是很困难的,如果两个复本过份相似,则变成再测形式,而过分 不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;(因内容 造成的误差)。 3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性; 4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通, 有可能失去复本的意义。 3.1、同质信度之分半信度 就是将测验分半,被试在每一半测验上所得分数的相关系数。反映了2半题目间的一致性。 分半的方法很多,如,按题号奇偶,按难度、按题目内容。无论如何分半,都要在分开后做微 调,最终目的是分成对等的两半。如果做不到对 等,就不适合求分半信度。 在实际运用中,由于题目一般是按难度大小排列,采用奇偶分半可以使两半测验的题目在难 度上基本相等,因此常被采纳。 分半后,计算每个被试在两个分半测验分数的积差相关系数,由于只是半个测验之间的信度, 故,再用斯皮尔曼—布朗公式加以校正。 3.2同质信度之库德尔-理查森信度 适合于全部二分计分题测验的内部一致性信度分析。 对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的库德-理查森信度? 当测验中所有的试题难度都一样,或平均难度接近0.50时,两个公式所估计出来 的信度值将相等。但是,当测验中所有试 题难度值极不相同时,差距将较大。一般 KR21比KR20信度值小。 论文没有严格评分标准,同样题目,不同应试者回答与得分不一样,可用克龙巴赫阿尔法系数 公式。P34 用一个包含6个论文式试题的测验,测5个被试,结果如下,试求该测验的信度? 总分17 28 16 19 17 品德测验,达到0.6就不错了。作业 1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量 表对这10个学生重测一次,得分记为Y, 问测验结果是否可靠? 1010 2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、 难度类似的第二次测验Y,试求测验的复 本信度? 1010 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后, 学生即毕业离校,现怎样评价测验结果的 信度? 3837 38 41 40 36 38 39 40 35 3737 36 39 39 34 38 39 39 36 四、提高信度的方法 1、影响测量信度的主要因素自行阅读P34-35,请同学们讨论、解释。 (4)两次施测的间隔时间方面2、提高测量信度的常用方法 (3)测验的内容应尽量同质(不同质是如何影响信度的?) (6)测验的评分要尽量做到客观化,减少评分误差 第二节效度 效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。 测量结果总是有一定效度的,只是效度高低不同罢了。 3、教育领域的效度问题比其他领域的测量更重要。 根据理论公式,怎样才算测量效度高?请同学们回答。 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。 就是指测验题目样本对于应测内容与行为领域的代表性程度。也就是说,测验的内容范围、材 料与所要测量的内容范围、教育目标是否相符合; 测验中测题所引起的行为是否是所要测量的属性 的明确反应。 为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验 时,就要考虑建立内容效度的问题。 2、内容效度的估计 其工作思路是请有关专家对测验题目与应测内容范围的吻合程度作出判断。 把所有题目按考试内容和考查目标分布进行双向分类,形成实际的“题目双向分类表”。与事 先预定的“命题双向分类表”作比较,看是否偏 离了原命题计划。 结构:心理学或社会学上的一种理论构想或特质。本身观察不到,也无法直接测 量,但学术理论假设它是存在的。 结构效度:测量能测出这种结构的程度(1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的 定义或假设,则会使得关于特质测验的结构效度 的研究结果无法比较。比如智力 (2)建立结构效度的步骤 B、根据假定结构,导出各项关于心理功能或行为的基本假设。拟定测题,编制测 C、以测验结果为根据来验证假设结构中的各种因素是否成立。 测量甲与其他理论上认为应该与之有关的其他测量有显著相关。与其他理论上认 为不应该与之有关的其他测量没有显著相 与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。 是以测验分数和效标之间的相关系数来表示测验效度高低的方法。 例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后 求同一组学生高考物理得分与大一物理得分之间 的相关,此相关系数就是该年高考物理测验的效 标关联效度系数。 效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。 所以,为某个测验选择一个最有效的效标,这是最重要 的事情。 智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物; 能力倾向测验的效标,可采用特殊课程或特殊训练的成绩; 职业兴趣测验的效标,可采用从业人员实际服务成绩或记录; 效标关联效度的种类同时效度 P41,其他方法参阅教育统计学教材2、提高测量效度的方法P44 合理处理效度和信度的关系(信度是效度的前提,效度不大于信度的平方根) 适当增加测验长度三、难度 一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该 题的难度就大。 难度由被试群体整体水平所确定。是相对概念。难度的计算 例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题 的难度?比较这两道题谁比谁难? 2、主观题难度的计算 例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难 例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难 例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度? (2)极端分组法 某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题 难度? 如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该 题难度? 某道论文题,高分组得分总和40分,低分组得分总和15分,40人参加考试,此题 最高得分为5分,最低得分为2分,则此题 的难度为P48: 2、难度的分析与控制 测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。 当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接 近于0.50时,题目才能把被试作最大的程度的区分。(离 散程度最大) 对于常模参照性测验,大多数难度在0.3-0.7之间,平均0.5。但对于奥林匹克竞赛或补习功课的学生,例外。 B、测验难度对分数分布的影响 测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做 出直观检查。 由于人的心理特性值多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有 代表性,则其结果应呈正态分布。 测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分 端出现高峰,呈正偏态;其二是题目难度普遍较 小,被试的得分普遍较高,使得高分端出现高峰, 掌握命题技巧与否。四、区分度 如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则 可认为该题目有好的区分度。 区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。 区分度(D)的取值范围介于-1.00—+1.00之间,值越 大,区分度的效果越佳。 区分度与测验信度、难度的关系,请自行阅读P51。(二)区分度的计算 例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题, 高分组有40%学生通过,低分组有70%学生 通过,求两题的各自区分度?P51 (2)主观题 高分组低分组 得分X人次f 得分X 人次f 此题最高得分5分,最低得分0分2、相关法 例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度? 1011 12 13 14 15 测验65 70 31 49 80 50 35 10 81 69 78 55 77 90 42 例9:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错 者的测验总分平均为63分,全体被试20人 总分的标准差为16,求该题的区分度? (三)提高区分度的方法 题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。 使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。 测验目标定义1、深入分析课程教学目标; 阅读5分钟后,请合上课本描绘教育目的、教学目标、课程目标、单元教学目标、课 时教学目标、知识点教学目标、行为目标、 学习目标及程序教学诸概念之间的关系。 一般模型与分类模型的相对性,例如:“一间中学,教师的教学工作” (1)经验法:理由充分否?/主次/指标关系(近似、交叉、因果、矛盾等)/去难存易,删繁 (2)统计调查:按5档给专家问卷,统计“很重要”“重要”人数比例,按人数比例高低 排列,删除三分之二或四分之三。 标度:达到标准的程度,说明什么样的程度属于什么等级。表示方法有:描述性语言,如,好、中、差; 信度:a、同一评价者用同一指标体系去重复评价某一对象,所得结果的一致程度; (再测信度)b、不同评价者用同一指标体系 在相隔较短的时间去评价同一对象,看一致 性程度。(评分者信度)c、同一评价者、使 用多种指标体系,几乎同时评价同一对象, 考察结果的真实程度(一致程度)(复份信 一般来说,指标内涵客观;指标与指标之间相互独立;硬指标比例大;评价标准 的规定明确,等级间的界限分明,信度就 高。如果软指标多;指标、等级间界限模 糊,评价者较难区分指标之间的差异,难 以掌握评判准则,则会降低信度。 效度:考察的是,我们所要评的,与指标体系能评的之间的关系。越接近,说明 指标体系各要素(指标、标准、量化 符号)的设置越准确,越有代表性。哪些做法影响效度?P102 前人的启示:量表与问卷/泰勒的“教育目标”以及目标达到的评价模式/“行为目标”的研究/教 育目标分类学及教育评价的研究成果/我国的有关 探索等。P103 (1)掌握构建教育评价指标体系的依据:理念问题/实证问题。P103 (2)掌握评价对象逐级分解的方法。对内涵的理解正确、深刻。如“师德”指标 。/理解、分解的多路向性/抓大放小原则/实施评价指标的可行性/ 等级数应根据指标的类型和性质来确定。/四级分等,两级定标的简便方法。 标准:根据不同类型指标的不同特点,综合运用,如“教改实验”、“教师队伍结构”/各等 级规定的评价标准,界限要清楚。 (4)掌握指标与等级数值分配的方法。集体讨论、咨询、同行专家意见、调查研究,注重程 序。参与人员必须:a、知识经验、判断鉴别力; b、明确赋值依据和原则;c、认线)累计积分评语式复习:设计教育评价指标体系实操 简单地说,指标是用来反映、测量和说明上一级项目的下一级项目。是目标一个方面的规定, 它是具体的、可测量的、行为化和操作化的目标。 (二)选择指标体系的结构 二级指标32例1:小学生最优发展的整体评价指标体系 思想素质科学素质 审美素质美的感受和鉴赏 知识素质知识结构 能力素质自理生活能力 身体素质运动能力 卫生保健2、树状式结构 一级指标 一级指标 一级指标 总目标 二级指标 例2:学生主体性的基本结构 主体性 自主性 主动性 创造性 (4)预试修订(1)分解目标,提出初拟指标 一般较为注意指标的科学性、完备性,唯恐挂一漏了或包罗不尽。 这些指标不仅是较为粗疏的,数量也可能是比较多的。 方法 是利用头脑积极思维,进行智力碰撞,激发智慧的灵感,从而提出评价指标的一种常用方法。 是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法。 应当注意:分解出来的因素,从高到低逐层缩小内涵,越往下层次指标越明确、越具体、范围越小,越可以观 是通过少数典型事例进行研究而设计评价指标的方法。(2)归类合并,进行筛选 在初拟指标中,有的能反映评价对象的本质,有的则未必;有的算得上主要因素, 有的可能只是次要因素。各因素之间出现 交叉、重复、包含、矛盾、因果等关系, 也难以避免,必须对初拟指标进行归类合 并和筛选,以达到“少而精”的要求。 筛选指标的方法 判断每项指标是否是必要的,缺了它有什么不好,保留它有什么理由,被保留的要有充分的依据,在指标体 系中,属于非要不可的因素。 区分每项指标反映评价对象本质的程度,保留能反映本质的主要因素,舍弃不能充分反映本质的次要因素。 内涵相同或近似的合并,内涵交叉的保留其一;有因果关系的,保留“因”而去掉“果”;相互矛盾的保留 既符合方针、政策规定又切合当地实际的指标。 确实难测的指标可以舍弃;指标内涵复杂的,尽量求其单一。 (3)专家评判 这是指标设计从设计者手中走向管理实践的重要步骤。专家通常包括评价理论研 究者、上级领导、富有经验的教育行政干 部、教师等。专家评判可采用个别访问、 座谈、问卷征询、现场调查等方式,应根 据不同情况选择。 调查统计法 是在调查获取资料的基础上进行统计的方法。其具体的做法是:把初拟指标制成问卷,发给有 关专家和有经验的教育工作者,请他们对初拟指 标每一项作出判断。 一般分为五档,即很重要、重要、一般、可要可不要、不要。答卷者在每项指标后记上自己判 断该项指标相比之下的重要程度(只能定一个档 次),然后,收回问卷,统计“很重要”、“重 要”两档的人数比例,按评为“很重要”、“重 要”人数比例由高到低顺序排列,把低于某数值 (一般低于三分之二或四分之三处作为划界)的 指标删除,就得到筛选的指标。 (4)预试修订 指标体系经过筛选、修订,初步确定以后,可以同评定标准相匹配,选点在小范 围试验,看是否可行,试验后对指标体系 再作修改,然后投入使用。 例3:学校领导班子评价指标体系的建立 (1)政治素质(政治理论和政策水平、思想品德修养、事业心和责任感) (2)业务素质(文化专业达标、教育理论修养、管理实践经验) (3)工作效能(职务与能力相称、分工明确和各尽其责、团结协作、指挥灵便、工作效率高) (4)工作作风(深入实际、发扬民主、决策果断、以身作则、开拓精神) 2、把以上16项指标,分为五档(很重要、重要、一般、可要可不要、不要),分别征询意见, 获得以下结果: 政治素质(事业心和责任感1、政治理论和政策水平3、思想品德修养11) 工作效能(团结协作5、分工明确和各尽其责8、工作效率高9) 工作作风(决策果断4、以身作则6、开拓精神7、发扬民主12) 第五章教育评价的方法 把具体项目的等级评定换算成分数,然后将各项分数相加,满分100.具体做法: 3、将x1(或x2、x3)分等级(评语论域v),每一等级需确定具体的评价标准:合格/不合格;优/中/劣;... 4、将各等地折算成分数。如x1满分11分,则可将优算成11分,良-9分,中-7分,差-5分。 i表示集体中每个成员对评价对象作出的评价(各个项目得分的平均数) i表示自我总评价分,R表示被试人数。 同学甲分数同学乙分数 (一)等级评定法:制定评分等级及评定标准。应用到如操行、能力、职称、学校等级等方面。 (二)评语鉴定法:单方面、多方面评语法/简易、结论明晰,能对一些模糊现象进行描述鉴定,解决 了一些定量研究不能解决的问题,但难以客观,信度和 效度较低。 (三)写实分析法:集事实资料/整理、描述资料,一般先概括描述一般情况,再描述典型事例/分析评价: 简要、中肯、抓住本质。 写实法的优点是有依据,新都高。缺点是全面地收集资料很难,耗时多。 自行阅读P135-137的平均数、加权平均数、标准差、标准分数、T分数内容,8分钟。 若对论域(研究的范围)U中的任一元素x,都有一个数A(x)[0,1]与之对应,则称A为U上的模糊集, 隶属度A(x)越接近于1,表示x属于A的程度越高,A(x)越接近于0表示x属于A的程度越低。用取值于区间 [0,1]的隶属函数A(x)表征x 属于A的程度高低,这样 描述模糊性问题比起经典集合论更为合理。 {高个子},如果论域是“成年男性”,则可构造隶属函数如 图所示:板书 }(如全班学生)和评语论域Y={y 表示要判断的等级(j=1,2,…,m)。则称X与Y之间的模糊关系矩 为单因素评判(单单只是一个个因素,未涉及“综合”之意,即,只有各行向量有意 义,整个矩阵没意义),其中行向量 (ri1,ri2,…,rim)是考虑单因素xi在Y上的评判,rij 称为因素xi对评价等级yi的隶属度,R为Y上模 糊子集。设X上的模糊子集A表示因素xi在本 问题的加权数(也称权重),则合成 bj=板书(四种之一) (j=1,2,...m) 与矩阵乘法运算顺序相同。举例P57及A为1行m列矩阵的例子,请同学来算。 中至少有两个相等的最大分量时,称综合评判义性失效。 优秀良好 一般 较差 道德观念0.25 0.54 0.18 0.03 尊敬师长0.39 0.50 0.08 0.030 学习态度0.64 0.25 0.08 0.03 尊纪守法0.58 0.39 0.03 团结互助0.08 0.50 0.31 0.08 0.03 集体观念0.10 0.64 0.18 0.05 0.03 社会活动0.20 0.52 0.23 0.05 劳动态度0.41 0.37 0.14 0.08 A=(0.18,0.14,0.14,0.13,0.09,0.12, 0.12, 0.08) 加权平均,逐级向上,直到在一级指标上归并为一个合成的分值。举例 1、对末级(二级)指标进行第一次综合评判:W、R合成。如上例“某课堂教学质量” 2、将二级指标对一级指标所形成的若干综合评判结果(即第一次综合评判结果)组成一个新 的模糊矩阵。如“某课堂教学质量”再加上... 3、将新矩阵与一级指标权重向量合成计算综合评判结果。 数据种类:点计数据、度量数据//间断性数据、连续型数据//类别变量、等级变量、 等距变量、比率变量 教育测量数据的特点:1、多属等级变量;2、多属主观的;3、多属随机的(概率为1 则为确定性);4、模糊性 原始分(卷面分)的缺点:意义模糊,不能直接比较 导出分数:由原始分转换而成,如标准分、T分数、百分等级分数等。 例题:甲、乙、丙、丁四人在某次语文考试中分别得72、60、48、90,而全体学生的语文平均 分60,标准差12分,求四人相应的标准分数。 例题:对某校高二学生进行期中学习质量测验,语文、数学和英语成绩的平均分 数分别是80、70、85,标准差分别为10分、 15分、12分。若某学生三科成绩分别为85、 82、90分,问该生成绩哪一科最好? 1、均值0,标准差1。(补充证明,概率论P97)Z=0表示成绩与平均数相等; 2、有相对0点作参照点,有相等单位的导出分数,可加减; 3、由于是对原始分数的线性变换,所以不改变原始分数的分布形态(其证明同1); 4、若原始分数接近正态分布,则标准分范围大致在-4—+4之间。 课后思考:常模团体不服从正态分布则不能直接用标准分数,怎么办?自行查找资料。 3、CEEB分数(美国大学入学考试报告分数):500+100Z 例1、52名同学考试,甲第4名,求其百分等级分数。 例2、52名同学考试,甲、乙、丙、丁戊己庚辛壬癸共10人并列第4名,求其百分等 级分数。 基本思想:把某个测验分数分布的全距划分为100个等级,建立原始分与百分等级间的 一一对应关系。

TAG标签: 理查森信度
版权声明:转载须经版权人书面授权并注明来源