您现在的位置: 论文网 >> 教育论文 >> 教育理论论文 >> 高利害考试用于绩效问责的研究与实践论文

高利害考试用于绩效问责的研究与实践

作者:王蕾
出处:论文网
时间:2013-06-15

高利害考试用于绩效问责的研究与实践

  当前,问责制已经成为现代社会管理的重要手段,绩效问责同样也已经成为教育现代化中科学决策的重要基础。实现教育绩效问责,首先需要对教育发展状况和质量进行全面评价。传统意义上,对教育投入进行统计和监测是教育管理部门的重要工作任务,是比较直观、比较容易实施的。而教育的产出即学生学业质量由于不像物质生产那样容易定义和测量,如何对学生学业质量进行评价就成为一个难题。要建设现代化的教育体系、实施教育绩效问责,学业质量评价是核心内容之一,它是全面提高教育质量和促进教育公平的一个前提条件。与学业质量相关的一个重要工具是考试。考试具有教育和社会的双重功能。从教育层面来说,它可以检测教学效果,检查学生对教学内容的掌握情况,为下一阶段教学提供依据。从社会层面来说,考试的结果可以用来作为个体对知识和技能掌握情况的估计值,用来实现颁发证书、选拔录取等社会功能。特别是由政府或专门机构举办的大规模社会化考试,被广泛地用于对各种专门人才的选拔和各个教育阶段的分流。由于这些考试与考生的利益紧密相关,其很多时候被用来作为绩效问责的依据。但是,由于技术和观念的多重缺陷,这类评价往往是用考试的原始分数简单排队,容易出现方式单一、内容窄化、考试结果误用和滥用、对终结性评价过度依赖等负面现象,难以对教育与教学起到积极的反拨作用,难以对国家人力资源的配置作出应有的贡献。基于此,笔者在借鉴国外经验基础上,对高利害考试在绩效问责中的价值作一探讨。

  一、高利害考试用于绩效问责的重要性与必要性

  (一)提高质量是教育改革与发展的核心任务。

  《国家中长期教育改革和发展规划纲要。(2010-2020年)》(以下简称《教育规划纲要》)提出“把提高质量作为教育改革发展的核心任务”[1],以提高质量为核心的教育发展观是科学发展观在教育领域的具体体现,也是当今全球化时期世界各国的共识。全面提高教育质量要求广大教育工作者不断改革创新,促进公平。为此,我们有必要建立和完善国家乃至各基层的教育质量评价与监测体系,对学生学业水平进步和学校、学区学业质量提高程度进行多维度的评价,从而合理有效地配置教育资源、优化结构布局。与此同时,《教育规划纲要》要求:“建立以提高教育质量为导向的管理制度和工作机制,把教育资源配置和学校工作重点集中到强化教学环节、提高教育质量上来。制定教育质量国家标准,建立健全教育质量保障体系。”“改革教育质量评价和人才评价制度。

  根据培养目标和人才理念,建立科学、多样的评价标准。开展由政府、学校、家长及社会各方面参与的教育质量评价活动。做好学生成长记录,完善综合素质评价。探索促进学生发展的多种评价方式,激励学生乐观向上、自主自立、努力成才。”[1]在这一背景下,评价成为教育系统的热词。各级教育行政部门、督导部门和很多研究机构都在讨论建立适应我国国情的学业质量评价体系。

  (二)高考“三个有利”要求其拓宽选拔之外的社会和教育功能。

  《教育规划纲要》为高考制定了新的基本原则,指出要“以考试招生制度改革为突破口,克服一考定终身的弊端,推进素质教育实施和创新人才培养。按照有利于科学选拔人才、促进学生健康发展、维护社会公平的原则,探索招生与考试相对分离的办法……逐步形成分类考试、综合评价、多元录取的考试招生制度”,“深化考试内容和形式改革,着重考查综合素质和能力”.[1]我国是考试的发源地,科举考试制度曾经最先在世界上建立了“以才取士、贤者治国”的范例。建国以来,除极不正常的一段时间外,高考等大规模考试在我国都是具有特殊意义的重要考试。但是,很长时间以来,考试和教学的关系一直没有被理顺。从“片面追求升学率”到“应试教育”,考试带来的种种弊端和副作用成为教育发展与改革的阻碍。在人才选拔之外,大规模教育考试如何根据国家需求挖掘具有高度社会公信力的海量数据,开展学生学业水平进步程度和学校、学区学业质量的评价,提供公共信息服务,从而达到促进学生健康成长的目标,在理论研究和实践探索上都给教育考试评价机构提出了新的挑战。从这一角度来说,教育考试评价机构需要对以高考为代表的高利害考试数据进行充分挖掘,发挥其对学校和考生群体应有的评价反拨作用。只有这样,才能充分发挥考试在人才选拔上的作用,发挥它的教育价值和社会管理价值。

  (三)目前使用高考成绩进行评价的方法存在严重技术缺陷。

  高考被俗称为“指挥棒”,就凸显了它对教育教学的反拨作用。其实,不管教育行政部门喜欢与否,用高考等高利害考试的成绩判断一所学校、一个地区的教育教学成就是普遍存在的现实。但不容否认的是,目前社会大众甚至政府和专业机构在进行这种评价时大多是“以结果论英雄”,关注“北清率”“一本率”“上线率”等直接与个人或集体利益相关的指标。然而,这些指标多是一些相对指标,受招生指标等因素的制约,其反映的是个体和集体之间的相对差异。而从建立人力资源强国的角度来说,我们更需要关注的是绝对指标,即学生究竟学会了什么、他们能做什么、在未来的国际经济竞争中他们是否具备足够的知识和技能。从教育测量的专业角度看,目前我国对使用高考进行教育评价还缺乏真正专业化的技术层面的探讨,甚至存在高考成绩与数据被误用和滥用的倾向,这既与社会观念有关,也与对高考数据进行分析时存在技术缺陷有关。

  (四)高质量的考试是解决问题的基础和前提。

  充分利用考试数据评价教育教学质量、促进考生发展,已经成为教育考试界的热门话题和重要任务。但是,“工欲善其事,必先利其器”.只有首先对考试自身进行评价反馈,改进考试工具,打造高质量的考试,才能为后续工作奠定良好的基础。在一次考试结束后,很多教育考试工作者往往关注于如何借助考试分数去评价考生,却相对忽略了对考试自身的评价。因此,专业化的考试机构有责任去深入挖掘考试数据,对考试数据进行多角度、多层次的分析,并把从客观、定量的视角审视和评价试题本身质量作为出发点,依据试题分析的结果,为命题部门提供客观、真实、有效的反馈信息,从而为命题部门改进考试、提高考试质量提供可靠依据,最终实现考试的教育和社会双重功能。

  二、在国际大规模考试中普遍应用的主要技术

  (一)测验等值。

  测验等值是教育考试在国外作为工业化形式的一个核心技术。等值在理论上并不复杂,通过一定的数学模型将测量同一种特质的不同测验分数转换到同一单位系统中的过程,就是测验等值。[2]它把来自不同试题试卷版本的考试分数转换到同一个分数系统上,使得当考生参加测量同一种知识和能力考试的不同试题试卷版本后,其所获得的分数可以直接进行比较,不会由于不同版本在难度上存在差异而引起不公平。

  目前,等值数据分析依据的测量模型有经典测量理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)两种,分别对应于传统等值方法和IRT等值方法。在等值的具体方法中,基于IRT的等值方法比基于CTT的等值方法具有多方面的优越性。

  国际上技术领先的考试,首先要应用IRT等值测验理论进行题目建构、参数校准和分数的等值转换。这样形成的测验工具就如同用尺子测量学生身高一样,测量结果是绝对的(忽略误差)。通过使用一些涵盖不同难易度的共同题目来建构和校准的试卷,不仅可以从多个维度测量学生不同层次的能力和属性,还可以进行不同试卷间考生和题目的水平比较,从而实现国家间、国家内不同地区间的横向比较和跨年度的纵向比较。这是依据经典测量理论建立的评测工具根本无法实现的。

  (二)增值评价。

  近年来,论文格式随着社会需求的增加和统计测量技术的不断进步,增值评价被越来越广泛地用于考试评价领域。增值评价是通过追踪研究设计,收集学生一段时间内不同时间点上的标准化测验成绩,进行基于学生自身测验成绩的纵向比较,并考虑其他不受学校或教师控制的因素对学生成绩的影响,以考查学校或教师对学生学业成绩影响的净效应,进而实现对学校或教师效能较为科学、客观的评价。从增值评价的定义可以看出,其核心思想是“增值=输出-输入”,即它对学生的评价控制了学生的初始水平。与此同时,增值评价还控制了学校和教师无法控制的因素,因而能很好地评价学校对学生学业水平的促进作用。与传统的学校评价模式相比,增值评价具有综合考查学生发展影响,强调发展性评价标准,重视起点、关注过程,促进学校改进等特点,因而在推进我国教育均衡发展、促进学校特色发展、实现教育教学公平中起到积极的作用。

  (三)垂直标定。

  常用的增值评价方法可以根据“是否使用垂直量表”分成两大类。相对而言,使用垂直量表的增值评价逻辑上更加严密,但对技术的要求也较高。构建垂直量表需要进行垂直标定,将学段不同但内容领域相同的测试分数置于同一能力量表上。

  通常,构建垂直量表主要包括以下几个步骤:选择并实施数据收集设计、实施标定研究、选定构建分数报告量表的方法进行参数估计、建立用于评价该量表的标准。常见的用于构建垂直量表的数据收集设计有以下三种:共同题设计、等组设计以及链接测试设计。在理论上模拟比较这三种设计方法的优缺点,并进行实际操作的可行性分析后,本研究选择了共同题设计方法。

  三、高利害考试用于绩效问责的初步实践和探索

  教育部考试中心从2006年开始实施国际学生评价项目(Programme for International Student Assessment,PISA)中国试测研究项目,以科研为先导,通过PISA2006、PISA2009、PISA2012三轮中国试测研究实践,学习借鉴了PISA先进的考试评价理念、理论和技术,并将此应用到中考和高考等高利害考试用于绩效问责的研究与实践中。从2010年起,教育部考试中心和海南省考试局合作开展的利用海南省全省统一考试、统一评判的中考和高考数据,实现不同年度间中考、高考的等值;同时,在语、数、英三个核心学科建立了中考链接高考的垂直量尺,到目前为止,中考和高考2010年、2011年、2012年三个年度的语、数、英学科能力被放在了一个共同的量表之上,实现了结果的直接可比。利用这些研究成果,通过在中学教学阶段最具代表性的大规模社会化考试,人们可以对海南省任何一所中学和任何一个县市的学业质量变化一目了然。将来通过有意识地安排锚测验(专门设计用来对两个考试进行连接和量表统一的工具),每一个新增加的年度考试结果都可以被放置在这个共同量表之中。从技术上说,这种经过量表转换和统一的考试结果使用起来功能更为强大,如现在两个来自不同年度的分数可以直接进行比较甚至交换使用,使得多次考试对应一次录取有了技术上的可能性。这种共同量表的更大价值在于使高考和中考的相对测量变成了绝对测量,也使高利害考试用于学业质量评价具备了技术上的可能性。

  具体来讲,本研究涉及高考九个学科(语、数、英、理、化、生、史、地、政)和中考的三个核心学科(语、数、英)。研究的第一个任务是将相邻年度间同一科目不同试卷版本的考试分数和题目参数等值。研究采用了非等组锚题测试(Nonequivalent Groups with External Anchor Test,NEAT)的数据收集设计[论文网 LunWenData.Com],以不易产生评分误差的客观题作为锚题,分别在中考和高考正式考试约一个月前抽取考生样本进行试测,在正式考试结束后对考试结果和试测结果共同进行计算。题目参数校准采用Rasch模型,利用国际通行的Conquest软件进行,参数量表转换利用“固定共同题参数”的算法,建立了不同试卷版本的能力值和对应的期望得分的转换表。

  研究的另一个重要内容是建立贯穿整个高中阶段的学科共同能力量表。笔者根据我国高中教学内容和考试数据提供的可行性,选取中考和高考都有的三个核心科目(语文、数学英语),并利用在高中二年级设置的链接测试实现垂直标定,使中考和高考两个分离的不同考试量表统一到一个共同尺度上。这样建立起来的学科能力共同量表成为对整个高中教学进行评价的标准量尺,尤其为中学总结教学得失提供了有力的工具。这个量表使一些过去因为生源质量高而在升学竞争中处于有利地位的学校感到了压力,使生源质量相对不高、竞争无望的所谓“差校”看到了自己努力的成绩和进步。教育行政部门则可以根据这些宝贵的数据和信息真正实现分类指导,将面向全体学生的发展性评价落到实处,体现教育、教学和考试的系统整合,帮助不同地区及学校、教师、学生更好地适应性发展。

  在通过学科共同能力量表将中考和高考链接进行增值评价的试验过程中,研究人员专门编制开发了面向各级教育行政部门和中学的网站与客户端软件。各级教育行政部门的领导和专业人员可以利用客户端软件直观便捷地浏览各种评价信息,利用这些信息改进决策和教学。为防止学校间的盲目攀比,中学管理人员和教师可以利用网站登录密码查询自己学校或学科在全区或全省的相对位置与发展性评价的图表数据。

  在利用垂直标定实现共同能力量表增值评价中,学校学科能力增值评价分层图被地方和学校管理人员誉为“绿色评价”的量化标尺。图1是2010年海南省语文学科能力增值评价分层图,该图左右纵轴都是经过垂直标定建立起来的语文共同能力量表,单位为能力转换值。左侧是中考,右侧是高考。

  可以想象,绝大多数学生(或学校)经过三年的学习,在这个共同能力量表上的得分会从较低值到较高值。但是,不同个体在这两次考试中得分的差(增值)是不同的,有的增值幅度较大,有的增值幅度较小。从数值上说,这种增值不仅与每个学校的进步有关,与他们原来已达到的水平也有关。软件根据每个数据集的总体情况,将每个群体中不同学校的增值变化情况用四个不同深浅的灰色区域表示,最深的区域表示在中考或高考时在总体中达到了75%以上的水平,图1右侧上方的图例依次说明了图中各个不同深浅的灰色区域所代表的含义。

  若一个学校在中考和高考中都处于深色区域,这说明这个学校一直处于较高水平。如果在中考时,这个学校处于较深的区域而高考时落在了浅色的区域,则说明出现了相对负增值;反之,如果一个学校在中考时处于非常浅的区域,而高考时处于非常深的区域,则说明出现了显著的正增值。

  图1模板提供了一个既可以在绝对数值上又可以在相对的学校间比较上衡量学校进步程度的量表,每所学校通过网站登录信息可以看到自己的绝对发展和相对发展,教育行政部门的领导和专业人员可以利用客户端软件通过把若干个同类学校放置在这个量表上,来对比其增值的大小。图1中,A、B两所学校展示了同类学校对比情况。从图1可以看出,A学校的中考平均语文能力值为36.6,处于全省第25百分位点到第50百分位点之间,其高考平均语文能力值为50.7,处于全省第5百分位点到第25百分位点之间,所以A学校从中考到高考在其所属类别学校中的相对位置有所退步。A校的入口学生质量较差,其也许因为生源起点不高而持有“不管怎么努力都拼不过生源好的学校”的思想,这种思想使其在增值评价体系中处于不利地位,使出口学生平均能力水平在本省中下滑到更低层次。从增值评价角度看,B学校同A校起点境况类似,其入口学生中考平均语文能力值为35.8,略低于A校,但B校并没有因为生源的不理想而破罐破摔,竟然把学生高考平均语文能力值提高到了57.7,处于全省第50百分位点到第75百分位点之间,虽在高考终结考试评价中属中等略偏上,但对于B校的学生和家长而言他们是幸运的,因为B校的校长和教师团队只有不放弃任何一个学生才会取得这样的结果。若仅从高考一次性结果来看,B校在本省并不突出;而从增值情况来看,校方付出的努力是值得称赞的。

  四、前景与展望

  2012年4月,教育部考试中心应美国教育测量学会(National Councilon Measurementin Education,NCME)主席琳达·库克(L.Cook)女士邀请,参加了在加拿大温哥华举办的“NCME和美国教育研究学会(American Educa-tion Research Association,AERA)联合年会”,与北美和世界各地的同行分享了教育考试改革方面的收获与艰辛,共同探讨了在全球化的今天,教育考试工作者面临的任务和挑战。NCME2012年年会的主题为“评价与学习在全球化经济中帮助学生成功”.美国教育科学院院长约翰·埃斯顿(J.Easton)在主题演讲中希望广大测量与评价工作者思考“考试工作者应该如何帮助提升教育政策和实践”.基于美国的实际情况,他提出了考试界面临的三大任务:大规模考试与评价系统的改进、教师评价系统的改进、继续保持NAEP作为评价的黄金标准。不难看出,广大测量和评价工作者已经不再仅仅把考试当作升学、晋升等程序公平的工具,而是更加注重发掘考试对提高教育质量、实现国家人力资源合理配置、帮助学生个人发展等更深层次的作用。[3]高利害考试用于绩效问责的研究与实践表明,教育考试工作者在发挥大规模教育考试原有的选拔功能外,如果能从技术上对其加以改造,使之成为客观等距量尺,就可以实现对不同年度间的考试结果或多次考试结果的科学比较。

  进一步说,基于增值评价的理念,通过构建同一学科的共同能力量表,教育教学工作者和相关研究人员可以摆脱传统考试一次性处理的局限,实现对教学过程的增值评价,科学分析考试结果的变化,诊断学生学业中存在的问题,从而促进教育教学的良性发展。如果在考试结果的阐释上再辅以配套的调查问卷,使得被试群体在所属的人口和社会背景条件下进行准确定位,并在与对应的社会条件参照对象公平比较中发现其进步程度,那么传统的大规模教育考试完全可以成为有效的学业质量评价工具。这不但避免了简单利用分数进行评价造成的种种副作用,而且有效地整合和利用了已有资源,使得本来互不相干、互不隶属的考试成为相互联系、相互配合的有机整体,并在此基础上建立起全方位、多层次、发展性、个性化的考试评价体系,从而实现大规模教育考试和学业质量评价的共赢。这不但是充分利用现有资源,真正实现以高考为代表的大规模教育考试“三个有利”的需要,从某种意义上来说也是大规模教育考试的一种自我完善和发展之路。如此,高考真正成为教育决策与教学管理的有力工具和绩效问责的有机一环,保证了其在教育制度中应有的地位。[论文网]

高利害考试用于绩效问责的研究与实践

论文搜索
关键字:绩效问责 高利害考试 绩效 考试
最新教育理论论文
基于马克思主义的新型教育理论思考
高等职业院校理论与实践教学研究
试论教育实践变革与教育理论创新研究
粮食工程专业导论课程的构建与实践
以学生党建促进学生就业实现路径研究
初中体育课程中渗透德育教育的优势与方法初
浅谈学困生知识落实的方法策略
精选策略,游刃有余
“爱”须大于“管”
霍桑效应在学困生帮扶中的应用
热门教育理论论文
小学德育教育论文
城市农民工子女教育问题研究
论秦始皇的“法治主义”
小学德育论文范文
独生子女家庭教育问题研究
浅议实践教学在教学中的作用
现代教育技术与素质教育
当代青少年的思想特点与教育方法
对和谐教育的理论思考
Discovering Techniques of Vocabulary Tea