中國西藏網(wǎng) > 即時新聞 > 時政

教育也需要“診斷報告”——大規(guī)模教育測試結(jié)果報告的若干趨勢

發(fā)布時間:2022-12-22 11:01:00來源: 光明網(wǎng)-《光明日報》

   【世界教育之窗】

  作者:劉軒(南京工業(yè)大學(xué)副教授,教育學(xué)博士)

   近年來,隨著教育評價理念的不斷更新和測試技術(shù)的快速發(fā)展,國際上諸多大規(guī)模教育測試把關(guān)注的重心放到了測試結(jié)果上。就像到醫(yī)院體檢后會得到一份詳細的“診斷報告”一樣,參加大規(guī)模教育測試的學(xué)生也會得到相應(yīng)的結(jié)果報告——用來分析自己水平高低或能力強弱及其背后的成因,從而實現(xiàn)精確診斷和快速改進的目的。

   結(jié)果報告成為大規(guī)模教育測試的關(guān)鍵環(huán)節(jié)

  從心理學(xué)的角度來看,大規(guī)模測試就是通過一系列外部刺激來收集被試的行為反應(yīng),并進一步推斷其潛在特質(zhì)水平的過程。之所以稱這種特質(zhì)是“潛在的”,是因為它無法和物理測量中的身高、體重那樣被直接觀測和度量。不同的測試,其測量的潛在特質(zhì)是不一樣的,它可以是能力、成就、個性傾向、人格態(tài)度、價值觀等,也可以是教育領(lǐng)域中的學(xué)業(yè)水平、學(xué)術(shù)成就。當(dāng)我們用一定數(shù)量的試題來收集學(xué)生的作答反應(yīng),并把不同考生的水平用數(shù)量化的方式描繪出來時,這就是考試。由于測量目標(biāo)、功能等方面的差異,不同測試在處理考生作答時采用的統(tǒng)計分析方法很不一樣,這導(dǎo)致測試最后提供的結(jié)果報告也各不相同。有些結(jié)果報告非常簡單,就給出一個分數(shù)或等級,有些則經(jīng)過極其復(fù)雜的分數(shù)轉(zhuǎn)換來給出詳細的描述。

  對廣大被試或考生來講,參加考試最重要的就是得到一個體現(xiàn)自己真實水平的結(jié)果。在實踐領(lǐng)域,測試結(jié)果常常被用于各種重要決策,如高校選拔、升學(xué)鑒定、優(yōu)劣評判等。這不得不讓研究者和從業(yè)者高度重視結(jié)果報告的科學(xué)性、公平性。“如果忽視了測試的結(jié)果報告,那之前的所有努力都將白費”,這已經(jīng)成為國際測試行業(yè)的共識。目前,國際上最權(quán)威的行業(yè)標(biāo)準(zhǔn)——《教育與心理測試標(biāo)準(zhǔn)》就多次提到了結(jié)果報告的重要性,甚至對一些具體的技術(shù)指標(biāo)做出了明確規(guī)定:如測試機構(gòu)應(yīng)該負責(zé)提供關(guān)于測試結(jié)果的正確解釋;結(jié)果報告的信息應(yīng)該包括內(nèi)容范圍、測試結(jié)果的含義、精確性、結(jié)果使用等;結(jié)果報告要給出每個分數(shù)或等級的測量誤差,并且提供與結(jié)果解釋有關(guān)的信息。教育是大規(guī)模測試應(yīng)用最為廣泛的領(lǐng)域。每年全世界都有數(shù)以億計的考生參加各種考試。受《教育與心理測試標(biāo)準(zhǔn)》等國際行業(yè)標(biāo)準(zhǔn)的影響,當(dāng)前大規(guī)模教育測試在結(jié)果報告上呈現(xiàn)出了以下幾個新趨勢。

   趨勢一:結(jié)果報告經(jīng)過相應(yīng)的分數(shù)轉(zhuǎn)換

  無論什么樣大規(guī)模測試,最后都要呈現(xiàn)一個數(shù)字化或等級化的結(jié)果來對測試群體的水平進行區(qū)分。在教育考試中,這個結(jié)果一般體現(xiàn)為分數(shù)或等級。出于科學(xué)性和公平性的考慮,目前國際上知名的考試如SAT、ACT、TOEFL、IELTS以及大規(guī)模測試項目如PISA、TIMSS,其結(jié)果都是經(jīng)過復(fù)雜的統(tǒng)計處理而得出的,這個過程通常都涉及必要的分數(shù)轉(zhuǎn)換。以TOEFL為例,作為一個面向全球的考試,它需要滿足來自不同國家和地區(qū)的考生,在不同時間參加不同版本試卷測試的需求。而在申請大學(xué)時,TOEFL的分數(shù)又必須是準(zhǔn)確一致和高度穩(wěn)定(成績兩年內(nèi)有效)。這必然要求考試設(shè)計者采用相應(yīng)的考試技術(shù),以確保各次考試分數(shù)盡可能不受試題難度的影響。如果某次TOEFL考試的試題過難或過易,那對參加該次考試的考生就非常不公,高校在選拔學(xué)生時也會無法評估考生的真實水平。備受關(guān)注的PISA,其測試使用的試卷并不是全球都完全一樣,而是有多種試題組合并形成不同版本的試卷。PISA在全球幾十個國家和地區(qū)測試時就面臨與TOEFL一樣的問題。分數(shù)轉(zhuǎn)換是對考試結(jié)果進行技術(shù)處理后的一個必要環(huán)節(jié),它使得測試結(jié)果更加科學(xué)公平和更容易解釋。因而,轉(zhuǎn)換后的分數(shù),因其操作過程的模式化和結(jié)果的穩(wěn)定性,常被認為是一種具有相應(yīng)標(biāo)準(zhǔn)的分數(shù)。

   趨勢二:結(jié)果報告具有診斷和改進功能

  對于一個大規(guī)模測試來說,分數(shù)或等級是結(jié)果報告的主要呈現(xiàn)形式。但如果僅僅局限于這樣一些數(shù)字,那顯然是不夠的。隨著測評技術(shù)的發(fā)展,診斷性的結(jié)果報告在實踐中產(chǎn)生了深遠影響。與傳統(tǒng)單一的“分數(shù)條”相比,診斷性結(jié)果報告的內(nèi)容更加豐富、細致,對測試者的能力、水平的剖析也更加精準(zhǔn)。例如,在PISA公布的測試結(jié)果中,我們不僅可以看到各國或地區(qū)在各個素養(yǎng)上的總分,還可以進一步了解在某個素養(yǎng)的次級維度上的表現(xiàn)以及在某個維度上的不同水平,這使得測試結(jié)果具有相應(yīng)的診斷功能,也更有利于參測的國家或地區(qū)深入分析成績的歸因并采取有針對性的改進措施。在教育考試領(lǐng)域,SAT、ACT的結(jié)果報告在內(nèi)容上不僅更加豐富,而且還按需提供給多個利益相關(guān)者,其中包括大學(xué)、中學(xué)、政府甚至媒體和公眾。其中,SAT提供給學(xué)生的結(jié)果報告包括總分、分項成績、分測驗分數(shù)、跨學(xué)科分數(shù)、子維度分數(shù)以及相對應(yīng)的百分位數(shù)。在面向其他對象的結(jié)果報告中,SAT提供了更為詳細的結(jié)果,包括在國家或者州參照群體中的位置、在各類問題上表現(xiàn)、作答情況、原始分數(shù)等等。ACT的結(jié)果報告同樣豐富而且涉及范圍更廣,除了各種分數(shù)、百分位數(shù)、水平等級等基本的統(tǒng)計結(jié)果之外,還包括學(xué)生的高中、大學(xué)、職業(yè)、專業(yè)選擇和生涯規(guī)劃的信息。這些結(jié)果綜合了考生的背景、學(xué)習(xí)狀況、學(xué)科能力、個性傾向、興趣愛好等等,基于此對學(xué)生做出的評價顯然更加全面和深入,也有利于學(xué)生提升自我認知水平,有利于高校提高人才選拔成效,有利于中學(xué)改進日常教學(xué)和管理工作。

   趨勢三:在真實情景中對結(jié)果報告進行描述和解讀

  從統(tǒng)計測量的角度來進行分數(shù)解釋豐富了結(jié)果報告的內(nèi)容,完善了測試的功能,但僅僅圍繞這些統(tǒng)計數(shù)字來分析仍舊是有局限的。舉個簡單的例子,只要有一把尺子,我們就很容易測量出一個成年男性的身高,比如170cm,這是一個客觀測量值,但這樣的身高究竟意味著什么,則在很大程度上取決于測量目的。如果說為了選拔國家籃球隊的運動員,這個身高恐怕遠遠不夠。但在日常生活中,對這樣的身高也不能輕易得出個頭矮的結(jié)論。測評領(lǐng)域的專家早就認識到:一系列統(tǒng)計分析后的結(jié)果可以用來判定優(yōu)劣和區(qū)分測試者,可無論這些結(jié)果多么豐富,還是無法解釋其背后深層次的含義。近年來,國際測試行業(yè)開始結(jié)合測量目標(biāo)本身來嘗試新的結(jié)果解釋方式。通俗地講,就是在原來描述測試結(jié)果“是什么”和“怎么樣”的基礎(chǔ)上,進一步描述得到這些結(jié)果的測試者“能做什么”。例如,上面提到的ACT,它給考生的結(jié)果報告除了多個分數(shù)的統(tǒng)計值外,還有與這些分數(shù)相對應(yīng)的行為描述,并且進一步預(yù)測學(xué)生在大學(xué)不同專業(yè)上獲得成功的概率。同樣,TOEFL考試的結(jié)果報告也有對取得該分數(shù)考生所對應(yīng)能力的描述,包括水平分析、分數(shù)說明和學(xué)習(xí)建議。TOEFL閱讀部分的測試結(jié)果甚至納入藍思分級閱讀框架體系中。這個框架體系是用來評估英語閱讀能力和閱讀材料難度的一套標(biāo)準(zhǔn),在國際上擁有較高的權(quán)威性和廣泛影響力。TOEFL的閱讀分數(shù)和它對接之后,有利于考生看到分數(shù)所代表的真實閱讀能力,并據(jù)此來選擇與自身水平相適應(yīng)的閱讀材料,從而達到精準(zhǔn)匹配的目的。

  最后需要強調(diào)的是,國際上這些具有廣泛影響的大規(guī)模教育測試,之所以需要引入復(fù)雜的統(tǒng)計技術(shù)來對測試結(jié)果進行分數(shù)轉(zhuǎn)換,除了考試實施的客觀需求和在科學(xué)與公平上的不懈追求外,一個很重要的原因是由其特殊的結(jié)果使用方式?jīng)Q定的。大規(guī)模教育測試一般都伴隨著重要決策,但在很多國家,這些測試結(jié)果僅僅是影響決策的一個重要因素,而不是唯一因素。如SAT、ACT和TOEFL等用于升學(xué)錄取的考試,其考試結(jié)果僅僅是高校人才選拔中的眾多指標(biāo)之一。考生在申請這些高校時,除了考試成績之外,一般還需要準(zhǔn)備多方面的材料,甚至還會參加面試。大規(guī)模測試是一個并不復(fù)雜的技術(shù)活,但測試結(jié)果的使用方式背后則有著深刻的文化、制度、社會、心理等方面的成因。不管怎樣,讓測試結(jié)果更加科學(xué)、公平和精準(zhǔn),讓測試結(jié)果更好地發(fā)揮診斷和改進功能,是國際測試領(lǐng)域一個長期努力的方向。

    (本文為全國教育科學(xué)規(guī)劃2022年度教育部重點課題《新高考結(jié)果評價改進的創(chuàng)新應(yīng)用研究》〔編號:DFA220435〕的階段性成果)

(責(zé)編:李雨潼)

版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。

中文字幕无码精品亚洲资源网久久| 日韩人妻无码精品久久免费一| 无码人妻精品中文字幕| 亚洲精品无码鲁网中文电影| 日韩AV无码精品人妻系列| 无码人妻精品中文字幕免费东京热| 中文字幕无码成人免费视频| 黄桃AV无码免费一区二区三区| 乱人伦中文无码视频在线观看| 久久亚洲中文字幕精品有坂深雪| 2021无码最新国产在线观看| 亚洲日韩精品无码专区网址| 久久久久亚洲精品中文字幕 | 国产成人三级经典中文| 国产成人无码免费网站| 无码H肉动漫在线观看| 精品亚洲成在人线AV无码| 最近2019年免费中文字幕高清| 日本妇人成熟免费中文字幕 | 久久精品无码专区免费| 日韩国产精品无码一区二区三区 | 亚洲欧美日韩中文字幕二区| 免费A级毛片无码鲁大师| 无码日韩精品一区二区免费暖暖| 人妻少妇AV无码一区二区| 色婷婷久久综合中文久久一本| 欧美中文在线视频| 视频二区中文字幕| 中文字幕欧美在线| 日本高清免费中文在线看| 色多多国产中文字幕在线| 久久丝袜精品中文字幕| 一级片无码中文字幕乱伦 | 亚洲国产精品无码专区影院| 无码人妻丝袜在线视频| 合区精品中文字幕| 无码丰满熟妇juliaann与黑人| 亚洲国产人成中文幕一级二级| 日韩AV无码一区二区三区不卡毛片 | 中文精品人人永久免费| 日韩精品无码一区二区三区四区|