結果評價、過程評價、增值評價和綜合評價在實踐中的定位和職能不同,都是實現(xiàn)教育評價體系科學有效的關鍵評價方式,依據(jù)評價目的可以獨立使用也可組合使用。面向各自突出問題,結果評價要注重評價設計的能力導向和結果使用的公平導向;過程評價作為發(fā)生頻率最高的評價,重在提升日常教學評價的質量;增值評價要尋找本土化策略;綜合評價的職責是破解片面和同質發(fā)展的問題,要加強評價的開放性?!八膫€評價”在改革過程中都依賴于有關隊伍評價素養(yǎng)的提升,需要平衡好教育內部與外部、標準化與個性化、科學與倫理的關系。
“四個評價”的定位與概念
《深化新時代教育評價改革總體方案》提出了“改進結果評價,強化過程評價,探索增值評價,健全綜合評價”,“四個評價”在實踐中存在不同的問題,改革要求各有不同,但根本任務是保障教育評價的科學有效,提升教育評價的專業(yè)性、科學性。
結果評價是一個時間單元結束時開展的評價,提供了學生學業(yè)成就或者教育效果達到什么水平的證據(jù),屬于正式評價并有較高的利害性,評價設計和實施都相對嚴謹嚴格?;A教育階段的結果評價最具有代表性的是中高考,考試的結果在很大程度上決定了學生的教育機會和人生發(fā)展,這種評價結果使用上的高利害性會帶來分數(shù)傾向性。以學科考試為核心手段的結果評價是一種重要的人才選拔方式,從科舉考試開始為我國精英人才選拔和社會階層流動貢獻了力量。
過程評價是在一個時間單元的中間部分發(fā)生的,且在這個時間段內可以多次開展。過程評價可以是正式的,也可以是非正式的,例如,課堂小測驗、日常作業(yè)等。國外一般將過程評價稱為形成性評價,有塑造的含義,主要功能是為師生改進教與學提供信息或者證據(jù),多數(shù)情況下屬于低利害性評價。結果評價和過程評價二者不是互斥的,隨著時間段的長度變化、任務和目標的變化可以互相轉換。例如,期末考試成績以評價一學期的學習情況為目的時是結果評價,當升學成績里面包含平時成績時,期末考試就變成了過程評價。
增值評價是對學生學習、教師教學、學校辦學、政府工作的進步幅度和努力程度的評價。增值評價起源于學校效能的公平評價,按照進步測算的參照對象差異分為兩大類:第一類的特點是考查相對進步,評價某一所學校的學生在一段時間內,與同一抽樣中其他學校起點相似學生相比,所取得的某方面或各方面的相對進步。國外流行的方法有以英國為代表的背景化多水平增值模型(Value-added Model),以美國多個州為代表的基于百分位數(shù)的成長模型(Student Growth Percentiles),增值分或成長分是與同伴的進步進行比較后的結果,并且參照對象是相近起點的同伴而不是全體同伴,被評者處于一種競爭狀態(tài)。第二類的特點是考查絕對進步,又分為質性評價和量化評價兩類。在我國有發(fā)展性評價,依據(jù)評價指標體系將被評價對象自己的終點與自己的起點進行比較,不與其他學生或者學校進行比較;在美國田納西州采用的教師績效檔案袋增值法,依據(jù)量規(guī)對學生樣本進行兩個時點的打分最終獲得教師的增值分。以量化方法為主的有增分模型(Gain-based Model),基于垂直等值量表計算同一批學生的能力增長或者變化軌跡。
綜合評價的基本特征是評價內容、手段和主體的多元,主要類型有學生綜合素質評價、學校綜合評價、對地方政府的教育履職情況督導。綜合素質評價對學生德智體美勞的發(fā)展情況進行全面評價,有的學校采取了平時記錄學生表現(xiàn)并打分,有的集中在期末給學生打分。中高考改革將綜合素質評價作為學生招錄參考,學生在規(guī)定時間內使用評價系統(tǒng)上傳各種資料。學校綜合評價一般聚焦于全校學生在品德、學業(yè)、身心發(fā)展、興趣特長、學業(yè)負擔等方面的總體情況。綜合評價可以是過程評價也可以是結果評價,也可以將增值評價作為指標內容。綜合評價的評價主體多元,學生校外志愿服務、各類藝體活動的評價主體可以是校外有關機構、團體或組織,此外還有自評、同伴互評、師生互評、家長評價、社會滿意度等。
“四個評價”在評價實踐中承擔著不同的職能,但彼此關系不是并列的,依據(jù)績效、診斷和選拔不同的評價目的,可以采取不同的組合。
落實改革職責完成歷史任務
結果評價要注重評價設計的能力導向和結果使用的公平導向。
從評價設計的角度看,結果評價存在評價形式單一、內容偏認知、能力評價偏低階思維等問題??梢钥紤]以下改進方法:在紙筆測驗之外增加表現(xiàn)性評價、開展基于信息技術的生機互動性測試,扭轉依靠記憶力和重復訓練獲取高分的局面,增加高階思維能力以及跨學科橫向能力的評價。結果評價改革需要避免將考試難度、區(qū)分度和負擔畫等號的誤區(qū),部分地區(qū)片面降低考試難度增加大量考查細心程度和記憶的題目,既不利于創(chuàng)新人才培養(yǎng)也不利于減負。高階思維能力以及跨學科橫向能力的評價是當前國際學生素養(yǎng)測評的熱點,我們應加強國際比較研究,著眼于21世紀技能培養(yǎng)的國際趨勢,將教學和考試難度控制在適度范圍內。
從結果使用角度看,結果評價存在結果使用方式單一的問題,原始分、優(yōu)秀率等指標導致學校更愿意關注優(yōu)秀學生。改進結果評價既要引導學校使用綜合評價,給予普通學生其他表現(xiàn)渠道,也要保障普通學生的學業(yè)發(fā)展,文化素養(yǎng)是所有學生生存發(fā)展和成為國家建設者的基本需要?;诜謹?shù)的評價同樣可以通過豐富分數(shù)信息表達方式促進校內公平,例如,可比較后20%的學生的成績、隨班就讀殘疾兒童、流動人口子女成績的校際差異等。
過程評價塑造學生力度最大,重在提升日常評價的質量。
過程評價因在日常教育教學中時時發(fā)生,對學生塑造能力最強,在實踐中卻非常薄弱不受重視,過程評價沒有充分發(fā)揮診斷、反饋和促進的作用。以往,過程評價改革較多精力放在形式上的探索,包括探索鼓勵式評價、低年級游園式期末考試、各類之星評比等,這些評價形式都是必要的,但服務日常教學任務的過程評價,例如,單元測驗、課堂測驗和作業(yè)等,設計質量參差不齊。同時還忽視了學生在過程評價中的作用,例如,學生可依據(jù)教師提供的評價標準自評作業(yè)或者小測驗,而這是作為學習評價的一種重要形式。加強過程評價一方面要加強有關研究,為一線教師提供資源支持;另一方面也需要加強教師的能力建設,提高日常測評工具的質量,發(fā)揮學生成長輔助工具的作用。
增值評價是績效公平評價的要求,要尋找本土化策略。
增值評價在我國推廣面臨很多困難,統(tǒng)計上缺乏大規(guī)模的標準化測驗提供數(shù)據(jù),義務教育階段以縣為主進行管理和評價,初中學校樣本量一般無法滿足多水平模型和成長模型的要求,而小學存在學生發(fā)展速度快、波動大,無法區(qū)分來自個體成熟和外部教育的作用。實踐中教師質疑復雜統(tǒng)計結果能否真實反映績效,傳統(tǒng)的好學校擔心進步空間小在評價中吃虧。為解決低年級以及藝體學科沒有標準化考試分數(shù)用于計算增值分的情況,美國采用的檔案袋增值法可以學習和借鑒。詳細的評分標準對教師教學是非常好的指導,在教師自評的基礎上開展教師同行評價,教師參與感強并能夠從同伴那里獲得改進建議。我國可以先在部分省或者地市范圍的高中采用中高考、模擬考試成績進行試點;義務教育學段可以選擇部分學科嘗試檔案袋增值法,也可以創(chuàng)新中國增值評價模式,用好學校督導或者辦學質量評價等活動。
綜合評價破解片面發(fā)展和同質發(fā)展的問題,要加強評價的開放性。
綜合評價改革的目標是打破學校、學生發(fā)展中片面追求考試分數(shù)、千人千校一面的問題,實踐中也存在一些問題需要探索。例如,為了公平容易出現(xiàn)新的分數(shù)化現(xiàn)象,對所有學生是相同指標要求又導致新的單一量尺問題。不同學生的天賦不同、發(fā)展目標不同,對綜合素質的要求應該有不同側重,應區(qū)分不同要求、底線要求和專業(yè)錄取要求。在學校評價方面,家長和社會對學校的評價形成社會輿論進而影響到政府管理行為,但家長能夠掌握到的學校辦學情況以學生成績?yōu)橹?,總會以學生成績評價學校。我們要引導家長、社會樹立正確的教育評價觀需加強教育信息的公開和宣傳,包括公開學校辦學水平評估報告、各類督導檢查報告、各類學生活動或賽事結果,并加強各類教育活動的社會開放性和參與性。美國密歇根州教育部門為家長提供了有20個指標的公告板,包括本校和其他學校連續(xù)3年的數(shù)據(jù),信息透明為家校合作提供了有力支持。
討論與建議
教育內部與外部的協(xié)同。
一個好的評價系統(tǒng)包括賦能環(huán)境、機構能力和個人能力,核心都離不開人的作用。評價的實施者從專業(yè)人員到一線教師都需要提高測評素養(yǎng),評價的賦權者和使用者從政府到社會也需要學習一些測評常識,為評價的創(chuàng)新和改革提供環(huán)境支持。
教師群體是學生最直接接觸且接觸次數(shù)最多的評價者,因此實施教育評價改革的主力不是專業(yè)科研人員而是一線教師。這個群體的影響力被低估和忽視了。近年來,考試評價改革提高到前所未有的高度,一般認為升學考試指揮棒改變必然導致教師日常評價行為的改進,與學生日常發(fā)展息息相關的作業(yè)、課堂測試、單元測驗等較多停留在政策文本上,尤其是作業(yè)的改革較多表現(xiàn)為作業(yè)時間的限制或者作業(yè)類型的限制,對教師提高作業(yè)設計能力、日常測驗能力、資源支持方面還缺乏有效行動。教師還是綜合素質評價重要主體,隨著綜合素質評價在升學評價中的地位不斷加強,系統(tǒng)提升教師教育評價能力已經是當務之急。
社會支持也決定了評價改革能否落地,例如,題目開發(fā)成本、多次考試之間的等值都期待考試題目保密,原始分數(shù)轉換成統(tǒng)計分數(shù)等,與我國公開考試題目、卷面分等于最終總分等社會文化傳統(tǒng)不一致,需要完善社會誠信系統(tǒng)和增強社會對考試系統(tǒng)的信任度。技術創(chuàng)新科學落地也需要決策者和技術人員之間有效合作,協(xié)調好行政需要和技術需要。
標準化與個性化的平衡。
2017年,美國的一部分中學聯(lián)合成立了精熟成績單聯(lián)盟(Mastery Transcript Consortium, MTC),認為傳統(tǒng)的大學申請文書遵守的統(tǒng)一范式是工業(yè)化時代的產物,不適應今天的需求。同時越來越多的大學表示不再對本科申請要求SAT、ACT成績,研究生招生不再要求GRE和GMAT也形成了一種風潮。實施新政的大學認為SAT和ACT的存在只是刺激了培訓市場,高中4年的GPA比3小時的測驗更能說明學生的能力。MTC聯(lián)盟雖然也打著促進社會公平的旗號,但指標體系對教育投入的要求更高,各種素養(yǎng)證明需要家長投入資金、時間和人脈,其本質還是推動評價的個性化更好地服務精英階層。我國社會也出現(xiàn)了結果評價應轉向過程評價的聲音,過程評價用于選拔對使用者、實施者和被評者來說成本都非常高,標準化考試給普通大眾提供了參與評價的機會,從而保障了社會上升通路,我們的評價改革必須小心平衡標準化和個性化之間的關系,評估農村地區(qū)綜合素質評價、選課走班改革、有特殊需求群體學生存在的困難等。
科學與倫理的融合。
一般來講,評價次數(shù)越多、評價內容越多評價結果越可靠,部分學校和地方因此片面理解加強過程評價、健全綜合評價,讓學生處于時時處處被評價的緊張狀態(tài),或將綜合素質評價演變成要求學生各個方面齊頭并進,對科學的過分追求反而走向不科學。以往研究證明,過多評價會導致學生疲勞厭倦降低學習質量,過程評價要依據(jù)評價目標選擇適當節(jié)點和代表作;綜合素質評價的理論基礎是多元智能理論,面對不同特長和個性的學生提供不同的賽道,并允許賽道之間轉換。
在關鍵性考試上應加強倫理審查,例如,考試題目求新的同時,必須檢測是否存在項目功能差異問題,避免出現(xiàn)題目本身或者題目情境對某個學生群體不公平的問題。從評價系統(tǒng)的制度建設角度,評價改革還應建立教育評價仲裁、審查、指導各類委員會,對各級評價的開展實施監(jiān)督和指導。各類委員會的成員應有廣泛的代表性,尤其是應有農村教師的參與。
(作者任春榮,系中國教育科學研究院研究員)(《中國民族教育》雜志2021年第6期)
工信部備案號:京ICP備05071141號
互聯(lián)網新聞信息服務許可證 10120170024
中國教育新聞網版權所有,未經書面授權禁止下載使用
Copyright@2000-2022 www.aaallgj.com All Rights Reserved.