Tsaipaw's blog 蔡式淵部落格

Tuesday, February 25, 2014

考試真的靠運氣?

考試真的靠運氣?


* 本文刊載於103年2月1日考選部「考選通訊」第38期,第1版,社論。 蔡式淵 2014.1.15 


       每年都有許多人同時報考律師考試與司法官考試,去(2013)年報考司法官7,367人中就有5,852人(79%)重覆報考律師。這兩項考試都是分別採用(全為選擇題的)初試來篩選名列前面三分之一的應考人進一步接受(全為申論題的)第二試。這兩項初試的題目雖然完全不重覆,但命題範圍完全相同,且各有300題選擇題,涵蓋各法學學門,分上、下午各兩節一天考完,兩項考試的日期相隔2週。

       我們統計近3年同時報考這兩項考試的應考人在這兩項考試的初試分數,其相關係數平均高達.90。(2011年.91;2012年.91;2013年.89)。這麼高的相關代表什麼意義呢?首先,這兩項考試僅相隔2週,並且我們都知道絕大部分應考人都曾相當密集的習做考古題或參與補習班的模擬考,所以.1(1- .9 = .1)的「誤差變異量之來源」應該不包含演練及考試的時間點(如果兩次初試之間修了一門新課程可能對成績有影響)。其次,由於試題全部是選擇題,所以也不包含「不同評閱者採用不同標準來評分」的問題。一般測驗理論常將「總誤差變異量」的來源分為「演練及時間點」、「評閱者」及「試題取樣」,而剩下的變異量則歸於「真實分數(實力)」,因此我們可以推論,「誤差變異量」之主要來源應是「試題取樣誤差」,而剩下的.90則是「實力」所促成。換句話說,假如我們從題庫中抽另一套試題來考,我們可以預期相關係數仍一樣高達大約.90,高分者一樣高分,低分者一樣低分,初試相當可靠的測出(題庫所定義的)實力。(美國SAT各子項測驗的信度也大致在.89 ~ .93之間。)假如有人抱怨「我會的都沒考,不會的考了一大堆」,我們可以大聲的說司法官與律師考試的初試,考的是「苦讀之後的實力」而非靠運氣,「運氣只佔10%」,和美國SAT差不多!

       在此我要特別強調「題庫所定義的實力」。初試題庫內的試題全部是選擇題,雖然這些題目涵蓋各法學門且按比重分配,但這些選擇題是否會偏向記憶性的題目(包括瑣碎不太重要的題目)而缺少需要思考、類推、判斷、創新、溝通、表達等能力的題目?以「題庫命題原則」所命擬的試題是否會過於偏重「死記」的實力,而輕忽了「活用」的實力?

       許多人相信申論題才能測出較高層次的認知能力,司法官考試與律師考試的第二試全部採用申論題,主要應就是為了彌補這項疑慮,但申論題這種題型比選擇題的「運氣」成分重非常多。第一,若兩位同類科應考人的考卷由不同人評閱時,我們必須確認兩位閱卷者給分標準有極高的一致性;第二,即使只有一位閱卷者,他在一星期閱卷期間採用的評分標準可能也會有(不規則的)浮動;第三,即使只有一位閱卷者且其前後標準完全不浮動,應考人可能也會懷疑,若是換一位委員閱卷,他的排名是否會大大不同?第四,申論題的「試題取樣誤差」可能比選擇題試卷高很多(因為題目較少)。

      為了降低這些運氣成分(也就是說,為了提高申論題試卷的信度),考選部採取了多項細緻的措施。例如,要求命題委員提供書面參考答案;在閱卷前先分組召開評閱會議,以統一評閱標準;某些情況下,先行試閱10~20份試卷後會再次召開評閱會議;在初步評閱數十份試卷後,提供每位閱卷者已評閱的分數之圖表。最重要的是,假如某科目有4題申論題,通常會有4位閱卷者,而每位閱卷者只閱1題,或2位閱卷者每位閱2題,如果卷數實在太多(例如地方特考)不同分發區可能由不同人評閱,但同一分發區的同一題目,仍是由同一人評閱。最近幾年,司法官考試及律師考試進一步採用(成本昂貴的)「平行兩閱」制:每個題目由2人獨立閱卷,採兩者平均數為該題得分;若兩者差距大於該題分數三分之一,則另聘第三位閱卷者評閱,以成績相近的兩位平均之。

      這些(及其他未列出的)措施,是否有效地把「運氣」的成分降到我們不需要憂慮的地步?最近放榜的司法官第二試可以提供部分答案。第二試考試採取「平行兩閱」,20個申論題每題都有2人評閱,所以我們第一步可以先看看兩位閱卷者針對每個題目所評定分數之相關係數。這20個相關係數最高.90,最低.44,平均.75。這數字可說是還算不錯,但離理想(.90?)尚有一段距離。(請記得,參加第二試的2,119人都是初試中名列前面三分之一者,所以第二試的應考人比初試者同質性高。)這數字可能對其他採取「單閱」的考試有參考價值。

       在司法官考試的第二試,我們最後計分時採取的是兩位閱卷者的平均分數,所以我們真正最關心的是,藉由平行兩閱(及更細緻地執行其他現有措施)我們是否能將「閱卷者間的誤差變異量」佔「總變異量」的比例由單閱的.25(1-.75 = .25)降到雙閱的(理想的).10?對此,我們目前沒有足夠的瞭解,必須要特別做研究,抽出大約100份考卷,找數十位老師至少評閱10題,才容易有基礎做較可靠的推論與猜測。假如我們能另外研究第二試(申論題的)「試題取樣」與「演練及時間點」及其他的誤差,把這些誤差和「閱卷者間誤差」相加來推論總誤差,或許能可靠地估算第二試的成績到底有多少是靠實力。

       雖然我們對第二試的「平行兩閱信度」仍不夠清楚,但另外有一筆數據可以讓我們對司法官考試有更高的信心。2013年最後錄取的84人當中,有85%在初試名列前面百分之十,有13%名列接下來的百分之十,只有2%落在二十之外(且實際上接近二十!),顯然司法官考試不只是信度高,同時似乎還能合理地篩選出法律人才。誰說「考試靠運氣」?(雖然仍是多少有一些不算小的........)

0 Comments:

Post a Comment

<< Home