司法官考試與律師考試的信度與內容效度 (2014/1120 修改本文)
前言
國家考試通常採用測驗題與申論題。雖然考試院有豐富的辦理命題與閱卷經驗(光是2013年一年內就辦理了19次考試,915個分別錄取的類科,總共擬定了高達5,393科目的試卷/考題並評閱),但針對這些考試的信度尤其是申論題的評分是否客觀甚少進行實證研究供各方探討。
本報告從這915個類科中選出2個類科(司法官考試與律師考試),計算過去3年(2011、2012及2013年)一些與信度及內容效度有關的數字供關心人士參考。
我們之所以選擇司法官與律師2類科,主要是因為這2類科的考試有幾項特性使我們能夠較深入探討其(筆試部分的)信度。第一,2011年起司法官考試與律師考試都開始實施二階段筆試(第一試及第二試)且採用了所謂「平行兩閱」的制度,亦即每一題申論題皆有兩位閱卷委員獨立評分,再採兩者平均數為該題得分。這項改變使考試院第一次擁有大量實際考試情況下取得之資料得以檢視「不同閱卷者間信度」之相關議題。例如,我們可以計算兩位閱卷者在「各題得分」、「各科得分」及「4個法律科目總分」的相關係數(即,「(單閱)閱卷者間信度」)。第二,每年同時報考司法官與律師這兩類科的人非常多,而其中有相當可觀的人數既通過司法官第一試也通過律師第一試而同時參加這兩類科的第二試。因為這兩類科考試涵蓋相同法學學門,且其命題範圍及題型完全相同(第一試300題選擇題,得分名列前三分之一者得應第二試20題申論題),我們由研究設計的角度來看,可以將之視為一群為數可觀的受試者同時接受了同一測驗的兩個版本試卷,而藉由計算兩版本間之相關係數,依古典測驗理論來推論其「內容取樣誤差」並探討其與「內容效度」有關之議題。
本報告使用之原始資料皆來自2011、2012與2013這3年考試的實際評分成績,這些數據全部來自考選部的存檔資料,並沒有為了研究目的而特別設計之閱卷程序。另外,第三試(口試)因為與第一、二試性質差異頗大,所以沒列入本報告的討論範圍。
壹、研究對象人數與第一試及第二試成績之分布
在報告信度數據之前,讓我們先檢視這兩項考試的人數與總成績分布。
【表一】詳列過去3年參加司法官考試的人數、參加律師考試人數及同時參加兩者的人數;表中所列是實際到考人數而非報名人數。這些應考人在每一個題目的得分、每個科目的得分及總分是我們進一步計算與信度有關之議題的基本資料。簡而言之,每年律師考試均有超過8千人參加,司法官考試有6千多人參加,而同時參加律師考試又參加司法官考試者有5千多人。其中有1千多人同時全程到考律師考試與司法官考試的第二試。
司法官考試與律師考試的第一試均分別包含300題測驗題(選擇題),分4節於1天考完,每節時間80至100分鐘不等,滿分成績為600分。【圖一】為2011、2012及2013年司法官考試與律師考試第一試的成績分布,均呈左右大致對稱之鐘型分布,平均成績位於353~376之間,標準差約58~62。
第一試全程到考者成績名列前面三分之一者得參加第二試。第二試除國文外還考4個專業科目,總共20題申論題,分2天舉行。第1天:憲法與行政法(180分鐘)、國文(120分鐘)、刑法與刑事訴訟法(180分鐘);第2天:商事法(180分鐘)、民法與民事訴訟法(240分鐘)。國文部分,律師考作文及測驗題,司法官除了作文及測驗題外還有公文。國文與專業科目合計滿分成績為1,000分。
第二試總成績分布依年度及類別詳如【圖二】。這6個子圖均呈稍微左偏之鐘型曲線,平均數位於442~466,標準差49~57之間。
律師考試第二試全程到考者名列前百分之三十三視為錄取,得請領律師證書,經完成6個月的職前訓練,得向法院聲請登錄。司法官考試則按第二試成績高低順序,依(每年不同之)需用名額加百分之十擇優錄取參加第三試。第二試(佔1,000分)與第三試口試(佔100分)合併之總成績依序依需用名額擇優錄取(第一試成績不併入總成績計算),錄取者經1年6個月至2年訓練期滿成績及格再由司法院或法務部依次派用。
貳、第一試測驗題的信度與內容效度
第一試(300題選擇題)沒有「評閱者間信度」的問題;因為是機器(電腦)閱卷,且以高敏感度及低敏感度2次讀卡,並輔以人工抽閱,其信度應極接近1.0。在過去多年經驗中,偶爾會有爭議者均為塗改不清或未用指定之2B鉛筆作答,但即使以原子筆或其他鉛筆作答通常也不會有問題。
第一試的信度議題中,我們較關心的是「不同版本間信度」(或稱「複本信度」)的議題(葉重新,2010,
P.63):同一群人,在A版300題的得分,與B版300題的得分之相關係數為何?這問題背後欲探討的是,這300題選擇題是否為各法學學門所有題目的代表性樣本。(或至少是各法學學門中「適合以選擇題方式出題的」所有題目的代表性樣本。)從另一個角度看,這問題也可說是「內容效度」的核心問題。Cronbach
(1971,
P.451)即曾描述這種觀點:當考試的範圍界定明確,則「當你問『這些用來收集數據的試題,是否真正代表考試範圍的所有試題?』,你就是在檢視內容效度。」內容效度之促成,通常藉由詳列綱目、綱領、仔細思考要測試之能力、分配題數、由專家命題,再由另一組專家審查各個題目所測試之能力是否的確是我們欲測試的能力中所必需者,並判斷其代表性。考選部辦理司法官與律師考試的命題也同樣是採取了上述程序,可以說是已經在某種程度建立了內容效度的基礎,但我們若把檢視之重點放在這些題目的代表性,則「複本信度」(尤其是數個版本的「複本信度」)不失為一種數量化的、有用(但不完美的)指標。Spearman(1904)那篇有關信度的開山鼻祖之作就是用複本信度來推論代表性的問題。(Lawshe
在1975年提出的「內容效度比例」指標基本上僅僅是在瞭解專家對題目的意見是否一致,與代表性較無關聯;考選部也沒有數量化的資料可計算此一指標。)
藉由司法官考試與律師考試的數據,我們可以估算「第一試(300題選擇題)的複本信度」。司法官與律師的第一試,同時全程到考者多達5千餘人,題目雖然完全不重覆,但命題大綱均完全相同,都是300題選擇題,作答時間也相同,考試日期只差2星期(2週期間到考者的實力應無重大改變)。
這兩項考試第一試得分之相關係數(皮爾森積差相關,以下皆同)在2011、2012及2013年分別為0.91、0.91及0.90,平均0.91。由於樣本數極大(N
=
5,675、5,162及5,059)且相關係數很高,所以這些數值(以我們的用途而言)已經非常準確,其誤差幾乎侷限在決定小數點後第2位數時要把第3位數四捨五入的範圍內。若以常用的推估信賴區間方法計算(Fisher,1924),把(非常態分布的)r
轉換成Fisher’s
z’,再以z’估算信賴區間,再把數值轉換回r,則三者的95%信賴區間分別為0.910
~ 0.918、0.907
~ 0.917及0.892
~ 0.903。我們推論所有變異量中,大約只有0.09(1.00
- 0.91 =
0.09)的誤差變異量來自「試題取樣」,其他均來自「真實分數」,至於「閱卷者間」及「演練及時間點」之變異量在第一試均判斷應是微小到可忽略的程度(Anastasi,
1968,
Pp.78~89)。換句話說,第一試(300題測驗題)對要測量的內容做了很好的代表性取樣,也就是說,有很高的「內容效度」或內容代表性。(請記得這項考試題目多達300題,總共分4節考了6個小時,不計休息時間;一般而言,試題愈多複本信度愈高。)這項推論目前已有連續3年的數字支持;不過由於考試程序改變,從2014年起司法官與律師考試第一試「合併舉行」,所以我們不會再有類似資料可參照,而2011年之前因為沒有分二階段筆試,我們也沒有類似資料。
【圖三】以原始分數分布畫出這3年的相關圖,由圖中可直覺看出兩類科考試有0.91之高度相關。若只計算同質性較高的第一試錄取者(即前面三分之一),則這3年的相關係數分別為0.74、0.71及0.69。
參、第二試申論題的信度與內容效度
第二試採用的是「平行兩閱」的計分方式,因此我們最關心信度是「(兩閱)閱卷者間信度」,也就是甲、乙兩位閱卷委員打的分數和丙、丁兩位所打的分數有多相似?不幸的是,我們沒有數據可以直接估算,因為每一題都只有甲、乙兩位的分數而沒有丙、丁兩位的分數,若要做此項估算必須在正常閱卷程序外另外找人評閱。
不過有個有關聯的相關係數倒是可以用現有資料計算:甲和乙兩位閱卷委員所給的分數之間的相關係數。我們稱之為「(單閱)閱卷者間信度」。考選部採用的閱卷程序是每一題申論題都有兩位(也只有兩位)閱卷者評分,他們兩位負責評閱所有到考者在該單一試題的答案;所以20題申論題就動員了40位閱卷委員。這兩位閱卷者彼此看不到對方評閱的分數,(2011及2012年是在紙本答案卷上彌封第一位閱卷者的評分,2013年起採用電腦影像檔案來評分。)「(單閱)閱卷者間信度」就是計算這兩位閱卷者對每份答案卷所打的分數之相關係數。
我們首先以每個題目為單位,計算每題得分的「(單閱)閱卷者間信度」。【表二】詳列每個科目內每一題由兩位閱卷者所給的分數之相關係數。司法官部分,2011年這20個相關係數平均為0.76(全距0.59~0.94)、2012年為0.75(全距0.57~0.96)、2013年為0.75(全距0.44~0.90)。律師考試,2011年0.75(全距0.54~0.86)、2012年為0.80 (全距0.60~0.96)、2013年為0.70 (全距0.51~0.90)。
簡單言之,在司法官考試與律師考試第二試申論題部分,每題得分的「(單閱)閱卷者間信度」大約落在0.75,而其分布稍廣一些,全距寬達0.44~0.96。這個0.75的平均數值是來自(第一試全程到考者名列前三分之一的)第二試應考者;若是將同樣的題目與閱卷標準施測於(較不均質的)第一試應考者,理論上應會高一些。(【表二】的人數比【表一】全程到考人數稍微高一些,主要是因為僅部分科目到考而未全程到考者也納入【表二】中。)
我們也可以採用每個科目為單位,計算單一科目得分的「(單閱)閱卷者間信度」,不過這項計算有個較複雜之處:要如何計算每位應考人由數個申論題構成的科目之得分?我們的閱卷程序採用的是每一題由不同的一組(2人)評閱。假如只有1題,我們把第1位的評分放在X欄,第2位放在Y欄,就完成了甲生的得分,乙生、丙生、丁生等也可一樣辦理。但如果有2題,甲生第2題的2個得分,那個要放X欄,那個Y欄?於是我們有1
× 2種計算甲生總分的方法。如果有3題,我們有(1×2×2=4)4種計算甲生總分的方法。4題就有8種(1×2×2×2
=8),5題就有16種(1×2×2×2×2=16),6題32種。為了避免運氣成分,我們把各科目所有可能的總分組合均計算出來,並將其相關係數全部列於【表三】。表中每一個數字背後的受測者至少都有1,997人。
由【表三】可看出,同一年同一考試同一科目的各種組合方式所計算出的數值均極接近,所以我們可以取其平均數估計其「閱卷者間信度」,並把重點放在檢視此平均數。「憲法與行政法」得分的「(單閱)閱卷者間信度」在過去3年兩項考試的估計值為0.73~0.88,「刑法與刑事訴訟法」為0.74~0.88,「商事法」為0.84~0.93,「民法與民事訴訟法」為0.76~0.91。單一科目得分的「(單閱)閱卷者間信度」總平均為0.84,24個估計值的全距為0.73~0.93。國文科目因為採用單閱,所以沒有數據可估算國文科的「(單閱)閱卷者間信度」。
「(單閱)閱卷者間信度」最有參考價值的可能是以4個法律專業科目總分為單位估算之數值。由於有20題申論題,每題有1組(2人)評分,所以計算總分的「(單閱)閱卷者間信度」的方式多達524,288種(2的19次方)。我們以機率抽樣的方式,於每年每項考試(3年×2類科)各抽出256種不同的推估值,並以其平均數代表該次考試4個專業科目總分之「(單閱)閱卷者間信度」。由【圖四】可看出,各種不同方式推估的總分的「(單閱)閱卷者間信度」均極高且頗為一致。6組數值的平均值分別為0.93、0.93、0.94、0.96、0.93及0.91,而其總平均值為0.93。
在前面第一試的部分,我們計算了「複本信度」,在第二試,我們也照樣可以將司法官考試與律師考試視為同一個考試的不同版本而計算「複本信度」。【表四】最下面兩欄所列的是在同一年度同時全程到考者在司法官考試與律師考試第二試的總分之相關係數(上面各欄列的是各科目得分之相關係數)。(這裡用來計算的原始數字是兩閱的總分。)不論是只計專業科目總分,或是把國文也加入總分,其相關係數均維持在0.71左右。
在第一試中,我們將0.09(1.00
- 0.91 = 0.09 ) 的「誤差變異量之來源」全部歸於「試題取樣誤差」,但在第二試的複本信度,其0.29
( 1.00 - 0.71 = 0.29 )變異量可能包含「試題取樣」、「閱卷者」與「演練」導致的誤差在內。
以各專業法律科目為單位的「複本信度」比總分低許多,平均在0.45左右(全距0.38~0.53),而國文則特別低,只計作文為0.22(3年分別為0.26、0.18及0.22),若加計其他測驗與公文,則平均為0.27(3年分別為0.26、0.25及0.30)。(詳見【表四】)
肆、如何提升第二試的信度與內容效度?
國家考試需要有高信度,主要是為了降低兩種測量誤差:閱卷者間誤差(「不同老師給的分數差很遠!」)及內容取樣誤差(「考的恰巧都是我不熟的!」)。這些誤差隨著信度係數由1.0下降而快速增加,這通常是編製測驗者會希望其「閱卷者間信度」係數高於0.90以上的主因。
在司法官與律師的第一試(300題選擇題)當中,這兩種誤差均不構成問題,前者因機器閱卷使得誤差接近於0,而後者藉由「複本信度」(0.91,見【圖三】)推估應仍穩穩位在一般認為優良測驗的範圍內。
第二試(20題申論題)的「閱卷者間誤差」與「內容取樣誤差」問題比較複雜,考試中真正採用來決定錄取與否的分數是第二試兩閱的總分(含國文),但是我們手上沒有(兩閱)總分的相關係數,只有(單閱)4個專業科目總分的相關係數(0.91~0.96之間,平均0.93,見【圖四】)。理論上「兩閱」的相關係數應比「單閱」的係數稍高一些,(這也是為什麼我們採用兩閱的理由,)所以第二試「閱卷者間誤差」所佔變異量應稍小於0.07(1-0.93
=
0.07);此數值雖不比第一試(選擇題)的0.0但已優於一般非正式引用的「小於0.1」粗略原則,也可能遠遠優於測驗學者在沒有看見此數字之前的預期。(請記得,這個測驗考2天共20題申論題,遠比一般測驗廣泛深入。)簡而言之,第二試因不同閱卷者而導致之誤差,如以各題為單位單獨檢視稍嫌偏高(1-0.75=0.25),如以科目為單位單獨檢視,也稍有不足(1-0.84=0.16),但當我們以考了2天20題的總分來檢視時,是蠻低的,可接受的(1-0.93=0.07)。
比較需要改善的是第二試的內容取樣誤差,而此誤差表現在0.71的複本信度(見【表四】最底下兩欄所列各年同時參與兩類科第二試者,在司法官考試與律師考試的總分之相關係數。)這數值(0.71)以複本的實際應用來看並不算低,我們仍能由一個版本的分數大致預測另一個版本的分數,但如果我們追求0.9以上的目標,則除了典型的(1)增加題目數與延長考試時間,(2)加強閱卷前的評閱會議與試閱,(3)進行試題分析,(4)落實命題研討、審題與題庫管理外,可考慮(5)把第一試成績與第二試成績合計當做決定錄取與否的總分。誠如【表五】所示,合計的結果,可使此相關係數提高至0.77與0.80之間。(若把第一試的比重由600分提高至150%,或許相關係數也會更高;這部分我們沒有試算。)把第一試與第二試之總分相加可提高相關係數,除了基於「增加題目數量通常可增加試題取樣代表性」的通則外,可能還有更深一層之理由。現有的選擇題與申論題,除了涵蓋的廣度有差別之外,可能的確是在測量重疊但不完全相同的法學知識與能力。【表六】顯示,參與第二試者中,第一試與第二試總分僅呈中度相關(0.43~0.55),此數值比第一試的司法官成績與律師成績的相關低(只計名列前面三分之一者,約0.69~0.74,見【圖三】),也低於第二試的司法官成績與律師成績的相關(0.71~0.73,見【表四】底下兩欄)。或許我們題庫中的選擇題的確是偏向記憶性與理解性的廣泛知識與能力,而申論題的確是較能檢測理解/應用/整合/表達的能力,所以把一、二試分數相加,或許更能代表全貌。
另一個提升第二試信度與內容效度的途徑是重新思考國文科目的考試內容、評分標準與評分程序。我們手上並沒有國文,尤其是作文的「平行兩閱」分數可供參考,因為國文科不曾採用「平行兩閱」的制度,我們僅有【表四】的數字:同樣一群應考人,在司法官考試針對一個題目寫了一篇文章,1~2週後在律師考試又針對另一個不同的題目寫了另外一篇文章,這兩篇文章由不同的人評閱,其相關係數僅只有0.18~0.26,遠比【表四】所列其他科目低(0.38~0.53)。由表中也可看出,二試總分要不要將國文分數加入,對其複本信度雖不至於有負面影響,但也看不出增益。換個人改考卷(「閱卷者間誤差」)、換個題目(「內容取樣誤差」)這兩項誤差來源佔了作文得分總變異量將近74%~82%;這裡面應有改進空間。鑑於語言能力為眾多認知能力之基礎,考試院應更積極面對此議題。
伍、信度、效度與經驗值的類推
信度與內容效度的分析固然是評估一個測驗的基本動作,但對於改善國家考試,這些分析有其極大的侷限性。本文所述的2011~2013年司法官與律師考試,雖然有一流的第一試信度與內容效度,也有(出人意表的)優良的第二試「閱卷者間信度」與可接受的內容效度,但是我們可以問:
一、未來是否都能維持此水準?我們每次考完就公布題無法保密,再加上避免雷同或重覆使用,有無可能使命題愈走愈偏?這問題應能解決,但我們可能需花費更多的成本與精神於題庫的構思與管理。
二、其他專技考試及公務員高普考是否也有類似水準?司法官與律師考試第二試的各個單獨科目的「閱卷者間信度」並不算很高(0.84),真正高的是考了20題申論題之後合計的總分(0.93)。其他考試,尤其是採取臨時命題沒有設置題庫的科目,能有此水準嗎?我們能「以此類推」地說,經濟學科目的信度和法律科目大概類似嗎?公務員考試往往橫跨法律、政治、經濟、社會、心理等更寬廣的領域,其各科目合計之總分能有類似的信度與內容效度嗎?一般公務員考試開始評閱之前的「評閱標準會議」有同樣程度的落實嗎?我們需要有更多各種考試的實證研究才能回答這些問題。
三、高信度、高內容效度就能選拔適當的人才嗎?國家考試的效度(到目前為止)大致奠基在下列兩項論證基礎之上:第一、經由多年的努力,一般大眾相信這些考試公平、公正、公開、不循私、不舞弊,而學界透過廣泛參與也相信這些考試是認真、嚴肅、公平、沒有被把持的。這個基礎基本上是測驗學者所說的「表面效度」的論點。第二、經驗與常識使大家相信對各法學學門較瞭解者(考試能得高分者),較適合當司法官或律師,所以,我們選拔人才的考試就以這些學門的考試為主,考試的好壞就取決於試題與閱卷是否真正能分辨應考人在法學領域的功力。這個論點可稱之為「內容效度」的論點。本研究推估之數字大大加強了這個論點的勁道:司法官與律師考試的成績(總分)的確可靠地代表應考者對這些學門的知識與能力。
但是,「書讀得好,做事就會做得好嗎」?司法官考試的目標是要預測/選拔好的司法官人才;高信度、高內容效度的測驗之優勝者,真的比落榜者更適合當司法官嗎?有實際的資料直接支持這個論點嗎?高分者在司法官訓練所的表現優於低分者嗎?高分者就職多年後的表現的確勝過相對低分者嗎?有沒有可能實際優劣的因素只有一部分取決於法學知識,而大部分取決於其他因素呢?例如,工作習慣、工作速度、口才、積極主動的態度、追求新知獨立思考的性格、挫折的承受能力、對某個小領域專精的能力、品德、人際關係技巧…等等。這些問題我們都沒有實證數據可以回答。律師考試的目標則和司法官大大不同,律師考試是要決定某個人是否有資格執業。在考試成績的分布中,要選擇那一個點當作符不符合資格的切割點,似乎相當程度是特定時空下的政策及政治決定,而不是測驗編製的問題。
不管此切割點如何決定,如果我們手上沒有直接證據顯示錄取者比落榜者在工作上的表現的確較為優良,或是較無缺點,則只靠「表面效度」與「內容效度」的論點來支持本考試似乎基礎稍嫌單薄。
換句話說,考試院需要做一些傳統測驗理論中稱為「效標效度」與「建構效度」的資料收集與研究
(Cronbach & Meehl,
1955 ),甚至將這些相關概念與數據整合於單一的效度概念中(Messick,
1995)。信度與內容效度的研究只是起點,要建立穩固的考試取才基礎,考試院還有一大段路要走。
參考書目
葉重新(2010):心理與教育測驗。台北市:心理出版社。
Anastasi,
A. (1968). Psychological Testing (3rd edition). New
York: Macmillan.
Cronbach, L.J. (1971). Test validation. In R. L. Thorndike
(Ed.), Educational
Measurement (2nd
ed.). Washington DC: American Council on Education.
Cronbach, L.J. &
Meehl, P.E. (1955). Construct validity in psychological tests.
Psychological
Bulletin,52, 281-302.
Fisher,
R.A. (1924). On a distribution yielding the error functions of
several well known statistics. Proceedings of the International
Congress of Mathematics, Toronto, 2, 805–813.
Lawshe,
C.H. (1975). A quantitative approach to content validity. Personnel
Psychology, 28, 563-575.
Messick,
S. (1995). Validity of psychological assessment: Validation of
inferences from persons' responses and performances as scientific
inquiry into score meaning. American
Psychologist, 9,
741-749.
Spearman C.
(1904). The proof and measurement of association between two
things. American Journal of
Psychology, 15, 72–101.