Tsaipaw's blog 蔡式淵部落格

Tuesday, February 25, 2014

編製「公務人員性向測驗」?

編製「公務人員性向測驗」?

* 本文刊載於2013年3月1日考選部「考選通訊」第27期,第1版,社論。 蔡式淵。

      國家考試的命題與閱卷是個大工程。去(101)年考試院共舉辦了23次考試,含括716個類科,總共擬定了高達4,437個科目的試卷(考題)。幸運的是,每年有超過5千人次的大學教授願意協助考試院命題與閱卷,否則考試院還真不知道要如何完成這麼巨大的工作。

      這項巨大的工作有沒有可能簡化?考試院是否應該考慮編製一種(或少數幾種)各類科皆可適用的「公務人員性向測驗」,用以取代目前公務人員考試「普通科目」和絕大多數的「專業科目」?

      這問題並不容易回答。

      目前世界各國不少政府機關招募人才時,若有採取筆試一般是採用某種「公務人員性向測驗」,偶爾再加上該職務的某種「核心職能測驗」。用人機關通常會將測驗成績合併學經歷、過去事蹟及面談紀錄一起考量。他們所採用的「公務人員性向測驗」往往是以「一般認知能力」(「智力」)測驗為主,再加上一些政府運作的知識。「一般認知能力」的測驗內容通常包含「語文能力」(字彙、類比、填空、閱讀測驗、表達等)、「數量能力」(算術、算術與代數應用、分析推理、數字系列等)及「空間能力」(二度空間與三度空間圖形之旋轉、比對等),有時還會有一些針對工作是否細膩的題目,例如在很有限的時間內比對兩兩一組的許多組數字是否相同等。

      各國政府機構幾乎都將「公務人員性向測驗」題目列為嚴格保密文件,也不發表詳細的研究報告。但一般而言心理學家大致都相信這類測驗可以有不錯的選才能力;也有一些實證的資料顯示其與工作表現或智力測驗分數相關。考試院若決心要編製類似的「公務人員性向測驗」,只要騰出經費,給予時間,臺灣各大學人才濟濟,一點也不困難。困難的是:第一,考試院遵循已久的作法是每次考試完畢後必須公佈試題。所以每一版本的「公務人員性向測驗」只能用一次,下次必須再重新命題並重新標準化,每一年必須消耗許多個版本。在這種情況下很難期待能夠有源源不絕的、標準化的、高效度的「性向測驗」。第二,即使應考人與立法院能同意考試院從此不必公佈試題,補習班也很容易找人將試題背誦出場,使得公不公佈試題的實質效果相差不遠。第三,題目不斷翻新,加上補習班猜題的壓力,很可能使題目愈來愈難,愈走偏峰。這現象在我們目前採用的「普通科目」與「專業科目」考試也會發生,但在「性向測驗」問題特別嚴重。例如,中國大陸許多省分採用的「性向測驗」都包含「數字系列」題目,要求應考人根據這數字系列前5個數字之間的關係寫出第6個數字;這些「數字系列」題目愈出愈難,有時困難到幾近走火入魔,但卻只是難倒沒經過補習班密集訓練的應考人。(中國大陸的測驗專家也明瞭這個問題,所以他們也在考慮是否加考幾門「專業科目」。)

      上述三點都會傷害這類性向測驗的選才能力(效度),但最大的困難可能來自採用這類性向測驗的社會後果:你能想像數萬個學子浪費兩三年的時光在補習班或家中演練「數字系列」、「詞彙類比」、「三度空間磚塊圖的旋轉」?目前應考人花在「普通科目」與「專業科目」的精神已是人力資源的大耗費,但至少我們還可安慰自己說這些科目還有一些教育與實用的功能,性向測驗則很難有這種藉口。

      所以,要用「公務人員性向測驗」取代「普通科目」與大部分的「專業科目」,必須先能排除上述的困難。不過,這並不是說考試院不應考慮編製「性向測驗」;正好相反,考試院應考慮編製一份純做研究用途(而非直接選才用途)的「公務人員性向測驗」。

      純研究用途的「性向測驗」不會有公佈試題、補習班與浪費學子人力資源的困擾,但它可能可以協助我們瞭解目前的「普通科目」與「專業科目」的效度,作為減少或簡化「普通科目」與「專業科目」之參據。還可探討「性向測驗」分數與各科目考試成績、「考試錄取人員訓練成績」、在學成績甚至未來長期表現等之間的關係。

      「公務人員性向測驗」雖然難以取代目前的「普通科目」及「專業科目」,但它有可能提供我們一個較穩定、可靠的基礎來改善目前的考試制度,甚至可能協助我們減少或簡化目前的「普通科目」與「專業科目」,使國家考試的命題與閱卷從浩大的工程轉變成較易掌握的中型工程。

考試真的靠運氣?

考試真的靠運氣?


* 本文刊載於103年2月1日考選部「考選通訊」第38期,第1版,社論。 蔡式淵 2014.1.15 


       每年都有許多人同時報考律師考試與司法官考試,去(2013)年報考司法官7,367人中就有5,852人(79%)重覆報考律師。這兩項考試都是分別採用(全為選擇題的)初試來篩選名列前面三分之一的應考人進一步接受(全為申論題的)第二試。這兩項初試的題目雖然完全不重覆,但命題範圍完全相同,且各有300題選擇題,涵蓋各法學學門,分上、下午各兩節一天考完,兩項考試的日期相隔2週。

       我們統計近3年同時報考這兩項考試的應考人在這兩項考試的初試分數,其相關係數平均高達.90。(2011年.91;2012年.91;2013年.89)。這麼高的相關代表什麼意義呢?首先,這兩項考試僅相隔2週,並且我們都知道絕大部分應考人都曾相當密集的習做考古題或參與補習班的模擬考,所以.1(1- .9 = .1)的「誤差變異量之來源」應該不包含演練及考試的時間點(如果兩次初試之間修了一門新課程可能對成績有影響)。其次,由於試題全部是選擇題,所以也不包含「不同評閱者採用不同標準來評分」的問題。一般測驗理論常將「總誤差變異量」的來源分為「演練及時間點」、「評閱者」及「試題取樣」,而剩下的變異量則歸於「真實分數(實力)」,因此我們可以推論,「誤差變異量」之主要來源應是「試題取樣誤差」,而剩下的.90則是「實力」所促成。換句話說,假如我們從題庫中抽另一套試題來考,我們可以預期相關係數仍一樣高達大約.90,高分者一樣高分,低分者一樣低分,初試相當可靠的測出(題庫所定義的)實力。(美國SAT各子項測驗的信度也大致在.89 ~ .93之間。)假如有人抱怨「我會的都沒考,不會的考了一大堆」,我們可以大聲的說司法官與律師考試的初試,考的是「苦讀之後的實力」而非靠運氣,「運氣只佔10%」,和美國SAT差不多!

       在此我要特別強調「題庫所定義的實力」。初試題庫內的試題全部是選擇題,雖然這些題目涵蓋各法學門且按比重分配,但這些選擇題是否會偏向記憶性的題目(包括瑣碎不太重要的題目)而缺少需要思考、類推、判斷、創新、溝通、表達等能力的題目?以「題庫命題原則」所命擬的試題是否會過於偏重「死記」的實力,而輕忽了「活用」的實力?

       許多人相信申論題才能測出較高層次的認知能力,司法官考試與律師考試的第二試全部採用申論題,主要應就是為了彌補這項疑慮,但申論題這種題型比選擇題的「運氣」成分重非常多。第一,若兩位同類科應考人的考卷由不同人評閱時,我們必須確認兩位閱卷者給分標準有極高的一致性;第二,即使只有一位閱卷者,他在一星期閱卷期間採用的評分標準可能也會有(不規則的)浮動;第三,即使只有一位閱卷者且其前後標準完全不浮動,應考人可能也會懷疑,若是換一位委員閱卷,他的排名是否會大大不同?第四,申論題的「試題取樣誤差」可能比選擇題試卷高很多(因為題目較少)。

      為了降低這些運氣成分(也就是說,為了提高申論題試卷的信度),考選部採取了多項細緻的措施。例如,要求命題委員提供書面參考答案;在閱卷前先分組召開評閱會議,以統一評閱標準;某些情況下,先行試閱10~20份試卷後會再次召開評閱會議;在初步評閱數十份試卷後,提供每位閱卷者已評閱的分數之圖表。最重要的是,假如某科目有4題申論題,通常會有4位閱卷者,而每位閱卷者只閱1題,或2位閱卷者每位閱2題,如果卷數實在太多(例如地方特考)不同分發區可能由不同人評閱,但同一分發區的同一題目,仍是由同一人評閱。最近幾年,司法官考試及律師考試進一步採用(成本昂貴的)「平行兩閱」制:每個題目由2人獨立閱卷,採兩者平均數為該題得分;若兩者差距大於該題分數三分之一,則另聘第三位閱卷者評閱,以成績相近的兩位平均之。

      這些(及其他未列出的)措施,是否有效地把「運氣」的成分降到我們不需要憂慮的地步?最近放榜的司法官第二試可以提供部分答案。第二試考試採取「平行兩閱」,20個申論題每題都有2人評閱,所以我們第一步可以先看看兩位閱卷者針對每個題目所評定分數之相關係數。這20個相關係數最高.90,最低.44,平均.75。這數字可說是還算不錯,但離理想(.90?)尚有一段距離。(請記得,參加第二試的2,119人都是初試中名列前面三分之一者,所以第二試的應考人比初試者同質性高。)這數字可能對其他採取「單閱」的考試有參考價值。

       在司法官考試的第二試,我們最後計分時採取的是兩位閱卷者的平均分數,所以我們真正最關心的是,藉由平行兩閱(及更細緻地執行其他現有措施)我們是否能將「閱卷者間的誤差變異量」佔「總變異量」的比例由單閱的.25(1-.75 = .25)降到雙閱的(理想的).10?對此,我們目前沒有足夠的瞭解,必須要特別做研究,抽出大約100份考卷,找數十位老師至少評閱10題,才容易有基礎做較可靠的推論與猜測。假如我們能另外研究第二試(申論題的)「試題取樣」與「演練及時間點」及其他的誤差,把這些誤差和「閱卷者間誤差」相加來推論總誤差,或許能可靠地估算第二試的成績到底有多少是靠實力。

       雖然我們對第二試的「平行兩閱信度」仍不夠清楚,但另外有一筆數據可以讓我們對司法官考試有更高的信心。2013年最後錄取的84人當中,有85%在初試名列前面百分之十,有13%名列接下來的百分之十,只有2%落在二十之外(且實際上接近二十!),顯然司法官考試不只是信度高,同時似乎還能合理地篩選出法律人才。誰說「考試靠運氣」?(雖然仍是多少有一些不算小的........)