Tsaipaw's blog 蔡式淵部落格

Sunday, August 12, 2018

烏鴉清潔隊

'Intelligent' crows to pick up litter at French theme park

Comments 0 comments
Six crows specially trained to pick up cigarette ends and rubbish will be put to work next week at a French historical theme park, its president said on Friday.
"The goal is not just to clear up, because the visitors are generally careful to keep things clean" but also to show that "nature itself can teach us to take care of the environment", Nicolas de Villiers of the Puy du Fou park, in the western Vendee region, told AFP.
Rooks, a member of the crow family of birds that also includes the carrion crow, jackdaw and raven, are considered to be "particularly intelligent" and in the right circumstances "like to communicate with humans and establish a relationship through play", Villiers said.
The birds will be encouraged to spruce up the park through the use of a small box that delivers a tasty nugget of bird food each time the rook deposits a cigarette end or small piece of rubbish, he added.

© 2018 AFP

https://www.expatica.com/fr/news/country-news/France-tourism-birds-offbeat_2031808.html

Saturday, September 23, 2017

關於台大兒童心理衛生中心

剛看到 1979 年與王震武一起寫的這篇報導:行為治療在台灣的醫路歷程
登在綜合月刊 138 期













Thursday, November 19, 2015

教鴿子分辨你是否患乳癌?

http://www.realclearscience.com/journal_club/2015/11/19/pigeons_can_be_taught_pathology_and_radiology.html


Pigeons Can Be Taught Pathology and Radiology

By Ross Pomeroy
A new study shows that pigeons can be trained to recognize breast cancer with surprising accuracy..........
In the past, pigeons have been trained to recognize letters of the alphabet, identify human emotions, and even differentiate paintings by Monet and Picasso, but evaluating medical imagery was an entirely novel foray.
Researchers primarily based out of the University of Iowa trained eight pigeons to differentiate between images of benign and malignant breast cancer slides at varying levels of magnification...........
...........

Source: Levenson RM, Krupinski EA, Navarro VM, Wasserman EA (2015) Pigeons (Columba livia) as Trainable Observers of Pathology and Radiology Breast Cancer Images. PLoS ONE 10(11): e0141357. doi:10.1371/journal.pone.0141357

Saturday, July 18, 2015

柬埔寨用老鼠找地雷 (路透社)










Cambodia uses 'life-saving' rats to sniff out deadly landmines



By Prak Chan Thul

SIEM REAP, Cambodia (Reuters) - Pit, only two and with just one eye, needed only 11 minutes before he detected a deadly mine buried in a Cambodian field, work that humans with metal detectors could have taken up to five days to investigate.But Pit is not human. He is part of a team of elite rats, imported from Africa, that Cambodia is training to sniff out landmines that still dot the countryside after decades of conflict."Under a clear sky, he would have been quicker," said Hul Sokheng, a veteran Cambodian deminer, who oversees training of 12 handlers on how to work with 15 large rats to clear Cambodia's farmland and rural villages of bombs."These are life-saving rats," he said under rainy skies.Their work could prove vital in a country where unexploded devices, including mines and unexploded shells, have killed nearly 20,000 Cambodians and wounded about 44,000 since 1979, according to the Cambodian government.Pit is able to smell highly explosive TNT inside landmines, watched over by two handlers who tie him up to a rope as the one-eyed rat searches through the grass.Pit and his rat friends - all Gambian pouched rats - were deployed to Cambodia from Tanzania in April by a Belgian non-profit organization, APOPO, to help clear mines. They've been trained since they were 4 weeks old.At the training field, Pit sniffed TNT scented objects, stopped, dug a little, and was rewarded by his handler with banana."He knows his duty: search," said Hul Sokheng.Landmines and explosive remnants of war have taken a severe toll on Cambodians. The Cambodian Mine Victim Information Service has recorded 19,684 people killed since 1979.Cambodia is still littered with landmines after emerging from decades of war, including the 1970s Khmer Rouge "Killing Fields" genocide, leaving it with one of the world's highest disability rates.APOPO has used the rodents for mine-clearing projects in several countries, including Angola, Mozambique, Thailand, Laos, and Vietnam.One of the biggest advantages of using rats is that landmines pose no danger to them because the rats are not heavy enough to trigger an explosion.For their handlers, the rats are more than bomb detectors."They are not just rats, they are like my brothers," said 41-year-old handler Meas Chamroeun.(Editing by Amy Sawitta Lefevre and Paul Tait)Copyright2015 Thomson Reuters

Saturday, February 07, 2015

終於印出來了  "司法官考試與律師考試的信度"


終於印出來了
國家精英, 第十卷第四期總號40, 頁101-122 (2014年12月)




    司法官考試與律師考試的信度              
          ( 蔡式淵1 林雅鋒2 曾慧敏3 顏惠玲4 楊麗華5 吳淑華6)


https://drive.google.com/file/d/0B0fw1VFJ3yyncThvbTVTVzN6dW8/view?usp=sharing



   

Monday, December 01, 2014

司法官考試與律師考試的信度與內容效度 (2014/1120 修改本文)


司法官考試與律師考試的信度與內容效度     (2014/1120 修改本文)



前言


   國家考試通常採用測驗題與申論題。雖然考試院有豐富的辦理命題與閱卷經驗(光是2013年一年內就辦理了19次考試,915個分別錄取的類科,總共擬定了高達5,393科目的試卷/考題並評閱),但針對這些考試的信度尤其是申論題的評分是否客觀甚少進行實證研究供各方探討。

 本報告從這915個類科中選出2個類科(司法官考試與律師考試),計算過去3年(201120122013年)一些與信度及內容效度有關的數字供關心人士參考。

   我們之所以選擇司法官與律師2類科,主要是因為這2類科的考試有幾項特性使我們能夠較深入探討其(筆試部分的)信度。第一,2011年起司法官考試與律師考試都開始實施二階段筆試(第一試及第二試)且採用了所謂「平行兩閱」的制度,亦即每一題申論題皆有兩位閱卷委員獨立評分,再採兩者平均數為該題得分。這項改變使考試院第一次擁有大量實際考試情況下取得之資料得以檢視「不同閱卷者間信度」之相關議題。例如,我們可以計算兩位閱卷者在「各題得分」、「各科得分」及「4個法律科目總分」的相關係數(即,「(單閱)閱卷者間信度」)。第二,每年同時報考司法官與律師這兩類科的人非常多,而其中有相當可觀的人數既通過司法官第一試也通過律師第一試而同時參加這兩類科的第二試。因為這兩類科考試涵蓋相同法學學門,且其命題範圍及題型完全相同(第一試300題選擇題,得分名列前三分之一者得應第二試20題申論題),我們由研究設計的角度來看,可以將之視為一群為數可觀的受試者同時接受了同一測驗的兩個版本試卷,而藉由計算兩版本間之相關係數,依古典測驗理論來推論其「內容取樣誤差」並探討其與「內容效度」有關之議題。

本報告使用之原始資料皆來自2011201220133年考試的實際評分成績,這些數據全部來自考選部的存檔資料,並沒有為了研究目的而特別設計之閱卷程序。另外,第三試(口試)因為與第一、二試性質差異頗大,所以沒列入本報告的討論範圍。



壹、研究對象人數與第一試及第二試成績之分布



   在報告信度數據之前,讓我們先檢視這兩項考試的人數與總成績分布。


 【表一】詳列過去3年參加司法官考試的人數、參加律師考試人數及同時參加兩者的人數;表中所列是實際到考人數而非報名人數。這些應考人在每一個題目的得分、每個科目的得分及總分是我們進一步計算與信度有關之議題的基本資料。簡而言之,每年律師考試均有超過8千人參加,司法官考試有6千多人參加,而同時參加律師考試又參加司法官考試者有5千多人。其中有1千多人同時全程到考律師考試與司法官考試的第二試。

 司法官考試與律師考試的第一試均分別包含300題測驗題(選擇題),分4節於1天考完,每節時間80100分鐘不等,滿分成績為600分。【圖一】為201120122013年司法官考試與律師考試第一試的成績分布,均呈左右大致對稱之鐘型分布,平均成績位於353~376之間,標準差約58~62

   第一試全程到考者成績名列前面三分之一者得參加第二試。第二試除國文外還考4個專業科目,總共20題申論題,分2天舉行。第1天:憲法與行政法(180分鐘)、國文(120分鐘)、刑法與刑事訴訟法(180分鐘);第2天:商事法(180分鐘)、民法與民事訴訟法(240分鐘)。國文部分,律師考作文及測驗題,司法官除了作文及測驗題外還有公文。國文與專業科目合計滿分成績為1,000分。

   第二試總成績分布依年度及類別詳如【圖二】。這6個子圖均呈稍微左偏之鐘型曲線,平均數位於442~466,標準差49~57之間。

   律師考試第二試全程到考者名列前百分之三十三視為錄取,得請領律師證書,經完成6個月的職前訓練,得向法院聲請登錄。司法官考試則按第二試成績高低順序,依(每年不同之)需用名額加百分之十擇優錄取參加第三試。第二試(佔1,000分)與第三試口試(佔100分)合併之總成績依序依需用名額擇優錄取(第一試成績不併入總成績計算),錄取者經16個月至2年訓練期滿成績及格再由司法院或法務部依次派用。

貳、第一試測驗題的信度與內容效度

     第一試(300題選擇題)沒有「評閱者間信度」的問題;因為是機器(電腦)閱卷,且以高敏感度及低敏感度2次讀卡,並輔以人工抽閱,其信度應極接近1.0。在過去多年經驗中,偶爾會有爭議者均為塗改不清或未用指定之2B鉛筆作答,但即使以原子筆或其他鉛筆作答通常也不會有問題。 

   第一試的信度議題中,我們較關心的是「不同版本間信度」(或稱「複本信度」)的議題(葉重新,2010, P.63):同一群人,在A300題的得分,與B300題的得分之相關係數為何?這問題背後欲探討的是,這300題選擇題是否為各法學學門所有題目的代表性樣本。(或至少是各法學學門中「適合以選擇題方式出題的」所有題目的代表性樣本。)從另一個角度看,這問題也可說是「內容效度」的核心問題。Cronbach (1971, P.451)即曾描述這種觀點:當考試的範圍界定明確,則「當你問『這些用來收集數據的試題,是否真正代表考試範圍的所有試題?』,你就是在檢視內容效度。」內容效度之促成,通常藉由詳列綱目、綱領、仔細思考要測試之能力、分配題數、由專家命題,再由另一組專家審查各個題目所測試之能力是否的確是我們欲測試的能力中所必需者,並判斷其代表性。考選部辦理司法官與律師考試的命題也同樣是採取了上述程序,可以說是已經在某種程度建立了內容效度的基礎,但我們若把檢視之重點放在這些題目的代表性,則「複本信度」(尤其是數個版本的「複本信度」)不失為一種數量化的、有用(但不完美的)指標。Spearman1904)那篇有關信度的開山鼻祖之作就是用複本信度來推論代表性的問題。(Lawshe 1975年提出的「內容效度比例」指標基本上僅僅是在瞭解專家對題目的意見是否一致,與代表性較無關聯;考選部也沒有數量化的資料可計算此一指標。)

 藉由司法官考試與律師考試的數據,我們可以估算「第一試(300題選擇題)的複本信度」。司法官與律師的第一試,同時全程到考者多達5千餘人,題目雖然完全不重覆,但命題大綱均完全相同,都是300題選擇題,作答時間也相同,考試日期只差2星期(2週期間到考者的實力應無重大改變)

這兩項考試第一試得分之相關係數(皮爾森積差相關,以下皆同)在201120122013年分別為0.910.910.90,平均0.91。由於樣本數極大(N = 5,6755,1625,059)且相關係數很高,所以這些數值(以我們的用途而言)已經非常準確,其誤差幾乎侷限在決定小數點後第2位數時要把第3位數四捨五入的範圍內。若以常用的推估信賴區間方法計算(Fisher1924),把(非常態分布的)r 轉換成Fisher’s z’,再以z’估算信賴區間,再把數值轉換回r,則三者的95%信賴區間分別為0.910 ~ 0.9180.907 ~ 0.9170.892 ~ 0.903。我們推論所有變異量中,大約只有0.091.00 - 0.91 = 0.09)的誤差變異量來自「試題取樣」,其他均來自「真實分數」,至於「閱卷者間」及「演練及時間點」之變異量在第一試均判斷應是微小到可忽略的程度(Anastasi, 1968, Pp.78~89)。換句話說,第一試(300題測驗題)對要測量的內容做了很好的代表性取樣,也就是說,有很高的「內容效度」或內容代表性。(請記得這項考試題目多達300題,總共分4節考了6個小時,不計休息時間;一般而言,試題愈多複本信度愈高。)這項推論目前已有連續3年的數字支持;不過由於考試程序改變,從2014年起司法官與律師考試第一試「合併舉行」,所以我們不會再有類似資料可參照,而2011年之前因為沒有分二階段筆試,我們也沒有類似資料。

【圖三】以原始分數分布畫出這3年的相關圖,由圖中可直覺看出兩類科考試有0.91之高度相關。若只計算同質性較高的第一試錄取者(即前面三分之一),則這3年的相關係數分別為0.740.710.69

參、第二試申論題的信度與內容效度

   

  第二試採用的是「平行兩閱」的計分方式,因此我們最關心信度是「(兩閱)閱卷者間信度」,也就是甲、乙兩位閱卷委員打的分數和丙、丁兩位所打的分數有多相似?不幸的是,我們沒有數據可以直接估算,因為每一題都只有甲、乙兩位的分數而沒有丙、丁兩位的分數,若要做此項估算必須在正常閱卷程序外另外找人評閱。

   不過有個有關聯的相關係數倒是可以用現有資料計算:甲和乙兩位閱卷委員所給的分數之間的相關係數。我們稱之為「(單閱)閱卷者間信度」。考選部採用的閱卷程序是每一題申論題都有兩位(也只有兩位)閱卷者評分,他們兩位負責評閱所有到考者在該單一試題的答案;所以20題申論題就動員了40位閱卷委員。這兩位閱卷者彼此看不到對方評閱的分數,(2011及2012年是在紙本答案卷上彌封第一位閱卷者的評分,2013年起採用電腦影像檔案來評分。)「(單閱)閱卷者間信度」就是計算這兩位閱卷者對每份答案卷所打的分數之相關係數。


     我們首先以每個題目為單位,計算每題得分的「(單閱)閱卷者間信度」。【表二】詳列每個科目內每一題由兩位閱卷者所給的分數之相關係數。司法官部分,2011年這20個相關係數平均為0.76(全距0.59~0.94)、2012年為0.75(全距0.57~0.96)、2013年為0.75(全距0.44~0.90)。律師考試,2011年0.75(全距0.54~0.86)、2012年為0.80 (全距0.60~0.96)、2013年為0.70 (全距0.51~0.90)。



    簡單言之,在司法官考試與律師考試第二試申論題部分,每題得分的「(單閱)閱卷者間信度」大約落在0.75,而其分布稍廣一些,全距寬達0.44~0.96。這個0.75的平均數值是來自(第一試全程到考者名列前三分之一的)第二試應考者;若是將同樣的題目與閱卷標準施測於(較不均質的)第一試應考者,理論上應會高一些。(【表二】的人數比【表一】全程到考人數稍微高一些,主要是因為僅部分科目到考而未全程到考者也納入【表二】中。)


 我們也可以採用每個科目為單位,計算單一科目得分的「(單閱)閱卷者間信度」,不過這項計算有個較複雜之處:要如何計算每位應考人由數個申論題構成的科目之得分?我們的閱卷程序採用的是每一題由不同的一組(2人)評閱。假如只有1題,我們把第1位的評分放在X欄,第2位放在Y欄,就完成了甲生的得分,乙生、丙生、丁生等也可一樣辦理。但如果有2題,甲生第2題的2個得分,那個要放X欄,那個Y欄?於是我們有1 × 2種計算甲生總分的方法。如果有3題,我們有(1×2×2=44種計算甲生總分的方法。4題就有8種(1×2×2×2 =8),5題就有16種(1×2×2×2×2=16),632種。為了避免運氣成分,我們把各科目所有可能的總分組合均計算出來,並將其相關係數全部列於【表三】。表中每一個數字背後的受測者至少都有1,997人。
由【表三】可看出,同一年同一考試同一科目的各種組合方式所計算出的數值均極接近,所以我們可以取其平均數估計其「閱卷者間信度」,並把重點放在檢視此平均數。「憲法與行政法」得分的「(單閱)閱卷者間信度」在過去3年兩項考試的估計值為0.73~0.88,「刑法與刑事訴訟法」為0.74~0.88,「商事法」為0.84~0.93,「民法與民事訴訟法」為0.76~0.91。單一科目得分的「(單閱)閱卷者間信度」總平均為0.8424個估計值的全距為0.73~0.93。國文科目因為採用單閱,所以沒有數據可估算國文科的「(單閱)閱卷者間信度」。

「(單閱)閱卷者間信度」最有參考價值的可能是以4個法律專業科目總分為單位估算之數值。由於有20題申論題,每題有1組(2人)評分,所以計算總分的「(單閱)閱卷者間信度」的方式多達524,288種(219次方)。我們以機率抽樣的方式,於每年每項考試(3×2類科)各抽出256種不同的推估值,並以其平均數代表該次考試4個專業科目總分之「(單閱)閱卷者間信度」。由【圖四】可看出,各種不同方式推估的總分的「(單閱)閱卷者間信度」均極高且頗為一致。6組數值的平均值分別為0.930.930.940.960.930.91,而其總平均值為0.93

   在前面第一試的部分,我們計算了「複本信度」,在第二試,我們也照樣可以將司法官考試與律師考試視為同一個考試的不同版本而計算「複本信度」。【表四】最下面兩欄所列的是在同一年度同時全程到考者在司法官考試與律師考試第二試的總分之相關係數(上面各欄列的是各科目得分之相關係數)。(這裡用來計算的原始數字是兩閱的總分。)不論是只計專業科目總分,或是把國文也加入總分,其相關係數均維持在0.71左右。
在第一試中,我們將0.091.00 - 0.91 = 0.09 ) 的「誤差變異量之來源」全部歸於「試題取樣誤差」,但在第二試的複本信度,其0.29 ( 1.00 - 0.71 = 0.29 )變異量可能包含「試題取樣」、「閱卷者」與「演練」導致的誤差在內。

 以各專業法律科目為單位的「複本信度」比總分低許多,平均在0.45左右(全距0.38~0.53),而國文則特別低,只計作文為0.223年分別為0.260.180.22),若加計其他測驗與公文,則平均為0.273年分別為0.260.250.30)。(詳見【表四】)

肆、如何提升第二試的信度與內容效度?


國家考試需要有高信度,主要是為了降低兩種測量誤差:閱卷者間誤差(「不同老師給的分數差很遠」)及內容取樣誤差(「考的恰巧都是我不熟的」)。這些誤差隨著信度係數由1.0下降而快速增加,這通常是編製測驗者會希望其「閱卷者間信度」係數高於0.90以上的主因

 在司法官與律師的第一試(300題選擇題)當中,這兩種誤差均不構成問題,前者因機器閱卷使得誤差接近於0,而後者藉由「複本信度」(0.91,見【圖三】)推估應仍穩穩位在一般認為優良測驗的範圍內。

   第二試(20題申論題)的「閱卷者間誤差」與「內容取樣誤差」問題比較複雜,考試中真正採用來決定錄取與否的分數是第二試兩閱的總分(含國文),但是我們手上沒有(兩閱)總分的相關係數,只有(單閱)4個專業科目總分的相關係數(0.91~0.96之間,平均0.93,見【圖四】)。理論上「兩閱」的相關係數應比「單閱」的係數稍高一些,(這也是為什麼我們採用兩閱的理由,)所以第二試「閱卷者間誤差」所佔變異量應稍小於0.0710.93 = 0.07);此數值雖不比第一試(選擇題)的0.0但已優於一般非正式引用的「小於0.1」粗略原則,也可能遠遠優於測驗學者在沒有看見此數字之前的預期。(請記得,這個測驗考2天共20題申論題,遠比一般測驗廣泛深入。)簡而言之,第二試因不同閱卷者而導致之誤差,如以各題為單位單獨檢視稍嫌偏高(10.750.25),如以科目為單位單獨檢視,也稍有不足(10.840.16),但當我們以考了220題的總分來檢視時,是蠻低的,可接受的(10.930.07

 比較需要改善的是第二試的內容取樣誤差,而此誤差表現在0.71的複本信度(見【表四】最底下兩欄所列各年同時參與兩類科第二試者,在司法官考試與律師考試的總分之相關係數。)這數值(0.71)以複本的實際應用來看並不算低,我們仍能由一個版本的分數大致預測另一個版本的分數,但如果我們追求0.9以上的目標,則除了典型的(1)增加題目數與延長考試時間,(2)加強閱卷前的評閱會議與試閱,(3)進行試題分析,(4)落實命題研討、審題與題庫管理外,可考慮(5)把第一試成績與第二試成績合計當做決定錄取與否的總分。誠如【表五】所示,合計的結果,可使此相關係數提高至0.770.80之間。(若把第一試的比重由600分提高至150%,或許相關係數也會更高;這部分我們沒有試算。)把第一試與第二試之總分相加可提高相關係數,除了基於「增加題目數量通常可增加試題取樣代表性」的通則外,可能還有更深一層之理由。現有的選擇題與申論題,除了涵蓋的廣度有差別之外,可能的確是在測量重疊但不完全相同的法學知識與能力。【表六】顯示,參與第二試者中,第一試與第二試總分僅呈中度相關(0.43~0.55),此數值比第一試的司法官成績與律師成績的相關低(只計名列前面三分之一者,約0.69~0.74,見【圖三】),也低於第二試的司法官成績與律師成績的相關(0.71~0.73,見【表四】底下兩欄)。或許我們題庫中的選擇題的確是偏向記憶性與理解性的廣泛知識與能力,而申論題的確是較能檢測理解/應用/整合/表達的能力,所以把一、二試分數相加,或許更能代表全貌。

  另一個提升第二試信度與內容效度的途徑是重新思考國文科目的考試內容、評分標準與評分程序。我們手上並沒有國文,尤其是作文的「平行兩閱」分數可供參考,因為國文科不曾採用「平行兩閱」的制度,我們僅有【表四】的數字:同樣一群應考人,在司法官考試針對一個題目寫了一篇文章,1~2週後在律師考試又針對另一個不同的題目寫了另外一篇文章,這兩篇文章由不同的人評閱,其相關係數僅只有0.18~0.26,遠比【表四】所列其他科目低(0.38~0.53)。由表中也可看出,二試總分要不要將國文分數加入,對其複本信度雖不至於有負面影響,但也看不出增益。換個人改考卷(「閱卷者間誤差」)、換個題目(「內容取樣誤差」)這兩項誤差來源佔了作文得分總變異量將近74~82%;這裡面應有改進空間。鑑於語言能力為眾多認知能力之基礎,考試院應更積極面對此議題。

伍、信度、效度與經驗值的類推

   信度與內容效度的分析固然是評估一個測驗的基本動作,但對於改善國家考試,這些分析有其極大的侷限性。本文所述的2011~2013年司法官與律師考試,雖然有一流的第一試信度與內容效度,也有(出人意表的)優良的第二試「閱卷者間信度」與可接受的內容效度,但是我們可以問:

一、未來是否都能維持此水準?我們每次考完就公布題無法保密,再加上避免雷同或重覆使用,有無可能使命題愈走愈偏?這問題應能解決,但我們可能需花費更多的成本與精神於題庫的構思與管理。


二、其他專技考試及公務員高普考是否也有類似水準?司法官與律師考試第二試的各個單獨科目的「閱卷者間信度」並不算很高(0.84),真正高的是考了20題申論題之後合計的總分(0.93)。其他考試,尤其是採取臨時命題沒有設置題庫的科目,能有此水準嗎?我們能「以此類推」地說,經濟學科目的信度和法律科目大概類似嗎?公務員考試往往橫跨法律、政治、經濟、社會、心理等更寬廣的領域,其各科目合計之總分能有類似的信度與內容效度嗎?一般公務員考試開始評閱之前的「評閱標準會議」有同樣程度的落實嗎?我們需要有更多各種考試的實證研究才能回答這些問題。

三、高信度、高內容效度就能選拔適當的人才嗎?國家考試的效度(到目前為止)大致奠基在下列兩項論證基礎之上:第一、經由多年的努力,一般大眾相信這些考試公平、公正、公開、不循私、不舞弊,而學界透過廣泛參與也相信這些考試是認真、嚴肅、公平、沒有被把持的。這個基礎基本上是測驗學者所說的「表面效度」的論點。第二、經驗與常識使大家相信對各法學學門較瞭解者(考試能得高分者),較適合當司法官或律師,所以,我們選拔人才的考試就以這些學門的考試為主,考試的好壞就取決於試題與閱卷是否真正能分辨應考人在法學領域的功力。這個論點可稱之為「內容效度」的論點。本研究推估之數字大大加強了這個論點的勁道:司法官與律師考試的成績(總分)的確可靠地代表應考者對這些學門的知識與能力。

   但是,「書讀得好,做事就會做得好嗎」?司法官考試的目標是要預測/選拔好的司法官人才;高信度、高內容效度的測驗之優勝者,真的比落榜者更適合當司法官嗎?有實際的資料直接支持這個論點嗎?高分者在司法官訓練所的表現優於低分者嗎?高分者就職多年後的表現的確勝過相對低分者嗎?有沒有可能實際優劣的因素只有一部分取決於法學知識,而大部分取決於其他因素呢?例如,工作習慣、工作速度、口才、積極主動的態度、追求新知獨立思考的性格、挫折的承受能力、對某個小領域專精的能力、品德、人際關係技巧…等等。這些問題我們都沒有實證數據可以回答。律師考試的目標則和司法官大大不同,律師考試是要決定某個人是否有資格執業。在考試成績的分布中,要選擇那一個點當作符不符合資格的切割點,似乎相當程度是特定時空下的政策及政治決定,而不是測驗編製的問題。

不管此切割點如何決定,如果我們手上沒有直接證據顯示錄取者比落榜者在工作上的表現的確較為優良,或是較無缺點,則只靠「表面效度」與「內容效度」的論點來支持本考試似乎基礎稍嫌單薄。

換句話說,考試院需要做一些傳統測驗理論中稱為「效標效度」與「建構效度」的資料收集與研究 (Cronbach Meehl, 1955 ),甚至將這些相關概念與數據整合於單一的效度概念中(Messick, 1995)。信度與內容效度的研究只是起點,要建立穩固的考試取才基礎,考試院還有一大段路要走。


參考書目


葉重新(2010):心理與教育測驗。台北市:心理出版社。

Anastasi, A. (1968). Psychological Testing (3rd edition). New York: Macmillan. 
Cronbach, L.J. (1971). Test validation. In R. L. Thorndike (Ed.), Educational
Measurement (2nd ed.). Washington DC: American Council on Education.

Cronbach, L.J. & Meehl, P.E. (1955). Construct validity in psychological tests.
 Psychological Bulletin,52, 281-302.

Fisher, R.A. (1924). On a distribution yielding the error functions of several well known statistics. Proceedings of the International Congress of Mathematics, Toronto2, 805–813.

Lawshe, C.H. (1975). A quantitative approach to content validity. Personnel Psychology28, 563-575.

Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist9, 741-749.


Spearman C. (1904). The proof and measurement of association between two things. American Journal of Psychology, 1572–101.

The Reliability and Content Validity of Taiwanese Government-Administered Bar Exam (Revised 2014/11/20)


The Reliability and Content Validity of Taiwanese Government-Administered Bar Exam

S.Y. Tsai, Y.F. Lin, H.M. Tseng
H.L.Yen, L.H.Yang, S.H.Wu

Abstract

In Taiwanese government-administered Bar Exams 2 professors independently scored each essay-type answer. Inter-scorer reliability therefore could be calculated. There were 20 essay-type questions, and the exams took 2 days. From 2011 to 2013 the inter-scorer reliability for a single essay averaged 0.75, for a sub-area that consisted of 4-6 essays, 0.84, and for the total test of 20 essays, 0.93. When the Exam for Recruiting Candidates (for justices and prosecutors) and the Bar Exam were conceptualized as two alternate forms of the same exam, an alternate-form reliability could be calculated among candidates who had taken both, and was shown to be about 0.71. A separate multiple-choice test consisting of 300 items, which was used for screening purpose and took a whole day to administer, showed an alternate-form reliability of about 0.91.





------------------------------------------------------------
Keywords: bar exam, inter-scorer reliability, alternate-form reliability, content validity, justices exam







All authors worked at The Examination Yuan when the study was conducted. Address correspondence to Dr. S.Y. Tsai at <tsaipaw@gmail.com> .

司法官考試與律師考試的信度與內容效度 (2014/1120 修改摘要)

司法官考試與律師考試的信度與內容效度 

 (2014/1120 修改摘要)


蔡式淵1 林雅鋒2 曾慧敏3 顏惠玲4 楊麗華5 吳淑華6


  摘 要


     從2011年起,司法官考試與律師考試的申論題每一題都有2人獨立閱卷。由每年至少接近2,000位實際到考者的得分,可以計算2011、2012及2013 這3年不同閱卷者所給的分數之皮爾森積差相關係數:(1)每題得分之相關係數平均0.75;(2)科目得分(4~6題)之相關係數平均0.84;(3)4個法律專業科目之總分(20題)的相關係數平均0.93。另藉由將司法官考試與律師考試視為同一個考試但題目完全不重疊的兩個不同版本(複本),我們由約在二週內先參與司法官考試繼之又參與律師考試者在兩項考試的得分,可以計算出第一試(300題選擇題)的複本信度約0.91,第二試(20題申論題加國文;兩項考試由不同人評分)的複本信度約0.71。 


 關鍵字:司法官考試、律師考試、平行兩閱、評分者信度、複本信度、內容效度


-----------------------------------------------------------------

1考試院考試委員,現已退休。 2考試院考試委員,現為監察院監察委員。3考選部常務次長。
4考選部特種考試司司長。 5考選部統計室科長。 6考試院佐理人員。本文聯絡人:蔡式淵<tsaipaw@gmail.com

Saturday, August 30, 2014

司法官考試與律師考試圖表 (圖1-4 & 表1-6)


司法官考試與律師考試圖表 (圖1-4 & 表1-6)

[尚未發表之草稿  尋求評論中]

















































































Tuesday, April 22, 2014

律師考試與司法官考試的信度(初步進度摘要)



律師考試與司法官考試的信度
(初步進度摘要)
                                                     蔡式淵
律師考試與司法官考試有幾個特性使我們能夠深入探討這兩項考試的信度。第一、每年同時報考這兩項考試的人非常多,去(2013)年報考司法官考試7,367人中就有5,852人(79%)重覆報考律師,且兩項考試時間只相隔2週。第二、這兩項考試的命題範圍及型態完全相同,涵蓋各法學學門(第一試300題選擇題,得分名列前三分之一者得應第二試20題申論題)。第三、由於報考者眾,所以同時通過兩項考試的第一試而參加第二試的人數也相當可觀(2013年有1,493人)。第四、第二試的每一題申論題都由兩位不同的評閱者獨立評分,採兩者平均數為該題得分
     由研究設計的角度來看,我們可以把每年律師考試與司法官考試看成是同一個考試的兩種版本,以重覆應考者的表現來計算兩個版本之間的信度。另外,因為同一個版本的申論題有兩位評閱者,所以我們可以計算「各題得分」、「各科得分」及「4科目總分」的「(單閱)評閱者間之信度」。我們甚至可以初步比較「國文/作文」科目與其他法律專業科目之信度。(不過,「作文」並沒有雙閱,所以只能比較每年兩種版本間之信度,並且是「不同評閱者(單閱)」之信度)。
     我們目前仍在計算與驗算上述各種信度資料,詳細的報告將會公開發表。其初步結果簡單摘要如下:
1.      第一試(300題選擇題)的「評閱者間信度」:因為是機器(電腦)閱卷,且以高敏感度/低敏感度2次讀卡閱卷,再輔以人工抽閱,其信度應極接近1.0
2.      第一試(300題選擇題)「兩版本間信度」:過去3年(2011~2013),司法官考試與律師考試得分之相關係數分別為0.910.910.90。若只計同質性較高的「同時上榜律師與司法官第一試」的人,而非所有同時報考者,則相關係數分別為0.740.710.69
3.      第二試申論題「每個題目」的「(單閱)評閱者間信度」:司法官考試每年有20題申論題,每題各有2位評閱者,2011年這20個相關係數平均為0.76range: 0.59~0.94)、20120.75range: 0.57~0.96)、20130.75range: 0.44~0.90)。律師考試,20110.75range: 0.54~0.86)、20120.80range: 0.60~0.96)、20130.70range: 0.51~0.90)。
4.      第二試申論題「各科目得分」及「4科目總分」之「(單閱)評閱者間信度」:尚未完成計算。
5.      第二試申論題的「(雙閱)評閱者間信度」:沒有資料可以計算,因為每題都只有一組(兩人)評閱。
6.      第二試申論題專業科目總分之「兩版本間且由不同組雙閱之信度」:2011年,同時考司法官考試與律師考試之應考人,其司法官專業科目(共4科)總分與律師專業科目總分之相關為0.732012年為0.712013年為0.71。(總分以雙閱者之平均計算;同年度之司法官與律師考試每一題均由不同之兩人閱卷)。若在「專業科目總分」之上加計「國文得分」,相關係數沒什麼改變(20110.722012.0.7120130.71)。值得一提的是,此數值(0.710.73)與前面2.提到的「同時上榜律師與司法官第一試」者在第一試(選擇題)的「兩版本間信度」(0.69~0.74)似乎毫不遜色;不過這項意外的結果目前只有3年的資料。
由這些初步資料來看,考試院辦理的律師考試與司法官考試固然有急需改進之空間,但整體而言應可視為高品質之測驗。至於其他考試院舉辦之考試(716個類科,共4,437個科目)是否能有如此水準,則尚待進一步研究。

Tuesday, February 25, 2014

編製「公務人員性向測驗」?

編製「公務人員性向測驗」?

* 本文刊載於2013年3月1日考選部「考選通訊」第27期,第1版,社論。 蔡式淵。

      國家考試的命題與閱卷是個大工程。去(101)年考試院共舉辦了23次考試,含括716個類科,總共擬定了高達4,437個科目的試卷(考題)。幸運的是,每年有超過5千人次的大學教授願意協助考試院命題與閱卷,否則考試院還真不知道要如何完成這麼巨大的工作。

      這項巨大的工作有沒有可能簡化?考試院是否應該考慮編製一種(或少數幾種)各類科皆可適用的「公務人員性向測驗」,用以取代目前公務人員考試「普通科目」和絕大多數的「專業科目」?

      這問題並不容易回答。

      目前世界各國不少政府機關招募人才時,若有採取筆試一般是採用某種「公務人員性向測驗」,偶爾再加上該職務的某種「核心職能測驗」。用人機關通常會將測驗成績合併學經歷、過去事蹟及面談紀錄一起考量。他們所採用的「公務人員性向測驗」往往是以「一般認知能力」(「智力」)測驗為主,再加上一些政府運作的知識。「一般認知能力」的測驗內容通常包含「語文能力」(字彙、類比、填空、閱讀測驗、表達等)、「數量能力」(算術、算術與代數應用、分析推理、數字系列等)及「空間能力」(二度空間與三度空間圖形之旋轉、比對等),有時還會有一些針對工作是否細膩的題目,例如在很有限的時間內比對兩兩一組的許多組數字是否相同等。

      各國政府機構幾乎都將「公務人員性向測驗」題目列為嚴格保密文件,也不發表詳細的研究報告。但一般而言心理學家大致都相信這類測驗可以有不錯的選才能力;也有一些實證的資料顯示其與工作表現或智力測驗分數相關。考試院若決心要編製類似的「公務人員性向測驗」,只要騰出經費,給予時間,臺灣各大學人才濟濟,一點也不困難。困難的是:第一,考試院遵循已久的作法是每次考試完畢後必須公佈試題。所以每一版本的「公務人員性向測驗」只能用一次,下次必須再重新命題並重新標準化,每一年必須消耗許多個版本。在這種情況下很難期待能夠有源源不絕的、標準化的、高效度的「性向測驗」。第二,即使應考人與立法院能同意考試院從此不必公佈試題,補習班也很容易找人將試題背誦出場,使得公不公佈試題的實質效果相差不遠。第三,題目不斷翻新,加上補習班猜題的壓力,很可能使題目愈來愈難,愈走偏峰。這現象在我們目前採用的「普通科目」與「專業科目」考試也會發生,但在「性向測驗」問題特別嚴重。例如,中國大陸許多省分採用的「性向測驗」都包含「數字系列」題目,要求應考人根據這數字系列前5個數字之間的關係寫出第6個數字;這些「數字系列」題目愈出愈難,有時困難到幾近走火入魔,但卻只是難倒沒經過補習班密集訓練的應考人。(中國大陸的測驗專家也明瞭這個問題,所以他們也在考慮是否加考幾門「專業科目」。)

      上述三點都會傷害這類性向測驗的選才能力(效度),但最大的困難可能來自採用這類性向測驗的社會後果:你能想像數萬個學子浪費兩三年的時光在補習班或家中演練「數字系列」、「詞彙類比」、「三度空間磚塊圖的旋轉」?目前應考人花在「普通科目」與「專業科目」的精神已是人力資源的大耗費,但至少我們還可安慰自己說這些科目還有一些教育與實用的功能,性向測驗則很難有這種藉口。

      所以,要用「公務人員性向測驗」取代「普通科目」與大部分的「專業科目」,必須先能排除上述的困難。不過,這並不是說考試院不應考慮編製「性向測驗」;正好相反,考試院應考慮編製一份純做研究用途(而非直接選才用途)的「公務人員性向測驗」。

      純研究用途的「性向測驗」不會有公佈試題、補習班與浪費學子人力資源的困擾,但它可能可以協助我們瞭解目前的「普通科目」與「專業科目」的效度,作為減少或簡化「普通科目」與「專業科目」之參據。還可探討「性向測驗」分數與各科目考試成績、「考試錄取人員訓練成績」、在學成績甚至未來長期表現等之間的關係。

      「公務人員性向測驗」雖然難以取代目前的「普通科目」及「專業科目」,但它有可能提供我們一個較穩定、可靠的基礎來改善目前的考試制度,甚至可能協助我們減少或簡化目前的「普通科目」與「專業科目」,使國家考試的命題與閱卷從浩大的工程轉變成較易掌握的中型工程。