close

    如果要對題目進行進一步的分析或發揮,首先,我們得先定義何謂「高估」。

    根據教育部重編國語辭典修訂本的釋義,「高估」代表著「估計過高,超過實際的情況」,而在教育部國語辭典簡編本「高估」則被釋義為「預期或評價超過實際的情況」。也就是說,在談「高估」之前,得先找出實際的情況,再將取得之評價與實際情況進行比較;若其高於實際情況是為高估、反之則為低估。其中,根據上方兩辭典,「實際」之釋義有  ❶ 真實的情形具體的、實在的 兩種,本文取前者作為全文中實際之釋義。

overrated 6

    其次,我們討論如何得到「實際的情況」。換句話說,如何將球員在整個職業生涯或是某個時間片段的表現,包含可體現的各種數據以及無法直接以數據體現的領導能力、拚勁......綜合考量並量化為一具體數據以進行比較?

    為了回答上述問題,下方我以「語言學」為引子,切入「職業運動」層面,並與其進行對照和分析。

    在現代語言學之父 Ferdinand de Saussure (索緒爾) 所著的 Cours de linguistique générale《語言學通論》一書中有兩個核心觀念。一是「signifiant 意符」和「signifié 意旨」之間的相應關係;二是兩者關係間所具有的「L'arbitraire du Signe 符號的專斷性」。語言的專斷性表現在意符的多元化,不同語言各有不同的意符,意旨的傳達取決於意符之間的差異,故每一種語言都自成一個自足的體系。若將前述觀念用在「discours 文學言談」上,就給予了每一個作家在共同的語言上,仍具有有限之專斷的可能。〔引用、改寫自高行健《靈山》序〕

    同理,在試圖量化職業運動球員的表現作為一具體數據時,也會產生兩個核心觀念。一是「基礎數據 與 經計算後的進階數據」和「無法量化的場上作用」之間的相應關係;二是探討並試圖量化這兩者之關係所產生在主觀判斷上的專斷性以及系統性偏差。運動的專斷性表現在不同數據的多元化,不同運動各有不同的數據,而場上作用的探討亦取決於數據、賽事進行方式、獲勝方式等運動間本質上的差異,故每一種運動都自成一個自足的體系。然而,就如同在上段語言學討論中的「文學言談」概念,每一個將球員表現量化的數據處理者,由於涉及數據處理手法的不同以及主觀想法無法避免的帶入,同樣可能造成了專斷的結果。行文至此,如何將無可避免的專斷所造成量化數據與實境情況之偏差最小化成為待解的難題。

overrated 5

    舉世聞名的小說家 Gustave Flaubert (福樓拜) 曾經說過:「每一片樹葉都是獨一無二的。」球員也是如此,每一位都是該項運動的佼佼者,每一位卻又如此不同;量化成具體數據卻是要將這些相異處弭平,在異中求同的同時使量化數據產生可比較性。(在此,我暫且不提此量化數值之數值間距是否成比例關係等結構性問題,這些問題將留待下方「比較高估程度」的地方進行探討。) 回歸正題,由本段與前段論述可知,尋得絕對的標準是對於本文命題的最佳解;然而,考量到主觀以及專斷情況必然存在此量化過程中,試圖定義絕對標準是無解的。唯有透過提高樣本數、多方擬定量化方式並去除極端值的手段才能使量化之數據更趨近於實際情況。

    提到多方擬定與高樣本數,或許會直接聯想到「大數據分析」。可是大數據分析卻會衍生出:數據質量以及準確性不足、高度去脈絡化、主觀性及從眾效應、倖存者偏差、Simpson's paradox(辛普森悖論) 等大量問題,使量化數據失真而不易察覺。因此,我認為採取「準大數據」的方式不僅可以有效解決各種前述問題,也能讓量化之數據更接近實際情況。

overrated 4

    「準大數據」的理想化形式是取得至少數百位對於 NBA 有足夠關注之籃球專業人士(專業:指主要研究某種學業或從事某種事業),請他們在 cross-contextual(跨脈絡化)的前提下,以自己所能達到最客觀的角度將每位 NBA 球員的表現、忽略出席率的情況下以百分制表示(小數點後可接受有限小數或無線循環小數)。將每位球員前述百分制的數據去掉最高的 5% 和最低的 5% 後(避免極端值影響),將剩下的數據取算術平均數,此平均數即為利用「準大數據」得到最接近實際情況之量化數據。

    獲得此去除極端值的算術平均數後,我們已經可以利用此平均數將球員排名。然而,以2019~2020賽季為例,共有529人正式登錄 NBA 球員名單,出賽率達到七成的球員只有不到一半的259位,而這些球員中場均上場時間超過18分鐘者更僅有212位。因此,在上述量化數據排名較後面的球員很可能因為關注度過低,連籃球專業人士也無法準確將其上場表現量化。若其在「準大數據」中量化數據的分布與常態分布差異過大,應將該球員之樣本提出並重新討論與量化,以降低量化數據失真之可能性。此外,若排名前段的球員之量化數據分布呈現雙峰分布(bimodal distribution),宜探討造成雙峰分布之因素,以進行修正。

overrated 3

    在將量化數據以上述內容進行去極端值以及修正處理後,我們來討論何謂「高估/低估」。

    當然,我已經在本文之首提過「高估/低估」的定義。可是,在每位專家進行量化數據時,由於量化包含上述之主觀與專斷,本來就應該允許一些誤差。因此,要定義出「可接受之高估/低估」以及「過度估計」的界線。

    前方在取算術平均數時,已將最高的 5% 和最低的 5% 視為「過度估計」。定義μ為算術平均數、σ為標準差(離均差之方均根),則 μ ± 1.644854σ 在常態分佈之情況下可包含大約90%的樣本;若將μ ± 1.644854σ以外的量化數據皆視為「過度估計」,可再分離出大約一成的樣本。

    也就是說,在專家的量化數據中,大約會有八成被視為「可接受之高估/低估」、剩下約兩成則為「過度估計」。

overrated 2

    讓我們回顧一下,本文從定義題目、尋找球員「實際的情況」、建立量化數據之目標、分析量化數據中主觀性以及專斷之情況、提出「準大數據」維持數據質量與真實性、將量化數據去極端值處理、修正量化數據 再到 定義過度高估與低估,一路走來,關於此命題的大架構已經建立完成。

 

    接下來就讓我們進一步討論更有挑戰性的命題:「高估程度的比較」。如果高估程度能獲得明確之可比較性,若量化數據建置完成後,便能推得哪一位球員「最被高估」。

    我認為這個命題極難理解且十分棘手,在此我想先用幾個例子作為先導,並試圖切入題目,即便未必能得到明確答案,至少能嘗試將題目抽絲剝繭進行剖析。哪怕最終無法解決,至少我努力推演過、思辨過,也以文字記錄下我與題目奮鬥的身影......

✩ 例一:「Harden 是歷史第一得分後衛」 和 「Jae'Sean Tate 是年度最佳新秀」 上述兩句話中,何者高估比較多?

【分析】客觀而言,Harden 在歷史得分後衛位居前十,在本舉例中被高估到第一;Jae'Sean Tate 在年度最佳新秀排名也位居前十,在本舉例中亦被高估到最佳新秀。

【觀察】在本舉例中,兩者的比較基準點完全不同、球員能力也有巨大差距,但卻有相似的高估結果。顯示「高估程度的比較」乃高估後與原實力之相對關係。

 

✯ 例二:「A球員實力排名大約位在NBA第5名,被高估到第1名」、「B球員實力排名大約位在NBA第20名,被高估到第10名」、「C球員實力排名大約位在NBA第50名,被高估到第20名」、「D球員實力排名大約位在NBA第400名,被高估到第200名」 請問哪一位球員最被高估?

【分析】若以高估名次倍數程度而言,A(高估5倍) > C(高估2.5倍) > B=D(高估2倍);若以高估名次而言 D(高估200名) > C(高估30名) > B(高估10名) > A(高估4名)

【觀察】若以名次顯示高估的程度,以高估倍數程度還是高估的名次進行討論很可能會得到截然不同的結果,且與讀者心目中之高估程度排序也未必相同。這表示若要以名次討論「高估程度的比較」,還欠缺比較的方式或公式,因此無法達到共識之結論。

overrated 1

 

✮ 例三:先假設以下前提成立,且名次無並列

 

歷史最佳籃球員

歷史最佳得分後衛

第一名

Michael Jordan

Michael Jordan

第二名

LeBron James

Kobe Bryant

請問「LeBron James 是歷史第一籃球員」 和 「Kobe Bryant歷史第一得分後衛」 上述兩句話中,何者高估比較多?

【分析】以上述假設而言,由於歷史第一籃球員和歷史第一得分後衛皆為同一人(Michael Jordan),若有量化數據則兩者第一名之基準面相同。由於此舉例提及「名次無並列」,而 LeBron James 為歷史最佳籃球員第二名,可推得 Kobe Bryant 在歷史最佳籃球員排名為第三(含)之後。因此 Kobe Bryant 與 Michael Jordan 的差距比 LeBron James 與 Michael Jordan 的差距還大;故Kobe Bryant歷史第一得分後衛」高估較多。

【觀察】在「高估程度的比較」很可能因為自己的主觀與專斷而有了錯誤的判斷。

overrated

✹ 例四:誰是現役最被高估的 NBA 球員?誰是歷史最被高估的 NBA 球員?

【分析-1】首先,相信例一與例二已經說明,「被高估的程度」與球員的實力甚至沒有直接相關。其次,在前述的量化數據未被建立之前,所有高估以及對於球員的評價很可能都嵌入了難以去除之主觀因素。因此,誰是現役最被高估的 NBA 球員很可能無法獲得解答。

【分析-2】由於不同時期的 NBA 場上規則有所不同,而這些規則不同所造成的影響眾說紛紜,很可能無法被客觀地納入量化數據中。因此,討論誰是歷史最被高估的 NBA 球員此命題必流於娛樂形式。

【觀察】「高估程度的比較」並無法得到確切的標準。

【結論】

    在討論這樣的娛樂性問題時,由於沒有絕對的衡量標準,不妨接受所有看球者不同的意見。你可以為自己的看法據理力爭,但請別忘記 Evelyn Beatrice Hall 的這句名言:“I disapprove of what you say, but I will defend to the death your right to say it.”「我並不同意你的觀點,但是我誓死捍衛你說話的權利。」

    相信大部分讀者看體育賽事的初衷都是為了獲得快樂、體驗比賽時的刺激感以及尋找志同道合的球友一同為支持的球隊和球員喝采,讓笑靨與淚水成為最美好的回憶。

    對於沒有正確答案的開放式問題,何不一笑置之呢?起了紛爭,又與虛度光陰何異?

    莫等閒、白了少年頭,空悲切!

overrated 6

 

最近幾周,誰是...

Grand Master's Column 特級大師專欄發佈於 2021年5月19日 星期三

 

延伸閱讀:

1. NBA 樂透抽籤數據分析 ── 談選秀順位與球員成就之相關性

2. 感性抒寫 ── 我對買犯的看法與見解 (以NBA為題材)

 

 

arrow
arrow
    文章標籤
    NBA 球員被高估
    全站熱搜

    特級大師 發表在 痞客邦 留言(0) 人氣()