【每日頭條】隨著大數據時代的到來,這種趨勢越來越明顯,我們需要做的不僅是搜集數據,而且需要更好的分析數據以服務於這項運動,已經看到,越來越多的先行者已經開始湧入 足球大數據 分析領域,而且得到了不錯的結果!
相比於其他體育運動,足球的數據統計和分析工作開展得很晚,而且鑒於比賽的特殊性也沒有太多的經驗可供參考。
在棒球分析領域有一個學派認為如果沒有這麼多技術統計數據的話,棒球運動會發展的更好,之所以這麼講是因為他們聲稱這些目前被統計的數據不一定就是真實反映棒球比賽的決定性數據,他們只是最易於統計的數據而已。不管你同不同意這個觀點,這確實直指棒球數據分析的痛處,仍然是人們爭論的焦點。
這不是說你相不相信這些數據,而是說新的數據是否真的能取代原有的統計結果。就算是偶爾看看棒球打發時間的人也會更習慣原來的統計結果,部分原因是這些數據已經在棒球運動中存在了很長時間,事實上,人們總是習慣於早已熟知的數據統計,而對於學習新的數據分析結果保持謹慎態度。
對於足球來說,以前幾乎沒有什麼統計數據。事實上,對於這麼一個流暢性的比賽來說,也很難不藉助科技手段去統計一些諸如傳球次數等數據。人們開始系統性的記錄一些關於比賽的統計數據也就是近十年來的事情,因為現在這個時代人們都樂於收集和分析數據,同時可以從中獲得收益。類似OPTA 和Prozone 等專注數據統計分析的公司已經開始湧現,他們的盈利模式也是將這些數據賣給俱樂部或者媒體(事實上像ESPN,SKY Sports 等媒體的數據統計板塊都是由OPTA 提供支撐的)。
就像曾經在棒球或其他一些數據導向的運動中探索更新更先進的評價指標那樣,現在人們也迫切希望能夠在足球領域找到一些新的統計指標,因為有啟示性的衡量指標必然是數據分析的產物。不過這不是一蹴而就的,因為現在數據統計公司在足球領域中做的數據收集工作僅僅是一百年前棒球領域就做完了的。
現在,足球終於有了大量的數據,下一步就是怎麼樣更好的利用這些數據。不同於棒球等其他一些主流的運動(這些運動領域數據統計早已有之,數據分析只是近來興起),足球領域目前比較獨特的情景是數據的統計和分析是在同步展開的。
足球大數據:數據統計
讓我們回到開頭那個問題,如果沒有技術統計數據,棒球是否會發展的更好?這個問題對於足球數據統計來說至關重要。
近年來湧現出一批諸如WhoScored、Squawka和FourFourTwo’s Stats Zone(均由OPTA 提供數據支持)之類的網站,他們把比賽的數據統計結果更好的展現給了球迷。這些網站主要提供個人和球隊的比賽統計信息,這聽起來讓人覺得有點像棒球的技術統計數據,他們提供的信息讓你可以知道哪個球員一場比賽乃至一個賽季的各項統計數據,還有一些類似熱點圖和傳球線路圖等的圖片方式更好的呈現這些數據。
但是他們並沒有進一步去提供如何利用這些數據進行比賽分析的內容。某某後衛的場均攔截率很高對球隊很重要嗎?某某射手的低得分率是否真的意味著他是一個浪射帝,以後應該多傳球呢?抑或僅僅因為他運氣太糟糕?一名傳球成功率高達95%的防守球員要比一名傳球成功率只有78%的邊鋒更適合下底傳中麼?
我們擁有這些數據,但是我們並不能解決這些問題,因為我們不清楚到底哪些數據對於比賽分析真正重要。
這種景象可以讓人閃回到棒球領域剛開始進行數據革新的時候:如果你不知道他們到底有什麼用的話,為什麼要引用這些統計數據呢?這就是我不明白為什麼在過去50多年的棒球直播中總要提到類似RBI(Run battled in,棒球術語:打點) 這種無用的數據!
毫無疑問,使用數據針對某些球員或球隊的優異成績做出一些無法證明的假設絕對是誤入歧途。但是,這並不意味著不能使用這些數據。
如果反對使用這些統計數據同時意味著反對使用這些數據來描述比賽信息,以及球隊和球員的表現。儘管棒球的傳統統計數據無法有效分析及預測未來的比賽,但是他們對於描述歷史信息的描述是很有用的。試著不用任何統計數據講一下巴爾的摩金鶯隊過去一周的表現,或者解釋一下Clayton Kershaw 有多麼棒。
雖然原來的統計數據無法解釋為什麼球員和球隊的表現是好還是壞,以及未來會怎樣;但是使用這些數據來描述球員和球隊的表現還是很直觀的。
十年前,可能沒人知道哈維每場比賽究竟傳了多少次球,成功率是多少。沒有這些信息,大多數人們也無從深入了解哈維究竟有多麼偉大,或者他在什麼時候狀態開始有所下滑。同樣的,你在觀看洋基隊巨星Derek Jeter 的比賽時,你只能說:「三年前,他的打擊率非常高,今年他的該項數據有所下滑。」
即便是最原始的統計數據也會讓我們清楚地了解比賽中發生了什麼。如果沒有這一步的積澱,接下來我們就很難解釋為什麼這些情況會發生,或者接下來會發生什麼。這些作為數據分析基石的原始統計數據在美國體育中廣泛存在,但是在足球領域卻是一個全新的概念。
足球大數據
數據分析
我們當然希望從這些簡單的描述性的統計數據背後能夠挖掘出更多關於足球比賽本質的信息。雖然這方面已經開展了很多工作,也有了一些進展,但是還只是在萌芽階段。
總射門率(Total Shots Ratio,TSR)是高級足球統計數據的鼻祖,他最初是由James Grayson 從冰球領域引入到足球中的。這個指標設計的初衷十分簡單:強隊一般情況下射門次數都比較多,同時他們會讓對方很少有起腳的機會。
這項統計數據的威力在於它有很好的自相關性,並且可以更好的預測結果。實證分析顯示球隊過往的TSR 能夠預測該隊未來的TSR,同時它對於未來比賽進球數和結果的預測要比基於球隊過去的進球數和結果效果更佳。
在賽季初進行排名預測的時候,TSR 是一個很好的先行指標(雖然很多磚家會拋開這項數據,他們憑自己的直覺預測最終排名,這裡有個梗,該指標預測的結果顯示曼聯最終排名不可能進入前三,但是所謂的磚家,其實就是作者自己覺得曼聯前三有戲,我們只能留待賽季末再來挖墳了~),當然在實際管理球隊的時候它就不見得那麼靈驗了。
但是在冰球比賽中,可以隨時調整球隊陣容,而且射門次數很高,這使得能夠我們能夠細化分析哪名球員在球場上的時候球隊表現最佳。而在足球比賽中,只有三次換人名額,同時射門次數也少的可憐,這就使得TSR 對於球員層面的評估作用很有限(至少目前沒有很好的結果)。
最近,期望進球數(Expected Goals,ExG)又作為一個新的衡量指標出現。從預測的角度來看,ExG 與TSR 的表現結果不相上下(Grayson 對比了這兩項指標,並給出了一些理論分析),但是ExG 的一個好處是它既可以預測球隊的表現,也能預測球員個人的表現。換句話說,你可以通過球員的總進球數,並且基於他們的射門次數來預知他們未來的進球數。
將射門數據進行分解有點類似於棒球中將場內安打率(BABIP)從平均打擊率(AVG)中分解出來。結果證明,與球員一般難以有持續高或低的BABIP 類似,球員們也很難長期的踢出高於或低於他本身ExG 的數據。但是不得不又一次指出的是,這些工作僅僅只是足球數據分析的起步階段。
調和數據統計與分析
你可能注意到的一個問題是目前大量的分析工作都與射門有關,但是這並不完全對。比如Caley 提出的ExG 模型中就將導致射門的傳球類型考慮在內。StatsBomb 的Ted Knutson 創造了一個叫做球員雷達(player radars)的工具通過加入諸如球員比賽時間、本方半場控球率等指標來更全面更精確的描繪球員的統計數據
當然值得注意的是,這些數據如何進行綜合集成,從而形成球隊的數據又是一個令人頭大的問題。但是就目前來說,數據分析工作中還未囊括將手頭已有的統計數據以矩陣的形式綜合起來分析。
這種情況的出現有很多原因,部分原因是目前公共領域的專家僅僅投入了少量時間來研究這些信息。而且,即便你想做大量的分析,目前的統計數據可能只有五到十年,不像棒球那樣有近百年的大量數據,這使得你無法得出更有效的結論。
很有可能足球領域很多重要的數據我們還沒有搜集到呢,與此同時,一些統計數據可能除了描述之外再無其他分析價值。關鍵是我們如何找到那些真正值得分析的數據。
說到底,我們需要統計數據來輔助分析,而分析的目的則是為了找到足球領域各種問題的答案。但是,如果棒球領域發生的事情對我們有所啟發的話,那就是使用統計數據既有可能幫助我們真正發現有價值的信息,也有可能讓我們誤入歧途得到錯誤的結論。
足球領域內的統計數據太少了,以至於任何指標都需要合成,但是足球數據統計方面落後棒球一百年並不意味著足球就不會有自己特有的評價指標。而且足球領域確實有一點優勢,那就是在棒球運動中,那些基於統計數據的各種假設猜測已經流行了一百年之後才被數據分析所衝擊,而足球領域,數據統計和數據分析是齊頭並進的。
全新 Digital Marketing 體驗,請聯絡 Web 仔。