기대 득점

1. 개요2. 역사

2.1. 총합 슈팅 비율(TSR)2.2. 기대 득점(xG)의 등장

3. 계산 방법4. 성질5. 득점의 표준편차와 Z-score

5.1. 편차 데이터의 활용

6. 미래 예측과의 관계7. 한계8. xG를 개선한 통계

8.1. xG908.2. NPxG

9. xG를 응용한 통계

9.1. 유효 슈팅 내 기대 득점(xGOT)9.2. 기대 실점(xGA)9.3. 기대 득실차(xGD)9.4. 기대 어시스트(xA)9.5. 빌드업 통계(xGChain, xGBuildup)9.6. 기대 승점(xPTS)

10. 관련 일화

1. 개요

기대 득점(Expected Goals, xG)이란 특정 위치와 특정 상황에서 골을 넣기 위해 슈팅하였을 때 득점할 확률 혹은 그 총합이다. 이 모델은 득점을 하기 위해선 슈팅이 반드시 필요하다는 사실에서부터 비롯되었으며, "특정 슈팅 위치, 상황에서 사실 얼마의 득점을 통계적으로 기대할 수 있었는가"에 대한 통찰을 제공하는 통계이다. 기대 실점(xGA)과 쓰일 경우 xG값이 득점(Goals For)의 기댓값임을 강조하기 위하여 xG 대신 xGF(Expected Goals For)라고 나타내기도 한다.

옵타에서 2017년 소개한 영상에서는 30만 회 이상의 슈팅 데이터로부터 특정 상황과 특정 위치에서 득점으로 연결될 가능성(likelihood)을 계산하였다고 한다. 이는 팀이나 선수의 '기회의 질'과 관련있는 것이다. 골의 기대값을 의미하는 xG값에는 좋은 슈팅을 얼마나 많이 하였는지, 혹은 얼마나 기회 창출을 잘 하였는지가 반영된다. 즉 xG값이 높은 슈팅을 했다는 것은 그만큼 좋은 기회 창출을 한 것이라고 볼 수 있다. 이를 역으로 이용해 득점으로 이어지지 못한 슈팅의 xG값을 보고 얼마나 큰 기회를 놓쳤는지 판단하기도 한다. 이렇게 (실제 득점 - xG)로 계산되는 편차 데이터를 가지고 이야기할 수 있는 것이 생기는데, (실제 득점 - xG)이 0보다 높을수록 평균적인 기대치보다 득점을 더 많이 하였다[1]는 의미이다. (실제 득점 - xG)이 0에 가까울 경우는 득점에 있어서 운의 영향이 최소였다는 이야기이다. 혹은 공격수의 결정력, 그리고 상대 키퍼의 선방력의 영향이 작았다는 이야기도 될 수 있다. 그리고 (실제 득점 - xG)이 0보다 작으면 실제 득점으로 이어진 것보다 더 좋은 기회를 많이 만든 것[2]이다. 이 편차값을 xG Differential이라고 부른다.

즉 기대값인 xG는 팀 혹은 선수의 기회 창출을 실제 득점(GF)보다 정확히 이야기할 수 있고, 편차값인 (GF - xG)로 운의 영향을 이야기할 수 있는 값이다. 가끔 이 편차값 (GF - xG)으로 골 결정력, 마무리 능력을 따지려 하는 경우가 있지만 축구에서는 비슷한 환경에서 수백 개 이상의 큰 표본을 모으는 것이 쉽지는 않기 때문에, 일반적으로 (GF - xG)값이 선수의 어떤 특별한 능력을 잘 보여주는 값은 아니다. 그 이유는 xGOT를 설명한 부분에 서술되어 있다.

2. 역사

xG를 이해하기 위해서는 아래와 같이 축구가 확률론적 논리에 큰 영향력을 받으며 전개되는 스포츠라는 사실을 받아들여야만 한다.

축구는 본래 간단히 누가 더 득점을 많이 넣느냐를 보는 것에서부터 시작되었고, 고전적으로 축구계에서 다루던 데이터 또한 이미 지나가버린 사건을 묘사하는 데이터밖에 없었다. 그러나 이미 지나가 버린 사건을 묘사하는 숫자만으로는 다가올 미래에도 이 선수가 같은 결과를 낼 수 있을지를 보장해주지 않는 문제가 있다. 예를 들어 "호날두는 이때까지 시즌 평균 20골을 넣었다"가 다음 시즌에도 20골을 기대할 수 있다는 의미가 되지는 않는다. 이러한 이유들로 인해 과소평가 받았던 선수가 운좋게 뜨는 일도 있었고, 거꾸로 많은 기대를 받았던 선수나 감독이 다른 팀에서 제대로 된 활약을 보여주지 못하고 결국 잊혀지는 일이 비일비재하였다.

그와 동시에, 축구 경기 결과를 결정짓는 중요한 사건인 '골'과 관련된 변수들이 동서고금을 막론하고 어떠한 수학적 패턴에 맞게 무작위적으로 결정되고 있었다는 정황이 계속 발견되었다. 그 중 가장 자주 언급되는 특징은 단일 경기 내 양 팀이 넣은 골 수의 분포가 푸아송 분포를 근사적으로 따른다는 사실이다. 이와 유사하게 골 사이의 시간 간격의 분포는 지수 분포를 근사적으로 따르며, 해당 논문의 데이터에서는 지수 분포의 무기억성도 설명할 수 있다고 한다. 또한 푸아송 분포의 모수가 다른 사건에 영향을 받지 않는다는 사실도 밝혀졌다. 즉 득점이라는 사건이 발생하였다고 해도 푸아송 분포의 모수는 변하지 않는 상수 값으로 취급해야 했다는 것이다. 이러한 특징이 시대를 막론하고 나타난다는 것은 축구의 본질을 꿰뚫는 어떤 수학적 구조가 있음을 보여주는 중요한 연구 결과이다. 또한 이는 골을 넣기 위해 슈팅을 시도하는 것이 동전이나 주사위를 던지는 것과 다르지 않음을 보여주며, 축구를 더 객관적으로 논하기 위해 확률 및 통계학에서 사용하는 개념을 도입하는 것이 불가피함[3]을 보여준다.

위와 같은 이유로 실제 득점, 어시스트 수와는 별개로 기대 득점이라는 모델을 따로 만들게 되었다. 팀의 '퍼포먼스'와 '성적'은 완전히 정비례하지 않기 때문에 이 둘은 따로 고려해야 할 대상이다. 여러 연구 결과에 의해 축구는 다른 스포츠보다 더 예측하기 어려운 스포츠임이 알려져 있다. 좋은 슈팅을 많이 하였다는 것이 실제 득점으로 많이 이어질 것이라는 보장은 없다. 반대로 좋은 슈팅을 많이 하지 않았더라도 실제 득점으로 많이 이어지는 경우도 발생한다. 이런 이유로 리그 순위, 득점 수, 어시스트 수 등이 반드시 각 팀의, 각 선수의 실력대로 정해지진 않게 된다. 운이 좋은 팀은 퍼포먼스가 나빴더라도 득점을 더 많이 하거나 성적표의 상위권에 위치할 수 있으며, 운이 나쁜 팀은 좋은 퍼포먼스를 선보였더라도 득점을 더 적게 하였거나 성적표에서 아래쪽에 있을 수도 있다.

즉 축구에서는 무작위성(randomness)의 영향이 매우 크기 때문에 꼭 최고의 팀, 최고의 선수가 이기는 것도 아니며, 강팀이 약팀에게 꼭 이긴다는 것을 확률적으로 보장받을 수는 없다. 운이 안따라주면 실력이 뒷받침되어도 우승을 100% 보장받을 수 없다. 이러한 사실은 우리의 직관과는 정반대이므로, xG를 이해하기 위해서는 이러한 사실을 끊임없이 인지해야만 한다.

따라서 축구에서는 단순히 선수의 커리어에 대한 묘사나 야구, 농구에서처럼 '이미 일어난' 사건을 통해 의미있는 숫자로 고치려 노력하기보다는, '앞으로 이 선수에게 어느 정도의 성과를 기대할 수 있는지'를 보여주는 지표, 그리고 운의 요소를 최대한 배제하고 정당하게 선수를 평가해주는 지표가 필요하게 되었다.[4] 그래서 현재 자주 쓰게 된 값 중 하나가 xG와 같은 기댓값 스탯이다.

2.1. 총합 슈팅 비율(TSR)

xG가 나오기 전에는 제임스 그레이슨(James Grayson)이 고안한 총합 슈팅 비율(Total Shots Ratio, TSR)이라는 개념이 있었다. 한 팀의 TSR을 계산하는 방법은 해당 팀 슈팅 수 / (해당 팀 슈팅 수 + 상대 팀 슈팅 수)였으며 꽤 괜찮은 지표로 쓰이고 있었으나, 가중치 없이 단순히 슈팅의 수를 더하게 되면 각 슈팅을 동등하게 취급하게 된다는 문제가 생겨[5] 각 슈팅의 질을 말할 수 있는 다른 통계가 필요하게 되었다.

이런 식으로 여러 번 시도되는 특정 시행에 대해 각 시행의 '질'을 정량화하는 것은 현재 행해지고 있는 축구 데이터 분석의 큰 목적 중 하나라고 볼 수 있다. 현재 쓰이고 있는 득점 전환율도 사실 계산의 용이성 때문에 쓰일 뿐이지만 각 슈팅의 질을 정량화한 것은 아니기 때문에 TSR과 동일한 한계를 갖는다.

2.2. 기대 득점(xG)의 등장

2012년 4월 Opta에서 데이터 사이언티스트로 일하던 샘 그린(Sam Green)은 '공격수들의 퍼포먼스를 평가해보자'라는 글을 올렸고, 이것이 슈팅의 질에 대해 말할 수 있는 통계인 기대 득점(xG)라는 통계의 첫 탄생이다.

2017/18 시즌 BBC "Match of The Day"에서 각 경기, 선수의 xG 데이터를 공개하기 전까지는 xG의 정체가 거의 알려지지 않았었다. 현재 시점에서는 일반 팬들에게도 xG와 관련된 자료가 꽤 많이 공개되어 있으나, 축구 팬들 사이에서 스포츠를 숫자로 이야기하는 것을 다소 꺼리는 분위기가 강하여 널리 알려지진 않았다. 다만 축구에 대한 깊은 이해가 필요한 주체인 프로 구단 스카우터, 베팅 업체는 유용하게 쓰고 있다.

3. 계산 방법

분석가들마다 약간씩 다른 공식을 사용하고 있으나, 이를 생각할 수 있는 가장 간단한 모델은 두 골대의 끝 점과 슈팅 위치 사이의 끼인 각이나 골대로부터의 거리에 의한 모델이지만 완벽하진 않다. 그래서 이런 식으로 kNN 등과 같은 기계 학습 알고리즘 등을 통해 모델을 구축하기도 한다.

BBC sport에서는 모델에 포함되는 주요 변수를 다음과 같이 설명하였다.

골대와의 거리
슈팅 각도
찬스가 왔을 때 공이 발에 가깝게 전달되었는지(발로 찼어야 했는지) 머리 쪽으로(헤딩했어야 했는지) 전달되었는지 여부
1대1 상황이었는지 여부
어시스트의 종류 (롱볼, 크로스, 스루볼, 풀백)
득점이 발생한 상황 (오픈 플레이, 프리킥, 코너킥)
슈팅한 선수가 이전에 상대방에게 한번 밀렸는지 여부
공의 리바운드 여부

understat.com에서는 딥러닝 알고리즘을 이용해 10만 회 이상의 슈팅 데이터에서 10개 이상의 요인이 넘는 모델을 사용하고 있다고 한다.

미국 축구 분석학회에서 올린 어떤 글에서는 로지스틱 회귀분석을 이용하여 xG 모델에 포함시킬 변수들이 무엇인지와 각 회귀 계수의 p값을 직접 보여주고 있다.

위치(각도)나 각 상황에 의한 xG값은 여기서 볼 수 있다.

통계 사이트 파이브서티에이트는 축구 예측에 기대 득점을 활용하고 있으며, 다음 사항을 이용하여 기대득점을 계산한다. 자세한 방법론

골대와의 거리와 슈팅 각도
슈팅에 사용한 신체 부위
슈팅을 한 선수 [6]

또한, 상대편 골대 주변에서의 패스, 가로채기, 태클 등 슈팅을 제외한 행동들을 이용하여 기대 득점을 구한 Non-shot expected goal 값도 구하여 예측에 활용하고 있다.

4. 성질

xG는 득점에 성공할 확률을 말하는 것으로, 본래 슈팅의 질을 논하기 위해 사용하는 통계이지만 다음의 간단한 성질로 선수나 팀의 창출한 기회를 이야기할 때 적용하는 것을 정당화할 수 있다.

[ 설명 펼치기 · 접기 ]: 우선 한 선수가 한 경기에서 슈팅을 [math(n)]회 시도했다고 하자. 이때 [math(i)]번째 슈팅([math(i=1,2,...,n)])에서 발생 가능한 득점 수를 확률변수 [math(X_i)]이라 하면, 선수에게 가능한 상황은 득점에 성공 혹은 실패 둘 중 하나[7]이므로 [math(X_i)]가 가질 수 있는 값은 0 혹은 1이다. 이때 [math(i)]번째 슈팅에서 득점에 성공할 확률을 [math(p_i)]라고 하면, 득점에 실패할 확률은 [math(1-p_i)]가 된다. 따라서 확률변수 [math(X_i)]의 기댓값을 다음과 같이 적을 수 있다.

[math(\displaystyle E(X_i) = \sum_{j=0}^{1} j Pr(X_i = j) = 0(1 - p_i) + 1 p_i = p_i)]

즉 슈팅을 1회 시도했을 때 득점의 기댓값은 득점에 성공할 확률과 같다.[8] 이는 많은 xG를 소개하는 글에서 그 정의를 특정 위치와 특정 상황에서 득점의 기댓값이라고 말하지 않고 '확률'이라고 이야기하는 이유도 사실 이것 때문이다.

반면 경기 전체에서 선수의 득점은 선수가 시도한 각 슈팅에서 얻는 득점의 합이므로 합 기호를 이용해 [math(\displaystyle \sum_{i=1}^n X_i)]이라고 쓸 수 있다. 이때 그 기대값 [math(\displaystyle E \bigg( \sum_{i=1}^n X_i \bigg) )]는 기대값의 성질에 의해 [math(\displaystyle \sum_{i=1}^n E(X_i))]와 같고, 이는 [math(\displaystyle \sum_{i=1}^n p_i)]과 같다. 한편 xG의 정의는 특정 위치에서 골을 넣기 위해 슈팅하였을 때 득점할 확률의 총합이므로, 계산한 값은 경기 전체에서 선수의 xG값의 합이다. 따라서 특정 선수의 특정 경기에서 득점의 기댓값(xG)은 해당 선수가 시도한 각 슈팅에서의 xG값을 단순히 합한 것으로 정의할 수 있다.

경기 전체에서 팀의 xG값을 각 선수의 xG값의 합으로, 리그 전체에서 선수의 xG값을 각 경기에서의 해당 선수의 xG값의 합으로, 리그 전체에서 팀의 xG값을 각 경기에서 해당 팀의 xG값의 합으로, 비슷하게 논하여 정의할 수 있다.

5. 득점의 표준편차와 Z-score

축구에서는 기대값을 통해 창출한 기회를, (관찰값 - 기대값)을 통해 운의 여부를 이야기할 수 있었기 때문에 기대값 스탯이 자주 쓰였다. 그러나 이때 각 슈팅이 독립이라는 가정[9]이 있다면 다음과 같은 접근이 가능하다.

[ 설명 펼치기 · 접기 ]: 각 [math(X_i (i=1,2,...,n))]는 독립, 각 모수가 [math(p_i)]인 베르누이 분포를 따르며, 이때 xG값은 [math(\displaystyle E \bigg( \sum_{i=1}^n X_i \bigg) )]이지만 한편 [math(\displaystyle V \bigg( \sum_{i=1}^n X_i \bigg) )]를 생각해볼 수 있다. 베르누이 분포를 따르는 변수의 분산은 [math(p_i(1-p_i))]이고, 각 [math(X_i (i=1,2,...,n))]끼리는 독립이므로 [math(X_i (i=1,2,...,n))]끼리의 공분산은 0이다. 따라서 [math(\displaystyle \sum_{i=1}^n X_i)]의 분산은

[math(\displaystyle V \bigg( \sum_{i=1}^n X_i \bigg) = \sum_{i=1}^n V(X_i) = \sum_{i=1}^n p_i(1-p_i))]

로 쓸 수 있으며 이때 총 득점 [math(\displaystyle \sum_{i=1}^n X_i)]에 대한 표준편차 [math(\sigma)]는 제곱근을 씌운 [math(\displaystyle \sqrt{ \sum_{i=1}^n p_i(1-p_i) })]라고 쓸 수 있다. 따라서 선수의 운의 영향을 이야기할 때 (관찰값 - 기대값)이 의미하는 편차를 볼 수도 있지만 선수가 넣은 득점에 해당하는 z-score [math(\displaystyle \frac{GF - xG}{\sigma})]의 값도 볼 수 있게 된다.

단순히 편차 값을 비교하게 되면 각 선수 혹은 각 팀의 득점의 총합은 각자 표준편차가 모두 다른 분포에서 나왔기 때문에 동등한 비교가 되지 않는다. 따라서 각 선수가 넣은 득점이 따르는 분포의 표준편차까지 고려하여 실제 득점(GF)의 z-score를 비교하면 누가 더 운이 좋았다고 볼 수 있는가에 대해 더 동등한 비교가 가능해진다.

5.1. 편차 데이터의 활용

각 [math(X_i (i=1,2,...,n))]는 독립이지만 동일 분포를 따르지 않으므로 i.i.d.(independent identical distributed)를 만족하지 않기 때문에 중심극한정리의 적용을 받지 않는다. 즉 [math(\displaystyle \sum_{i=1}^n X_i)]의 분포는 근사적으로 정규분포를 따르지 않을 수 있다. 이 때 각 선수나 팀의 득점 총합이 따르는 분포 내에서 z-score나 편차 데이터를 또 활용할 수 있는 방법은 평균이나 표준편차와 관련된 확률론에서 다루는 여러 가지 확률부등식들이다.

[ 설명 펼치기 · 접기 ]: * 체비쇼프의 부등식
최소한 전체 자료의 1 - 1/k²만큼은 기대값으로부터 k 표준편차 이하만큼 멀리 있어야 한다는 정리
[math(\begin{aligned}P(|X-\mu| \geq k\sigma)\leq\dfrac1{k^2}\end{aligned})]

* Hoeffding's inequality
각 [math(X_i (i=1,2,...,n))]가 [0,1]에서 정의되는 독립변수이고 [math(\displaystyle \frac{1}{n} \sum_{i=1}^n X_i = \bar X)]일 때, 표본의 수 n에 대해서 [math(\bar X - E(\bar X))]이 양수 t 이상일 확률은 [math(e^{-2nt^2})]보다는 작거나 같다는 부등식이 성립한다.

[math(P(\bar X-E(\bar X) \geq t) \leq e^{-2nt^2})]

여기서 좌변을 변형하면,

[math(P(n \bar X-E(n \bar X) \geq nt) \leq e^{-2nt^2})]

이를 합 기호로 이용하여 나타내면,

[math(\displaystyle P \bigg(\sum_{i=1}^n X_i-E \bigg( \sum_{i=1}^n X_i \bigg) \geq nt \bigg) \leq e^{-2nt^2})]

여기서 [math(\displaystyle \sum_{i=1}^n X_i)]는 실제 득점 합을 의미하며, 그 기대값인 [math(\displaystyle E \bigg( \sum_{i=1}^n X_i \bigg))]는 xG를 의미한다. 즉,

[math(P(GF-xG \geq nt) \leq e^{-2nt^2})]

nt = k라고 치환하면 우변 또한 t 대신 k로 나타낸 식으로만 바꾸어 부등식을 다시 쓸 수 있다. 이때 k는 양수가 된다.
{{{#!wiki style="text-align: center"
[math(\displaystyle P(GF-xG \geq k) \leq e^{-\frac{2k^2}{n}})]}}}

다만 이 경우 실제 득점이 기대 득점보다 커야 한다는 한계가 있다.

이러한 확률부등식을 이용하여 축구에서의 운에 대해 구체적인 확률로 이야기할 수 있게 된다.

6. 미래 예측과의 관계

축구와 같이 득점이 희귀한 스포츠는 무작위성의 영향을 많이 받을 수밖에 없어 xG가 미래에 받을 실제 득점을 정확히 가깝게 예측해주지는 못한다. 19-20시즌 득점왕은 23득점을 기록한 레스터 시티 FC의 제이미 바디였으나 xG가 가장 높은 선수는 21.02xG를 기록한 맨체스터 시티의 가브리엘 제주스였다. 제이미 바디의 xG값은 18.90으로 xG 순위에서는 5위에 머물렀다.

다만 몇 경기 진행되지 않았을 때는 실제 득점 수보다 기대 득점 값을 통해 이후의 결과를 더 정확히 예측할 수 있다. 이는 시행 횟수가 크지 않은 경우에 큰 수의 법칙에서 벗어나기 때문이다.

7. 한계

xG를 계산하는 모델은 우리가 현재 측정할 수 있는 데이터에 국한되어 있기 때문에, 슈팅할 때의 힘, 골키퍼가 한눈팔지 않았는지 등은 많은 xG의 모델에 반영되지 않고 있다. 또한 공격수 당사자의 스타일 또한 다른데 기회가 보이면 냅다 때려박는 난사형과 완벽한 기회가 아니면 슛을 지양하는 신중형도 모두 뭉뚱그려 계산한다. xG의 모델은 평균적인 비율을 이야기하는 것이기 때문에, 축구의 무작위성, 골의 희소함 등으로 발생하는 다른 요인을 전부 담을 수는 없다는 한계가 있다. 즉 이상적인 xG의 모델은 존재할 수 없다는 것이다. 또한 모델의 창시자인 샘 그린은 축구[10]가 아니라 야구, 농구와 같이 득점이 많이 발생하는 스포츠에는 적용하기 힘들 것이라고 말하기도 하였다.

8. xG를 개선한 통계

축구와 관련된 여러 가지 해석을 할 때 xG를 그대로 사용하는 것에 있어서 전통적으로 사용하던 통계에서와 똑같은 문제가 발생하는 경우도 있어 이를 보완할 수 있는 방법이 계속해서 제안되고 있다.

8.1. xG90

현재까지도 축구에서는 '총합'을 나타내는 통계를 많이 사용하고 있으나, 총합 통계는 팀에 대한 선수의 전체 기여도를 보여주는 장점이 있지만, 다른 선수와 대비하였을 때 해당 선수가 지닌 실력 그대로를 보여주지는 않는다. 예를 들어 출전 시간이 다른 선수끼리 골의 수를 단순히 대소 비교하는 것은 출전 시간이 적은 선수에게 부당할 수 있다.

혹은 총합을 경기 수로 나눈 통계인 '경기 당' 통계도 가끔 사용한다. 팀의 데이터를 따질 때에는 사실 엄밀하게 말하자면 경기마다 주어지는 추가시간이 매번 다르기 때문에 문제가 될 수 있지만 그 문제가 그리 크진 않기 때문에 경기 당 데이터는 팀의 데이터를 논하는 과정에서 자주 쓰인다. 그러나 선수를 평가할 경우 같은 한 경기에 출전하여도 90분 + 추가시간 내내 출장하였을 때와 20분만 출장하였을 때 기대할 수 있는 기여도는 불가피하게 달라진다. 따라서 선수의 데이터를 논할 때 단순히 경기 수로 나눈 값은 출전 시간이 다른 각 경기를 모두 똑같이 취급하였다는 문제도 생긴다.

따라서 총합 통계를 출전 시간으로 나눠 90을 곱한 통계인 '90분 당' 통계를 선수 간의 비교에 많이 사용한다. xG에 있어서도 단순히 득점할 확률의 총합이 아닌 90분당 기대 득점을 의미하는 xG90을 사용하면 상대적으로 더 공평한 비교가 가능해진다. 기대 어시스트에서도 90분당 xA라는 것을 정의할 수 있다.

그러나 90분당 통계도 문제가 있다. 실제로 90분당 데이터 크기 순서대로 순위를 구하면 출전시간이 적은 선수가 아주 많이 위로 올라와 있는데, 이들은 데이터 표본 수가 충분하지 않아 큰 수의 법칙에서 벗어난 경우에 속하기 때문이다. 따라서 출전 시간이 많은 선수에 한해서만 유의미한 비교를 할 수 있다.[11]

90분당 통계와 총합 통계의 차이점을 이야기해보자면 90분당 데이터는 선수에게 기대할 수 있는 활약 정도를 비교하기 위한 값이고, 총합 데이터는 팀에 대한 전체 기여도에 대한 기대값이다.

8.2. NPxG

'NP'의 의미는 Non-Penalty을 줄인 것으로, 전체 xG값에서 페널티 킥 상황에서 기대되는 득점을 제외한 값이다. 페널티 킥 상황에서는 페널티 킥 상황이 아닐 때 공격하는 상황보다 득점할 확률이 높아질 뿐만 아니라[12] 랜덤하게 발생하는 페널티 킥 상황을 배제하면 일반적인 상황에서의 선수를 더 객관적으로 평가할 수 있게 된다.

NPG라는 것도 존재하는데 이는 페널티 상황을 제외했을 때의 득점이다. xG를 실제 득점과 비교하는 데 사용한다면 NPG는 NPxG와 비교하는 데에 사용할 수 있다.

또한 NPxG에 대해서도 90분당 통계인 NPxG90을 사용할 수 있다.

9. xG를 응용한 통계

xG 모델은 그 유용성과 편리성으로 인하여 골과 직접 연관되는 통계, 경기 결과, 리그 성적 등과 관련된 통계에 자주 응용되고 있으며, 아래는 xG로부터 파생된 통계 목록이다.

9.1. 유효 슈팅 내 기대 득점(xGOT)

유효 슈팅 내 기대 득점(Expected Goals On Target, xGOT)이란 유효 슈팅으로 인정된 슈팅에 한해서 xG와 다르게 계산하는 기대 득점이며, 공격수의 입장이 아닌 골키퍼의 입장에서 얼마나 막기 어렵게 슈팅하였는지에 대한 부분을 기대값으로 정량 계산한 값이다. 이는 슈팅을 하더라도 유효 슈팅으로 인정되지 않으면 득점이 항상 0일 수밖에 없다는 사실에서 나온 모델이다.

따라서 유효 슈팅을 기록하지 않은 선수의 xG가 아무리 높더라도 xGOT는 0이다. 또한 골대에서 벗어난 슛의 xGOT는 0이다. xGOT 모델의 구축을 위해서는 xG의 모델에서는 들어가지 않았던 새로운 변수를 생각하여야 하는데, 바로 공의 궤적의 끝 점 위치가 포함된다. 따라서 같은 슈팅을 했다 하더라도 xG와 xGOT값은 괴리가 생긴다. 이런 식으로 골키퍼가 막기 어렵게 슈팅하였다면 xG가 낮아도 xGOT는 높을 수 있다.

즉 xG값이 얻은 기회의 질을 의미한다면 xGOT는 표본을 유효 슈팅으로 제한했을 때의 조건부 기대 득점이므로, 얻은 기회 속에서 뭘 했는지를 볼 수 있는 값이다.

이때 xGOT값이 xG값을 상회한다는 것의 의미는 창출한 기회 대비 좋은 퀄리티의 슈팅을 하였다는 의미이다. 이때 xGOT와 xG의 차를 SGA(Shooting Goals Added)라고 부르며, 이 값은 (GF - xG)로 계산되는 xG Differential보다 '마무리 능력'을 이야기하기 좋은 지표이다. 실제로 xG 이론을 다룬 책 "The Expected Goals Philosophy"에 따르면 2015/16시즌부터 2018/19시즌까지 크리스티아누 호날두는 xG보다 적은 골을 넣었고, 18/19 시즌의 사디오 마네, 오바메양 등도 마찬가지였던 것은 물론 레반도프스키는 18/19 시즌 xG보다 무려 11골이나 적은 골을 넣었고 앙토니 마샬은 맨유로 이적한 후 15/16부터 19/20 시즌까지 5시즌 연속 xG보다 많은 골을 넣었다. 심지어 xG를 상회하는 골을 여러 시즌에 걸쳐 일관성있게 기록하는 선수는 리오넬 메시를 제외하고는 거의 전무후무하다. 사실 '골 결정력'이나 '마무리 능력'이라고 말하는 것도 위에서 논한 득점의 성질처럼 어떤 확률적 요소에 크게 의존하는지에 대해 의심해볼 수 있다.[13]

xGOT는 골키퍼의 입장에서 생각하면 선방률 대신 골키퍼의 퍼포먼스를 이야기할 수 있는 더 좋은 지표가 되어준다. 이를 위해 (상대의 xGOT[14] - 실제 실점) 값을 계산하면 골키퍼가 하는 방어의 '질'을 이야기할 수 있다. 이전까지 자주 나왔던 값인 골키퍼의 선방률을 이야기할 때 이러한 방어의 질을 이야기하지 않고 단순히 방어의 수를 다 더해버렸을 때 어떠한 방어는 과대평가되고 어떠한 방어는 과소평가된다. 따라서 (상대의 xGOT - 실제 실점)로 계산되는 Goals Prevented 값은 선방률보다 진화된 값이라고 볼 수 있다.

9.2. 기대 실점(xGA)

기대 실점(Expected Goals Against, xGA)은 경기 상대 팀의 기대 득점 값으로 정의하며, 기대 득점과 반대되는 개념이다. 이는 공격수가 아니라 골키퍼나 팀 단위에 적용할 수 있는 개념이다. 이 값은 ERA처럼 낮을수록 좋은 값이다. (실제 실점 - xGA) 값이 높을수록 기대할 수 있던 실점 수보다 더 많이 했다[15]고 볼 수 있다. 또한 부호를 바꾼 (xGA - 실제 실점)이 높을수록 기대할 수 있던 실점 수보다 덜 하였다[16]고 볼 수 있다. 또한 기대 실점을 '기대 허용득점'이라는 의미로 'Expected Goals Conceded'라고 하는 경우도 많다.

축구 데이터 사이트에서 리그 성적표에 적힌 xGA는 각 경기 xGA의 값들을 총합하여 나온 것이다.

또한 xGA에 대해서도 다른 팀과 비교할 때 90분당 통계를 사용하면 더 공평하게 비교할 수 있으며, 실점에 대해서도 페널티킥 상황을 제외한 NPxGA라는 것을 정의할 수 있다. 페널티 킥 상황에서 내 팀의 득점 확률이 더 높아지는 것처럼 상대방 팀에서도 페널티 킥을 시도할 경우 우리 팀의 입장에서는 실점으로 기록될 확률이 높기 때문이다.

기대 득점이 xGA와 같이 쓰일 경우 기대 득점을 xGF라고 나타내는 경우도 많은데 이는 'Expected Goal For'의 줄임말이며, 통상적으로 xG라고 말하는 것에서 득점 값임을 강조하여 나타내는 이름이다.

9.3. 기대 득실차(xGD)

기대값의 선형성에 의해 xGF - xGA의 값은 (득점 - 실점)의 기댓값과 같은데 이는 득실차의 기댓값으로 xGD(Expected Goal Difference)[17]라고 쓰기도 한다. 한편 득실차와 승점 관계는 선형 회귀 모형을 구해보면 R²=.9를 상회하는 수준의 아주 높은 결정계수 값이 얻어진다. 따라서 xGD의 값이 크다는 것은 팀이 더 높은 승점을 받을 것이라 기대할 수 있다는 의미가 된다.

xGD값을 기회 창출과 관련지어 생각하는 경우가 있는데 이 둘은 상관관계는 존재할지 몰라도 인과관계를 보장할 수는 없다. 사실 기회 창출을 보기 위해서는 득실차보다 더 직접적인 관계가 있는 xG나 기대 어시스트(xA)를 참고하는 것이 좋다.

9.4. 기대 어시스트(xA)

자세한 내용은 기대 어시스트 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[기대 어시스트#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[기대 어시스트#|]][[기대 어시스트#|]] 부분을

참고하십시오.
경기 중 스트라이커는 직접 득점하여 경기를 이끌어가야 하는 반면 미드필더 중에서는 직접 골을 넣는 경우도 많지만 득점 기회를 창출하는 등의 방법으로 간접적으로 득점에 관여하는 경우도 많다. 이러한 경우 xG를 통해 미드필더를 평가하는 데에 문제가 생긴다. 이 경우 xA를 통해 직접 득점하는 스트라이커가 아니라 간접적으로 득점에 기여하는 미드필더를 더 합리적으로 평가할 수 있게 된다.

9.5. 빌드업 통계(xGChain, xGBuildup)

자세한 내용은 빌드업 통계 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[빌드업 통계#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[빌드업 통계#|]][[빌드업 통계#|]] 부분을

참고하십시오.
xA가 골을 넣으려면 키패스가 필요하다는 사실에서 나왔다면, xGB와 xGC는 득점과 키패스가 발생하려면 그 이전에 또 패스들이 필요하다는 사실에서 나온 스탯이다.

9.6. 기대 승점(xPTS)

자세한 내용은 기대 승점 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[기대 승점#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[기대 승점#|]][[기대 승점#|]] 부분을

참고하십시오.
기대 승점(Expected Points)이란 한 팀이 단일 경기, 혹은 리그 전체에서 받았어야 했을 승점의 기댓값을 의미하며, xPTS라고도 줄여쓸 수 있다. 승점이라는 것은 리그에서의 순위와 직접 관련되어 있기 때문에, 승점의 기댓값을 보는 것은 xG를 보는 것과는 또 다른 방식으로 유의미한 결과를 가져다준다. xG가 더 높은 팀이 승점 3점을 가져갈 가능성이 높긴 하지만 실제 득점은 확률적으로 정해지기 때문에 꼭 xG가 높은 팀이 승점 3점을 가져간다는 보장은 없다. 즉 운좋게 이겨서 얻는 승점과 압도적인 차이로 이겨서 얻는 승점은 모두 3점이지만 두 경기가 같은 가치를 지니지는 않는다.

편차값인 (실제 승점 - xPts)이 클수록 기대 수준보다 더 많은 승점을 얻었다[18]는 뜻이며 작을수록 기대 수준보다 적은 승점을 얻었다[19]는 뜻이다.

미국 축구 분석학회에서 기대 승점에 대해 남긴 칼럼이 있다.

슈팅 수가 다른 양 팀의 xG 총합이 같을 경우 기대 승점이 또 다른 유의미한 결과를 가져다 주는데, 박스 바깥에서 xG가 작은 슈팅을 자주 시도한 팀보다, 박스 내에서 xG가 큰 슈팅을 더 적게 시도한 팀이 기대 승점이 더 크다. 이는 양 팀의 승률과 관련된 문제로도 치환할 수 있다.

10. 관련 일화

축구계 내부나 축구 팬들 사이에서는 스포츠에 숫자를 대입하는 것을 꺼리고 직감으로만 이해하려는 풍토가 강하다 보니, 2016년 ESPN 방송에서 가브리엘 마르코티가 뮌헨의 15-16시즌 챔피언스리그 4강 패배는 기대 득점을 고려했을 때 불운한 결과였다고 말하자, 크레이그 벌리가 이에 대해 "이미 챔스 4강에서 뮌헨이 탈락한 경기에 대해서 기대 득점을 말하시는 겁니까? 정말 말도 안되는 소리네요! 나는 매 크리스마스마다 산타에게 선물을 기대하지만 산타가 오지는 않잖아요. 그렇죠? 제가 다루는 건 '팩트'에요. 기대 득점이 뭔데요?"라고 의견을 냈다. 대화하고 있던 가브리엘 마르코티가 자세한 의미는 인터넷을 찾아보라며 간단히 의미를 설명하자 "결과를 보세요!"라고 받아쳤다. 마르코티가 "음, 그렇죠. 결과는 누구나 볼 수 있지만..."이라고 말하자 "당연하죠 원래 그런 게 게임이니까요. 당신이 좋아하든, 내가 좋아하든, 다른 사람이 좋아하든, 경기는 결과에 대한 것이잖아요. 그게 감독들이 직업을 바꾸거나 경질되는 이유잖아요. 그렇죠? 이 모든 건 Expected Goals가 주장하는 것과 맞지 않아요."라고 말하며 반감을 드러냈다.

bbc에서 2017년 10월 xG를 소개하는 글을 게시하였다.

아르센 벵거 감독이 17-18시즌 맨시티와의 경기에서 1-3으로 패한 후 기대 득점 값이 맨시티는 0.7, 아스날은 0.6으로 0.1만큼밖에 차이가 나지 않았다며 아스날이 이길 수도 있었다고 주장하였다. 이 값의 출처는 밝혀지지 않았지만 아스날은 통계 회사 StatDNA를 인수해 내부적으로 사용하고 있어 아르센 벵거 감독이 말한 값의 출처는 StatDNA로 추정할 수 있다. 축구 통계 사이트 understat.com에서는 맨시티의 xG를 2.15, 아스날의 xG를 0.34로 계산하고 있다.

2019년 10월 동아일보의 기사에도 xG를 소개한 기사가 올라왔다.

프리미어 리그 2019-20 시즌, 일정의 3분의 1 가량을 끝마친 무렵인 16라운드 레스터 시티가 2위를 하고 있는 것이 상당히 운이 좋다는 분석(실제 득점이 기대 득점보다 높고 실제 실점이 기대 실점보다 작았다.) 결과를 들은 크레이그 벌리는 기대 득점 통계를 비꼬았다. 참고로 이 시즌을 레스터 시티는 5위로 끝마쳤다. https://understat.com/league/EPL/2019/통계 사이트에 따르면 득점과 실점은 끝까지 운이 좋은 게 유지되긴 했지만 기대 승점은 거의 실제 승점과 유사했고 2위에서 5위로 추락한 걸 보면 그러한 분석이 맞았을지도 모른다.

2020년 12월 분데스리가 공식 사이트에도 xG에 대한 소개가 올라왔다.

[1] 운이 좋았다는 의미로 해석하기도 한다.[2] 결정력이 좋지 못했던 것이나 운이 좋지 못했다는 의미로 해석하기도 한다.[3] 이는 축구 데이터 분석가들 사이에서 기댓값 스탯을 믿을 만한 데이터로 자주 사용하는 이유이기도 하다.[4] 축구 데이터에서는 대체로 어떤 유의미한 차이를 찾기가 쉽지 않다보니, 이런 것보다는 팀의 플레이 요소에 대한 것들을 더 많이 계량화하는 편이다.[5] 이는 세이버메트릭스에서 타율 대신 장타율과 OPS를 중요시하게 된 이유와도 같다. 타율은 안타 수를 타수로 나눈 것인데, 이는 1루타, 2루타, 3루타, 홈런의 수에 가중치를 매기지 않고 모두 단순히 더해버린 값을 타수로 나눈 결과 1루타를 치는 것과 홈런을 치는 것의 효과를 동일하게 취급하게 되어 문제가 되었다. 세이버메트리션들은 여기에 각각 1, 2, 3, 4의 가중치를 부여하여 더한 값인 장타율이라는 것을 중요하게 여기게 되었다.[6] 해당 선수의 과거 슈팅 데이터를 이용하여 기대 득점 값을 조정한다. 예를 들어, 리오넬 메시가 기대되는 정도의 1.4배만큼 슈팅을 골로 연결했다면, 그가 한 슈팅의 기대 득점을 구할 때는 1.4를 곱해 준다.[7] 이를 베르누이 시행이라고 한다.[8] 이는 베르누이 분포의 성질 중 하나이다.[9] 임의로 선택한 슈팅이 또 다른 임의의 슈팅의 확률에 영향을 미치지 않는다는 가정은 꽤 현실과 닮아있다.[10] 축구에서 반 정도의 경기는 도합 2.5골보다 적은 득점으로 끝난다.[11] 이러한 문제 때문에 저평가받은 선수를 제대로 찾기 위해서는 출전 시간이 많은 선수에 한해서만 가능하게 된다.[12] 찰스 리프가 조사한 바에 따르면 일반적으로 득점 전환율은 리그 전체에서 10번 중 1번 내지 9번 중 1번(약 10%~11% 정도) 이라고 알려져 있으나, 승부차기에서 성공 확률은 약 70%라고 알려져 있다. 이는 약 7배에 해당한다.[13] 이러한 이유 때문에 실제로 축구 데이터 분석가 사이에서는 '마무리 능력'이라는 것이 반복될 수 있는 것인지에 대한 논란이 있다.[14] 우리 팀이 실점하는 xGOT를 의미하며, 골키퍼가 직면한 xGOT값이라는 의미로 xGOT faced라고도 쓴다. 아래 문단에 설명된 xGA와 같은 맥락이다.[15] 불운하였다고도 볼 수 있다.[16] 운이 따라줬다고도 볼 수 있다.[17] (GF - xG)로 계산되는 xG Differential과 이름이 비슷하다.[18] 운이 좋았다는 뜻으로도 해석한다.[19] 운이 나빴다는 뜻으로도 해석한다.

기대 득점

1. 개요

2. 역사

2.1. 총합 슈팅 비율(TSR)

2.2. 기대 득점(xG)의 등장

3. 계산 방법

4. 성질

5. 득점의 표준편차와 Z-score

5.1. 편차 데이터의 활용

6. 미래 예측과의 관계

7. 한계

8. xG를 개선한 통계

8.1. xG90

8.2. NPxG

9. xG를 응용한 통계

9.1. 유효 슈팅 내 기대 득점(xGOT)

9.2. 기대 실점(xGA)

9.3. 기대 득실차(xGD)

9.4. 기대 어시스트(xA)

9.5. 빌드업 통계(xGChain, xGBuildup)

9.6. 기대 승점(xPTS)

10. 관련 일화

분류