젠지의 결승전 유튜브 영상이 올라오면서 이즈 픽에 관하여 스크림을 믿으면 안된다 등 여러 이야기가 나오더군요.
이와 관련되기도 하고, 또 최근에 Ashley Kang님의 T1 분석관 Tolki님과의 인터뷰도 그렇고
롤에 있어서의 통계적 분석에 대해서 제가 평소에 생각한것에 대해 끄적여 보고 싶어서 글 하나 끄적이고 갑니다.
원래 통계 모델에 대해 아시는 분이면 가볍게 패스하시면 됩니다.
또한 저도 전문가는 아니고 제가 아는 한도 내에서의 끄적이는 생각이기 때문에,
엄격한 통계적인 내용에 대해 질문 같은거 물으셔도 답 못할 가능성이 높습니다.
그냥, 이런 것이 있구나 라는 정도로 봐주셨으면 하네요.
이번 2020 써머 결승전에 한 가지 화제라고 한다면 바텀 바루스 vs 이즈 픽일겁니다.
여기서 보통 우리가 흔히 말하는 통계라 하면...
예를 들면 이즈가 바루스 상대로 승률 60%이다. 라는 데이터일 것입니다.
그렇다면 이즈가 바루스에 대해 무조건 좋은걸까요?
통계의 기본개념은, 많은 표본에서 정의 랜덤성은 부의 랜덤성으로 상쇄되어 결국 남는 경향성을 포착하는것입니다.
그리고 "이즈가 바루스 상대로 승률 60%이다" 라는 단순한 모델에서의 종속값인 승률은
이즈와 바루스라는 챔피언 픽외에 다른 요소는 고려하지 않고 모두 뭉퉁그러진 상태에서의 승률을 나타냅니다.
하지만 현실은 전혀 그렇지 않죠. 예를 들면
1. 선수의 실력의 차이.
2. 상대팀의 미드/정글의 갱킹/로밍 횟수
3. 상대방과의 조합차이
등 이즈픽과 바루스픽외의 여러가지 요소의 차이가 게임의 승패를 결정 짓습니다.
그렇다면 이즈픽과 바루스픽외의 다른 요소들의 영향력을 고려하여,
픽외의 요소의 영향력을 제거했을 때, 이즈대 바루스 픽 자체만의 영향력은 어떻게 해서 알수 있을까요?
여기서 필요한게 단순한 승률을 넘어선 통계 모델의 필요성입니다.
일반적인 선형모델을 예를 들면 고려하고 싶은 요소를 통계모델의 변수로 넣어서 분석하면 된다는 거죠.
우리팀이 이즈를 고르고, 상대팀이 바루스를 골랐다고 가정해보죠.
여기서 다른 요소를 무시하고 기존의 바루스 픽에 대한 이즈 픽의 승률만을 고려한다면 아래와 같이 될 것입니다.
이즈의 승률 = 바루스 픽(= 0 or 1) × 바루스 픽의 계수 ( 바루스픽이 이즈의 승률에 끼치는 영향력)
여기서 선수간의 실력차이, 혹은 갱킹의 영향력 차이를 고려하고 싶다면
이즈의 승률 = 바루스 픽의 계수 × 바루스 + 실력차이의 계수 × 양 AD선수의 실력차이(= 우리팀AD 실력 - 상대팀 AD 실력)
+ 바텀갱킹횟수 계수 × 바텀 갱킹횟수 차이 (=우리팀의 갱킹횟수-갱킹당한횟수) + 조합차이 계수 × 조합차이 + ei
이렇게 고려하고 싶은 변수를 통계 모델에 넣어 주면 됩니다.
여기서 계수란, 그 요소가 종속변수인 이즈의 승률에 끼치는 영향력을 뜻합니다.
예를들어, AD선수의 실력차이의 계수가 0.01이라면, 양 AD선수의 실력차이가 1만큼 차이나면 그만큼 우리팀 이즈의 승률이 1% 올라가는 것을 뜻합니다.
이렇게 고려하고 싶은 요소들을 통계모델에 포함함으로써, 우리는 통계적으로 이즈 픽의 바루스픽 자체만의 승률을 더욱 순수하게 측정할수 있게 됩니다.
그렇다면 이러한 통계학적 관점에서 보았을 때, 젠지의 연습에서 이즈했는데 바루스 다 이겼다 라는 경험은 얼마나 객관적인 걸까요?
젠지가 정확히 몇번의 스크림을 했고, 그 스크림 중 몇번 이즈 대 바루스 픽의 구도를 경험했으며,
그 구도에서 조합차이나 다른 게임의 요소가 어땠는지는 모르지만,
단순한 몇번의 스크림 경험만으로는 샘플수도 적어 그 경험으로서 얻은 결론이 타당한지도 알수 없고
+ 그렇게 다른팀과의 스크림에서 얻은 경험적인 결론을 T1이라는 전혀 다른 팀과, 다른 조합을 상대하는 시합에 적용하는 것은 전혀 다른 이야기입니다.
그렇다면 흔히 우리가 말하는 코치, 즉 전 프로 출신의 인게임 코치 들이 이러한 상황에서 도움이 될 수 있을까요?
코치/선수 들의 경험은 물론 특정 상황에서의 어느정도 통찰을 제공할 수 는 있습니다.
하지만, 경험은 언제나 한정되어 있기에 그 결론이 객관적인지 알 수 없을 뿐더러,
이러한 상황에는 다양하고 추상적인 요소가 복합적으로 작용하기 때문에 주관적인 인플레이 경험만으로는 그 결론을 검증할 수도 없습니다.
그 결과, 흔히 우리가 말하는 스크림의 오류가 발생하는 겁니다. 그렇다면 이를 방지하기 위해서는 어떻게 해야 될까요?
여기서 중요한 것이 객관적이고 다량의 데이터에 근거한 통계 모델의 구축과 통계 전문가를 이용한 검증입니다.
객관적인 통계모델에 의한 정답은 (챔피언 픽이나 전략) 어떤 팀을 상대로든 보편적으로 적용할 수 있는 가장 객관적인 것에 가까운 결론입니다.
옛날 하스스톤을 보면, 특정한 확장팩이 발매될시, 프로 선수들은 그 팩에서의 강한 덱을 찾기 위해 여러덱을 직접 돌려가면서 , 각자의 해답을 가지고 대회를 나가, 시간이 지나며 결국엔 메타덱이 확정되는 과정을 거쳤습니다. 하지만, 하스스톤 리플레이를 수집하여 이를 통계적으로 분석해 주는 커뮤니티가 등장함에 따라, 그 확장팩 안에서 강한 덱을 찾는 시간이 단축되어 메타가 확정되는 시간이 더욱 짧아졌습니다.
롤은 하스스톤 보다는 더욱 복잡하지만, 본질적으로는 그 패치버전 안에서 강한 픽과 조합(덱)을 찾는 다는 면에서 하스스톤과 그다지 다를바가 없습니다.
이번 T1 톨키님과의 인터뷰 그리고 그분의 백그라운드를 보면 T1은 이러한 측량화 된 데이터를 이용한 통계적 검증은 당연히 하고 있는 것으로 보여지고,
그에 따라 패치버전내에서의 빠르거 정확한 메타분석이 이루어져 좋은 결과를 낸 것으로 보여집니다.
그에 비해 젠지를 포함하여 다른 팀들 역시 분석관이 있는 팀들도 있지만, 이들이 이렇게 통계적 모델을 사용하여 분석을 하는건지, 아니면 단순히 기존의 코치들 처럼 리플레이를 보며 인게임 분석에 집중하는지 + 이들의 의견이 어느정도나 반영이 되는 지에 대한 정보는 알려진 바가 없기에 이부분이 어떨지가 매우 흥미로운 부분입니다.
그리고 우리가 통계모델에 대해서 알고 있다면, 비록 통계의 전문가가 아닐지라도 여러가지 요소를 고려하여 더욱 심도 있게 게임을 보고,
플레이 하는 것이 가능해 집니다.
예를들어 롤을 하는데 우리팀 탑이 망했다고 합시다.
아무 것도 모르는 상황이라면 "우리 탑 개못하네" 하고 끝날 것이지만,
여러가지 요소를 고려하는 통계 모델을 염두해 둔다면 더욱 여러가지 요소를 고려하게 됩니다.
1. 애초 탑 픽의 상성은 어떤가?
2. 적군 팀의 탑 갱킹 횟수는 얼마인가?
아니면 흔히 선수별로 15분 골드차이 지표를 내기도 하는데
1. 팀적으로 픽을 몰아줘서 상성이 좋은 챔프를 골랐나?
2. 우리 정글이 갱킹을 많이 가줬나?
3. 전령 오브젝트를 주로 챙겨서 그 라인에 몰아줬나?
LCK에서 리신의 승률이 처참한데 비해 타 리그는 리신의 승률이 그정도는 아닙니다. 왜 그런걸까요?
1. LCK 에서 리신이 나온 경기에서, 하위 팀에서 리신픽을 더 많이 했나?
2. 리신과 어울리지 않는 조합을 했나?
선수들도 이러한 점을 염두하고 있으면 특정팀과의 스크림에서 특정 조합에 대해 좋은 결과를 얻었을 지라도,
다른 팀과 싸워서, 다른 조합을 상대로는 어떨지 더욱 조심스럽게 생각할수 있겠죠.
그렇다면 기존의 인플레이에 기반한 코치와 선수의 경험은 쓸모 없는 것일까요? 그건 아닙니다.
통계는 어디까지나 결과에 대한 분석이지, 그 결과를 끌어내는 것은 어디까지나 인플레이의 영역입니다.
예를들어 위의 예시와 같은 통계 모델의 분석의 결과, 이즈 바루스의 픽 구도에서 다른 요소의 영향력을 제외한 순수한 픽에서의 계수가 52프로라 한다면,
그 승률은 예를 들면.. 이즈와 바루스의 스킬 매커니즘의 차이에서 기반한 것일 겁니다.
그리고 이 메커니즘의 차이에서 어떻게 딜교를 하는지는 통계로는 알수가 없고, 인플레이의 영역입니다.
또한 조합차이 역시, 조합차이를 한타를 자주 열어야 하는지 혹은 사이드 운영을 해야 하는지에,
한타를 한다면 어떻게 한타를 해야 하는지는 통계로는 아무것도 알 수 없습니다.
그리고 무엇보다 애초에 통계로 무엇을 검증할것인지는 가설을 구축하는 것은 인플레이의 지식이 필요하며,
검증을 하기 위해 통계 모델에 무엇은 변수로 고려할 것인가 역시 인플레이의 지식없이는 불가능한 일입니다.
요약하자면 롤 분석에는 두가지 영역이 있습니다.
1. 인플레이의 영역과
2. 다양하고 복잡한 요소가 종합적으로 작용하는 분석과 이를 이용한 인플레이의 검증을 하는 통계의 영역
1. 인플레이의 영역의 같은 경우는 우리 모두가 게임을 플레이하는 플레이어로서 익숙한 영역입니다.
그에 비해
2. 통계의 영역은 매우 추상적이고 복합적인데다가, 통계를 아는 사람이 많지도 않고, 측량화된 인플레이 데이터를 얻기 힘든 점에서 많은 사람들이
간과하고 있는 영역입니다.
그리고 메타와 픽 구도에 있어서 2. 통계적 분석의 영역이 중요하지 않을까 하는게 개인적인 생각입니다.
+ LCK의 피드백 특징중 하나인 우리의 실수를 줄여야 한다, 줄여서 우실줄에 대해서..
현재의 피드백에서 우실줄은 마치 그 플레이어의 문제인 측면이 강조되어, 그 선수가 완벽하면 실수 따위는 일어나지 않을거야 라는 의미가
강한거 같습니다만, 통계적으로 보면 실수라는건 필연적인 것입니다. 그리고 그 실수라는 것은 개인의 문제보다는 상황적인 요인이 더 강하게 작용하지
않나 라는 것이 저의 생각입니다. 즉, 그 선수가 잘못해서 실수가 나오기보다는, 그 선수가 처해진 상황이 선수의 실수를 유발하는 측면이 더 강하다는 것이지요. 따라서 그 선수 개인에 초점을 맞추는 지금의 우실줄 보다는, 선수들을 실수하게 만드는 상황을 만들지 않아야 된다는 의미의 우실줄의 측면에서 접근을 해야 하지 않나... 그리고 그런 상황이라는 것은 역시 복합적인 요소가 종합된 것이므로 통계적인 분석이 끼어들 여지가 있을까.. 라는 생각이 듭니다.
개인적으로 통계를 좋아하는 사람으로서, 롤에서의 통계에 대한 관심이 높아져 가는 가운데,
단순한 승률이나 지표를 넘어서 통계모델에 대해 소개를 해드리고, 이와 관련해 롤에 대한 저의 생각을 문득 필로 받아 글로 쓰게 되었습니다.
재미있게 읽어주셨으면 감사하고, 혹시 통계 모델같은데 더욱 관심이 생긴분들은 통계학이나, 계량경제학(econometrics) 쪽의 서적을 읽으면
더욱 자세하게 공부하실 수 있을거 같습니다. 감사합니다.
요즘 머신러닝 만지고 있는 입장에서 글쓴이 의견에 동의하는데, 계산 모델이 저게 맞냐 라고 시비를 걸면 몰라도 계수를 어떻게 구하냐고 묻는건 이해가 안되네요. 데이터 및 모델의 신뢰도도 다양한 트레이닝 기법으로 도출하는게 가능할 것이고 그 통계학적 분석이 맞냐 안맞냐는 결과적으로 관련 전문가가 포함된 팀과 없는 팀의 승률로 나타나겠지요.
Ad선수 실력차이 계수는 어떻게 만드시는거임? 선수 지표로 계수만드는건가?
음 그냥 예시로 넣은거라 그렇게 세부적인 것 까지 신경쓰실 필요는 없는데.. 자기가 넣고 싶은 요소를 어떻게 계량화하여 데이터로 작성해 모델을 작성할 것인가가 또 통계 모델을 실제적으로 활용하는데 중요하고도 또 그 학자의 실력을 평가하는 요소이기도 합니다. 실력차이를 어떤 data를 이용해 계량화면 좋을지는.. 뭐 말씀하신 대로 선수지표의 차이를 쓸수도 있겠고, 솔랭 점수 차이를 쓸수도 있겠고, 솔랭의 승률차이를 쓸수도 있겠고 뭐 그건 모델을 만드는 사람이 무엇을 쓰느냐에 따라 달라지는 거겠죠.
근데 그 계수 넣는건 어떻게 선정함?; 사실 순 허구 아님? 실력차이 계수라는것도 사실상 말이 안되고 챔프간의 상체 간의 챔프에 따라서 승률이 요동칠텐데 그런걸 넣기 어렵지 않음? 솔직히 좀 오바라고 생각함. 조합차이도 어떻게 계수를 넣을지도 모르겠고, 그냥 계수만 넣는다고해서 답이 되는건 아님. 그게 어떤 상관관계와 변수들간의 상호작용이 있는지도 모르겠고.
축구처럼 너무 변수가 많아서 모든 변수를 고려하려면 어떠한 방향성 있는 통계모델이 안나오고 변수를 지나치게 제거하면 부정확한 해석을 하게 되는 스포츠도 있는데 야구통계학을 보면 절대로 통계를 무시할 수가 없음 선수의 포텐은 툴을 통해 봐야할지 몰라도 선수의 현재가치는 통계가 가장 정확하게 평가하고 있는 스포츠가 야구임
야구 세이버 매트릭스 이야기하는거라해도 롤이 야구보다 챔프간의 상성이 훨씬 더 많이 타고, 플레이 방식에 따른 변수가 훨 더 많음. 사실 그때문에 저런 변수를 지정하는거자체가 말도 안된다고 생각함.
ㅇㅇ 아직까지 우리한테 공개된 롤 통계지표의 가치는 야구는 커녕 축구만도 못해보인다는데 동의함 그래도 농구는 내가 농알못이라서 잘 모르는데 역동적이고 상호작용 많은 스포츠인데도 축구보다는 훨씬 의미있는 수치화가 진행중인 걸로 암 롤도 인원수가 농구 정도라서... 현재 15분CS나 DPM같은 지표 해석에 대해 말도 많고 탈도 많지만 선수 실력도 저런걸 바탕으로 진짜 투박하게 라인전 한타 맵리딩 등 요소 나눠가며 점수 매겨볼 수 있는거고 어차피 승리를 위해서 프로게임단들은 당연히 투자 하는거고 결국 이게 틀린 방향이다 싶으면 투자를 안하게 될듯
음... 그 계수는 선정 하는게 아니라 변수에 데이터를 넣으면 자동으로 계산되는 겁니다;;;
그게 말도 안됨. 그런게 쉬우면 물리 고체 변수들도 쉬운데 그게 안되서 아직도 이론값 쓰는게 현실인데..
그러니까 넣고 싶은 요소를 대표할 측량화 된 데이터를 변수로 넣어 계산하면 계수는 계산의 결과로서 자동을 나옵니다...
말도 안되는게 아니라 그냥 그렇게 하는건데요-_-?
계수가 결정되는 원리는 제일 기본적인 선형모델은 최소자승법이니까 참고하시면 됩니다.
아니, 그런게 어딨음 대체... 측량화된 데이터의 신뢰도는 어떻게 될것이며, 그 변수를 어떻게 선정할것인지 말이 안되잖음. 님 말대로라면 롤보다 훨씬 단순한 게임에 가까운 야구(공수 나눠져 있고, 룰이 크게 변하지 않는)에서도 그런 데이터와 승률 예측이 되야하는데 실제로 잘 안되는게 현실임
저도 전문가라고 볼 수 없는 사람이지만 글쓴이께서 확실히 통계학의 가정에 대해 너무 무심하신 경향이 보이긴 합니다 이과나 심리학 등에 비해서 경제학 쪽에서 관심갖고 넘어오신 분들이 이런게 심한데 (무인도에서 깡통따기 경제학자편이 병따개가 있다고 가정한다라는 농담도 있을 정도니까요) 아무래도 2008년 이후 경제학이 욕먹고 있는 것도 경제학이 가정을 많이 하는 학문이라서가 아니라 가정을 해놨음을 까먹은 것처럼 그걸 잘못 활용하거나 확장하려고 하는 학문인 이유가 크죠
나도 대학원 다녔는데 대체 어느 누가 그렇게 나이롱 통계를 씀... 나도 R 많이 만져보고, 통계관련 코드 많이 짜봤는데 솔직히 님 말이 말 안됨. 나도 데이터 좋아하고 데이터 근거로 이야기하는거 좋아하는데 지금 단계에서 확정지어서 계수 만들 수 있다는건 말도 안됨.
?? 아무래도 나온 background가 달라서 그런가요? 저같은 경우에는 전공이 경제학 바탕이라 위에서 써놨든이 계량경제학으로 부터 접근하는 거라서, 위에서 써놓은 저런 일반선형 모델은 경제학에서 기본으로 논문에 다들 쓰는것인데요? 물론 엄격히 따지면 선형모델에 있어서 TLSM님 말처럼 변수들 간의 관계나 그런것에 있어서 구체적인 통계적 가정을 만족시키거나, 그에 따라서 보정을 해야 하지만 그것 까지 이런 글에 일일이 쓸거는 없는 일이고 ( 글에도 써놨듯이 ), 대략 이런 통계모델을 통한 분석도 있다는것 개략적으로 써놓은것인데요.
결국 그 계수가 중요한데, 이게 분석가나 팀별로 다를수 밖에 없습니다. 통계라는것도 결국 해석이 중요한데, 그 해석에 대한 성과가 높은 분석가가 좋은 분석가죠..
글쎄요 우실줄이야말로 픽밴 못지 않게 통계가 개입해야 하는 부분 아닌가요? 어차피 통계라는게 정보를 덜어내고 보기좋게 가공해서 어떤 경향을 찾고 다시 의미를 찾아내는 작업이죠 윗분들이 계수 이야기에 너무 꽂히시는 것도 완벽히 객관화하기 어려운 것을 객관화한다는 뉘앙스로 글을 써놓으셔서 그런 것 같고 실수가 발생하는 상황이 복합적이지만 그 안에서 어떠한 경향성을 찾아낼 수 있다면 우실줄이 승률을 높이는게 맞는데 그냥 운이 없어서 2년 내내 다전제 박살난건지 우실줄이 틀리고 우리가 실수하더라도 상대 실수를 더 유도하는 방향의 전략전술이 맞는건지 판단할 수 있겠죠
아 그러니까 여지가 있을까...가 통계가 중요하다는 의미입니다;;; 대략적으로 생각한 부분이라 ? 물음표가 빠져서 약간 어투에서 의미가 잘못전달 된거 같네요.
문과는 그저 아하 그렇구나 끄덕끄덕하고 갑니다...
skt가 메타를 빠르게..분석..한다구요..?
올해 기준 제일 빨랐지
요즘 머신러닝 만지고 있는 입장에서 글쓴이 의견에 동의하는데, 계산 모델이 저게 맞냐 라고 시비를 걸면 몰라도 계수를 어떻게 구하냐고 묻는건 이해가 안되네요. 데이터 및 모델의 신뢰도도 다양한 트레이닝 기법으로 도출하는게 가능할 것이고 그 통계학적 분석이 맞냐 안맞냐는 결과적으로 관련 전문가가 포함된 팀과 없는 팀의 승률로 나타나겠지요.
음 저도 처음엔 왜 저러시지 하고 좀 놀라긴 했는데... 생각해보니 아무래도 이과 백그라운드를 가지고 계셔서 실험을 통해 엄밀히 계수를 측정하는 방법에 더 익숙하신 분이라면 이런 방식에 놀라시는가.. 싶기도 하고 하네요.
저도 물리학 백그라운드라서 통계 직접 전공은 아니지만 통계는 대학원 이상 수준이면 기초 이상은 다룰 줄 알아야 신뢰도 있는 데이터를 뽑는게 가능하니까 이과고 문과고 별 관련은 없다고 봅니다. 경제학도 문과냐고 하면 제 기준에선 문과는 아니라는 생각도 있고요. 다른건 몰라도 커뮤니티 수준에서 크게 지적받을 정도로 대충 쓰여진 글은 절대 아니라고 봅니다. 때문에 진짜 오랜만에 루리웹에 로그인해서 댓글다네요. 좋은 밤 되시길 바랍니다.
위에서 학력 자랑하는 중에 인공지능 전공이 끼여보자면 저는 모든 것이 곱연산이 되지 않을 거라고 생각함
글쓴이가 쓴 모델은 어디까지나 예시에 불과하고 요즘 머신러닝 기법은 사실 데이터에서 디스크립터만 잘 뽑아낸다면 모델마저 스스로 만들어 내주지 않던가요? 저도 알고리즘쪽 전공은 아니고 어디까지나 남들이 만들어 놓은거 받아먹는 입장에서 질문드려봅니다.
그렇긴 한데 애초에 인공지능 모델도 싹다 확률 기반 모델인데 거기에서 기존 룰 베이스보다 더 잘 들어맞는 모델들이 전부 곱 합 정규화의 뭉태기인데 저걸 글쓴이 분이 쓴것처럼 모든 변수의 매직 넘버를 구하고 그걸 걍 곱하면 되지는 않죠. 저건 제 생각으로는 이상적인 상황에서야 그렇게 되겠지만 아마 저렇겐 분석하면 저 옛날 고전모댈밖에ㅜ안 나온다고 생각합니다
실제 모델이 물론 저렇게 단순화된 모델일 가능성이야 한없이 낮겠지만 그거야 우리가 직접 구해야 하는것도 아니고, 그냥 비전공자에게 설명하는 이 글에서는 그냥 쉽게 설명하기 위해 채택한 모델이라고 생각되네요. 의견 감사합니다. 좋은 밤 되시길 바랍니다.
하마펀치님 께서 쓰신 대로 여기서 무슨 논문 쓸것도 아니고.. 통계모델에 대해 아무것도 모르는 분을 대상으로 가장 기초적인 내용으로 가장 쉽게 설명하려는 의도에서 가장 단순화한 모델을 예시로 쓴거 뿐이고요 제발.. 글내용에도 썼지만 이런 글에서 그렇게 까지 깊게 일일이 설명하며 파고드는 글이 아니에요 ㅠㅠ
우실줄도 승률이 높거나 상대보다 우위에 있는조합을 먼저 가져가야 승리확률이 높은 상태에서 계속 우위를 가져가는게 옳다고 봅니다. 이번의 젠지는 픽밴뿐아니라 통계적인 가중치도 제대로 못했던게 아닐까요.
실수를 하기 어려운 조합을 애초에 뽑는건 2017~2018년 복한규 감독이 잘 보여준거같습니다. 매번 완성될때마다 중계진들도 이건 참 플레이하기 쉬운 조합이라고 했죠.
확실한건 스크림도르는 믿을게 못된다는 거임