[오늘의 아티클] 그 데이터는 잘못 해석되었습니다.
[내용정리]
무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같아 보이지만, 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있다. 특히 가장 경계해야 할 점은 데이터를 잘못 해석해 잘못된 결론으로 가는 상황이다.
이번 글에서는 데이터를 잘못 해석하게 되는 상황별 유형과 제대로 해석할 수 있는 방법들에 대해 소개한다.
1. 생존자 편향의 오류
전체 이용자를 기준으로 한 것이 아니라 일부 이용자를 기준으로 지표 분석을 하면서 잘못된 해석이 발생한 것이다. (기준 설정을 잘 했는지 검토)
ex. 2차 세계대전 당시 미 해군은 전투기의 총탄 자국이 많은 곳을 보강해 더 튼튼한 전투기를 만드는 연구를 진행했었다. 이때 통계학자 아브라함 왈드는 총탄 자국이 많은 곳이 아닌 총탄 자국이 적은 곳을 강화해야 한다고 주장했다. 무사 귀환한 전투기는 그 부위에 총탄을 맞고도 무사 귀환했다는 것이기 때문이다. 즉, 연구는 무사 귀환한 전투기를 대상으로 총탄 자국을 확인하다 보니 발생한 인지적 오류였다..
2. 심슨의 역설
전체 지표와 그룹을 나눈 지표의 방향성이 다르게 나타나는 상황을 말한다. 이는 만족도 조사 뿐만 아니라 퍼널 전환율, 결제 전환율, 클릭률 등 여러 전환율 지표에서 발생할 수 있다.
이를 방지하기 위해서는 전체 집단의 지표뿐만 아니라, 집단을 나누어 지표를 확인하는 과정이 필요하다.
3. 상관관계를 통한 성급한 일반화
상관성은 있으나 인과성이 없는 경우 발생하는 문제다. 이 경우엔 제3의 공통 원인이 존재할 가능성이 높다.
비록 인과성에 대한 분석은 쉽지 않지만 성급한 일반화의 함정에 빠지지 않게 공동 원인이 있는지 살펴볼 필요가 있다.
4. 목적에 맞지 않는 지표 선택
ex. 유저를 기준으로 분석하는지 / 발생한 이벤트를 기준으로 분석하는 지에 따라 결과가 다른 경우. 서로 다른 결론이 나올 수 있다. 그래서 어떤 관점에서 개선할 목적을 명확히 할 필요가 있다 유저의 전환율이 중요하다면 전자, 이벤트 전환율이 중요하면 후자다.
- 세이건 표준 참고하기
기본적으로 데이터는 발생하는 일을 자료로 남긴 것이기 때문에, 데이터 분석의 결가가 일반 상식에서 크게 벗어나는 경우는 많지 않습니다. 그러나 데이터는 가공하는 기준과 방법에 따라 바뀔 수도 있고, 데이터를 해석하는 사람의 생각이 반영될 수 있다. 그래서 데이터를 잘못 해석하지 않기 위해선 칼 세이건의 세이건 표준을 참고하면 좋습니다. 특별한 주장으로 연결시기 전에 충분한 근거는 확보 했는지, 잘못 해석했을 가능성은 없는지 등
"특별한 주장에는 특별한 근거가 필요하다."
'아티클 읽기' 카테고리의 다른 글
[아티클 읽기] LLM이란 무엇인가? (1) - 정의 (2) | 2024.01.05 |
---|---|
[아티클 읽기] 무한한 사업 전략의 세계로 건너가는 법 (1) | 2024.01.04 |
[아티클 스터디] 23.12.14 (0) | 2023.12.14 |
[아티클 스터디] 23.12.13 (0) | 2023.12.13 |
[아티클 스터디] 23.12.12 (0) | 2023.12.12 |