[부제] 직장인이여 데이터 문해력을 키워라 (데이터 문해력 소양서)
[이 책은__]
저자가 책을 쓰며 정한 목표는 '사람들에게 데이터 분석이 실제로 회사에서 어떻게 이루어지고 있는지를 전달하자'
'간단한, 쉬운, 많이 쓰는 부분이지만 잘못 이해하는 것이 어떤 것이 있는지 인지할 수 있으면 좋겠다'다.
그런 내용들이 만화와 글로 잘 표현되어 있다.
[느낀점__]
만화를 통해 소소한 재미를 가지며 읽을 수 있었으며, 설명 자체가 쉽고 필요한 내용들이라서 좋았다.
데이터 분석가의 길을 이제 막 시작한 사람들에게 추천하는 책,
공부하다 지칠 때😵💫 가볍게 읽기 좋고 유익한 책😌.
데이터 분석가의 숫자유감 - 예스24
지금은 데이터 시대다회사원이라면 누구라도 데이터 문해력을 길러야 한다이 책은 직장에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 만화와 글로 담았다. 그래서 재미도 있
www.yes24.com
[배운점__]
> DAU : Daily Active User 하루 해당 서비스 이용한 순수 이용자 수
> 내생 변수(모형 내에서 결정되는 변수) 외생 변수(모형 외에서 결정되는 변수)
> A/B 테스트 : 사용자들을 50% 임의로 골라 나눠 한 쪽은 A안, 한 쪽은 B안을 보내 반응을 관찰해보는 것
> 전환율(Coversion Rate) : 고객이 디지털 마케팅의 영향을 받아 구매나 그에 가까운 행동을 하는 비율
= 전환 수(Conversions) / 방문자 수(Visitors)
> 숫자의 불확실성
- 숫자의 큰 역할 중 하나는 정량적인 비교, 숫자의 변화를 통해 시간의 흐름을 알고, 정도를 확인할 수 있다. 하지만 단순한 숫자 비교는 여러 딜레마가 있음. ex. 사과 1개라도 크기가 다른 경우, 품질이 다른 경우
- 단순한 숫자는 많은 가정과 합의에 의해 가지치기되고 단순화되어 요약되고 정리되었기 때문. 이 숫자를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야 한다.
> 모집단
- 모집단 간단한 듯하면서도 복잡하고 추상적인 개념이다. 그래서 모집단을 어느 정도 정의한 후 모집단에 가까운 표본을 정의하고 표본을 구하는 방법을 고민한 후, 표본에 대한 데이터를 수집하는 과정을 거친다.
- 표본 데이터를 통해 모집단의 모수(모평균, 모분산 등 모집단의 수치적 요약값)를 추정하는 것
> 확률 = 가능성의 정도
- 확률은 지나간 사건의 결과를 보장해주지 않음. 다시 말해, 확률이 1/5라고 예측해도 결과가 안 나타날 수 있다.
- 다만 큰 수의 법칙으로 수많은 데이터가 쌓이면, 결과가 나올 확률이 1/5확률에 수렴하게 된다.
> 실험을 통한 의사 결정
- 많은 기업에서 '실험'을 통해 데이터를 수집하고 의사결정을 한다. 실험은 기존에 없었던 기록을 얻기 위해 한다.
- 단 실험 중 변화가 생긴 경후 혹은 여러 실험이 동시에 이뤄지는 경우에는 결과 신뢰도가 낮아진다.
- 그리고 실험으로 얻은 데이터를 이후 데이터 분석에 사용할 때 실험을 통해 얻은 데이터란 사실을 인지하고 있어야 한다
> 그래프 시각화
- 숫자로 표현된 상황을 직관적으로 파악할 수 있게 도움을 주는 도구
- 잘못된 그래프에 속지 않기 위해서는 결국 다시 그래프가 나타내는 숫자가 어떻게 되는지 역으로 파악하여 봐야한다.
> 엑셀 기능 中 추세선 그리기
- 추세선은 들쑥날쑥한 데이터를 깔끔한 직선 혹은 곡선으로 표현하여 데이터가 어떠한 방향으로 흘러가는지를 한눈에 쉽게 파악할 수 있게 해준다.
- 단, 추세선을 그릴 때 정확도 (결정계수 R^2)를 신경써야 한다. 엑셀은 정확도 상관없이 일단 가능한 형태로 추세선을 그려주기 때문
> 시계열 데이터
- 시계열 데이터를 볼 때 크게 '추세', '주기', '계절성'으로 구분해서 본다. 다각도로 살펴볼 것!
> 별점의 함정
- 별점은 너무나 주관적, 사람마다 제각각
- 그렇기에, 재구매율과 이탈율 등의 지표를 보는 것
> 인구통계학 정보의 효용성
- 다양한 사람들, 빠르고 변화하는 현대사회에서 다양성의 범위는 점점 넓어짐
- 즉 인구통계학적 데이터와 사람들의 실제 행동 사이의 관련성은 줄고 있음
- 그렇기에 실제로 고객이 매일마다 움직이는 행동 데이터를 기반으로 고객을 이해하는 것이 더욱 필요
> 조건부 확률
- 데이터 분석이란 과거의 기록을 사용해서 현재를 이해하는 작업
- 현재는 다양한 과거에 의한 결과, 유사한 모양의 현재라고 하더라도 변화의 양과 방향은 다름. 현재라는 평면 아래 감춰진 입체적 모습은 각기 다른 형태를 뜀
- 데이터 뒤에 함축된 사건들을 다각도로 바라볼 필요가 있음
> 범위 제한을 통한 정확도 향상
- 포괄적 서술하는 경향
- 데이터 분석의 근간은 논리고, 논리는 명확한 정의와 범위의 제한으로부터 시작된다.
- 직관은 상식에 기반해 대부분 어느 정도의 포괄적 서술 형태를 띠고 있는데, 저마다 갖는 상식이 다르다 보니 결과를 다르게 받아들일 수 있다.
- So, 주변의 상황을 확인하고 가지고 있는 데이터 분석의 제약 사항(상식)을 확인하여 이를 맞춰 나갈 때, 제대로 된 데이터 기반 의사 결정을 할 수 있음.
> 평균의 함정
- 대푯값이 진실을 잘 요약해주지만, 요약하는 만큼 부적인 정보 또한 버려진다.
- 이 값이 어떤 집합을 대표하고 어떻게 요약되었는지, 그래프 분포는 어떻게 되는지 등도 고려하는 것이 좋음
'도서' 카테고리의 다른 글
[도서] 비전공자를 위한 이해할 수 있는 IT지식 by 최원영 (0) | 2024.02.07 |
---|---|
[도서] 세상에서 가장 쉬운 통계학 입문 (1) | 2024.02.02 |
[도서] 통계101 x 데이터 분석 by 아베 마사토 (0) | 2024.02.02 |
[도서] 월스트리트저널 인포그래픽 가이드 By 도나 M. 웡 (0) | 2023.12.29 |
[도서] 데이터 문해력 by 카시와기 요시키 (0) | 2023.12.29 |