굳이 복잡한 내용을 모두 이해하고 정복하는 것은 중요하지 않다.
왜냐, 실무에서는 이렇게 복잡한 내용까지 필요하지 않기 때문이다!
데이터 분석을 잘 하기 위해서는 반복적으로 해보면서 구조를 흡수하는 것이 중요하다.
데이터 분석은 "주장에 대한 명백한 근거"를 줄 수 있게 도와주는 도구이다.
우선, 데이터 분석의 기본 세팅은
1) 문제 정의 및 가설 설정하기
2) 데이터 분석 기본 세팅하기
3) 데이터 분석하기
4) 분석 결과 시각화 하기
5) 최종 결론 내리기
이렇게 5단계로 진행된다.
이 방법을 활용해서 문제를 풀어보았다.
예제1) 타이타닉 사망자의 비밀 파헤치기
가설: 요금과 생존이 관련이 있는가? 관계가 있다면 왜 관계가 있는지 진상을 파악하자
* 분석 전 데이터 전처리는 꼭 해주도록 하자
Analysis toolpak - Correlation 창 내 용어 정리
Input range : 분석할 시작점과 끝 작성
Output range : 분석할 결과를 해당 열에 표시
Labels in First Row : 첫번째 행은 데이터의 설명 부분이라 체크
음수, 양수에 상관 없이 숫자가 클수록 상관 관계가 큰 편이다.
양수일 경우에는 한 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것
음수일 경우에는 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것
따라서 생존과 관련이 있다고 보여지는 요소는
성별, 배의 등급, 요금이다.
탑승 등급(Pclass)는 숫자가 음수로 나왔기 때문에 그래프가 거꾸로 그려진다.
가격이 높을 수록 등급은 낮아지고
가격이 낮아질 수록 등급은 높아진다!
= 요금을 많이 내면 많이 낼 수록 좌석과의 좌석 등급이 높았다
가설 검증
가설 1: 요금은 생존과 관계가 있을 것이다 (O)
가설 2: 탑승 등급 또한 생존과 상관이 있을 것이다 (O)
결론
요금과 탑승 등급 모두 생존률과 관계가 있다.
요금이 바로 생존에 영향을 미쳤다기보단 요금이 탑승등급을 결정하기 때문에
간접적으로 생존률과 관련되었다고 보는 것이 옳다.
1주차 과제 ) 세계인의 당뇨병 조기 발견 및 치료를 위해 국제 보건 기구는
"당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설을 내렸습니다.
이 가설이 맞는지 확인해보자 !
예제로 받은 그래프를
Analysis toolpak을 이용해 표로 정리하고 차트를 만들었다.~
가설 검증
당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다 (O)
따라서 결론도 동일하다.
<
처음 배우는 거라 속도가 현저히 느리고 아는 것도 많이 없으니 계속 해보는 수 밖에 없다!
너무 생소해서 복습만 엄청 한 것 같다........ 노베이스는 노력이 생명이군
analysis 활용하는 것도 나에겐 난이도가 있었다 허허
처음 들을 때는 이해가 잘 안 됐는데
결론 도출해내고 전체적으로 보니까 구조가 보이는 것 같아서 기분이 좋았다.
경험이 조금씩 쌓이다보면 나중에는 잘할 수 있을 거라고 믿는다
시작은 미약하나 끝은 창대하리라 라는 말 처럼 말이다!
/>
'개발 일지 > 실전 데이터 분석' 카테고리의 다른 글
[개발 일지] 실전 데이터 분석 _ 2주차 (0) | 2023.05.22 |
---|