본문 바로가기

개발 일지/실전 데이터 분석

[개발 일지] 실전 데이터 분석_ 1주차

 

굳이 복잡한 내용을 모두 이해하고 정복하는 것은 중요하지 않다.

왜냐, 실무에서는 이렇게 복잡한 내용까지 필요하지 않기 때문이다!

데이터 분석을 잘 하기 위해서는 반복적으로 해보면서 구조를 흡수하는 것이 중요하다.

 

 

데이터 분석은 "주장에 대한 명백한 근거"를 줄 수 있게 도와주는 도구이다.

 

 

우선, 데이터 분석의 기본 세팅은 

 

1) 문제 정의 및 가설 설정하기

2) 데이터 분석 기본 세팅하기 

3) 데이터 분석하기 

4) 분석 결과 시각화 하기

5) 최종 결론 내리기

 

이렇게 5단계로 진행된다.

이 방법을 활용해서 문제를 풀어보았다.

 

 


 

예제1) 타이타닉 사망자의 비밀 파헤치기

 

가설: 요금과 생존이 관련이 있는가? 관계가 있다면 왜 관계가 있는지 진상을 파악하자

Anlaysis toolpak을 사용해 상관관계 분석

 

* 분석 전 데이터 전처리 꼭 해주도록 하자

 

Analysis toolpak - Correlation 창 내 용어 정리  

Input range : 분석할 시작점과 끝 작성

Output range : 분석할 결과를 해당 열에 표시

Labels in First Row : 첫번째 행은 데이터의 설명 부분이라 체크 

 

 

차트로 정리 (Survived 만 제외하고 삭제한 상태)

음수, 양수에 상관 없이 숫자가 클수록 상관 관계가 큰 편이다. 

양수일 경우에는 한 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것 

음수일 경우에는 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것

 

따라서 생존과 관련이 있다고 보여지는 요소는 

성별, 배의 등급, 요금이다.

 

탑승 등급(Pclass)는 숫자가 음수로 나왔기 때문에 그래프가 거꾸로 그려진다. 

가격이 높을 수록 등급은 낮아지고

가격이 낮아질 수록 등급은 높아진다! 

 

Pclass만 남긴 그래프

= 요금을 많이 내면 많이 낼 수록 좌석과의 좌석 등급이 높았다 

 

가설 검증 

가설 1: 요금은 생존과 관계가 있을 것이다 (O)

가설 2: 탑승 등급 또한 생존과 상관이 있을 것이다 (O)

 

결론 

요금과 탑승 등급 모두 생존률과 관계가 있다. 

요금이 바로 생존에 영향을 미쳤다기보단 요금이 탑승등급을 결정하기 때문에

간접적으로 생존률과 관련되었다고 보는 것이 옳다. 

 


 

1주차 과제 ) 세계인의 당뇨병 조기 발견 및 치료를 위해 국제 보건 기구는 

"당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설을 내렸습니다.

이 가설이 맞는지 확인해보자 !  

 

예제로 받은 그래프를

 

 

Analysis toolpak을 이용해 표로 정리하고 차트를 만들었다.~

 

가설 검증

당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다 (O)

 

따라서 결론도 동일하다.

 


<

처음 배우는 거라 속도가 현저히 느리고 아는 것도 많이 없으니 계속 해보는 수 밖에 없다! 

너무 생소해서 복습만 엄청 한 것 같다........ 노베이스는 노력이 생명이군  

 

analysis 활용하는 것도 나에겐 난이도가 있었다 허허

 

처음 들을 때는 이해가 잘 안 됐는데 

결론 도출해내고 전체적으로 보니까 구조가 보이는 것 같아서 기분이 좋았다.

 

 경험이 조금씩 쌓이다보면 나중에는 잘할 수 있을 거라고 믿는다 

시작은 미약하나 끝은 창대하리라 라는 말 처럼 말이다! 

/>