데이터 리터러시를 위한 발자취

[부트캠프] 데이터분석 학습일지 2주차 본문

부트캠프/[패스트캠퍼스] 데이터분석 9기

[부트캠프] 데이터분석 학습일지 2주차

wosole 2023. 6. 30. 11:55

데이터분석 부트캠프 학습일지 2주차입니다.
 
지난주와 동일하게 이번주도 3가지 세션을 중심으로 이뤄졌습니다.

 # 부트캠프 2주차
1. 실무 엑셀 데이터 분석
2. 데이터 분석을 위한 기초 수학/통계
3. 데이터 분석을 위한 Python

1. 실무 엑셀 데이터 분석 (Day 6)

Day 4에서 수강한 온라인 강의 기반 복습 및 실습 위주로 진행되었습니다. 
엑셀로 많은 보고서를 써보진 않았지만 기본 기능들은 얼추 알고 있었기에 실습도 그리 어렵진 않았습니다. 
 
# COUNTIF vs COUNTIFS 함수
- COUNTIF : 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악
- COUNTIFS : 특정 범위에서 2개 이상 조건을 동시에 만족하는 셀의 개수 파악
> COUNTIFS 함수의 경우, 조건이 1개여도 사용 가능하기에 COUNTIFS 함수 사용에 습관 들일 것

# 조건이 1개일 경우
COUNTIFS(조건 찾을 범위,찾는 조건)

# 조건이 2개 이상일 경우
COUNTIFS(조건 찾을 범위1, 찾는 조건1, 조건 찾을 범위2, 찾는 조건2)

# SUMIF vs SUMIFS 함수
- SUMIF : 특정 조건을 만족하는 데이터의 합계 계산
- SUMIFS : 특정 조건 2개 이상을 동시에 만족하는 데이터 합계 계산
※ SUMIF와 SUMIFS 함수 사용식이 서로 상이하기에, SUMIFS 함수 사용에 습관 들일 것 
> SUMIFS 함수도 조건 1개여도 사용 가능함

# SUMIF 함수 (조건 1개)
SUMIF(더할 조건 범위, 조건, 더할 값의 범위)

# SUMIFS 함수 (조건 1개, 2개 이상 모두 가능)
SUMIFS(더할 값의 범위, 더할 조건 범위1, 조건1, 더할 조건 범위2, 조건2)

※ SUMIFS 함수의 경우, 더할 값의 범위를 제일 먼저 지정해야함

[ TIP ] 
* F4 - 서식 또는 색상 변경 수행후 동일하게 적용해줌

한번 서식 지정 후, 다른 셀에도 동일한 서식 지정 원할 시 F4를 누르면 자동 설정됨


2. 데이터 분석을 위한 기초 수학/통계 (Day 7~9)

[Day 7]
지난주 진행된 기초 수학/통계의 온라인 강의 나머지 부분을 수강하는 날이었습니다.
아쉬운 점이 있다면 개념 전달 위주의 강의로 느껴져서 책이나 유튜브에 있는 내용과 크게 다르지 않은 것 같았습니다. 
 
# 기초통계량

  • 중심경향성 : 데이터 분포의 중심을 보여주는 값
    • 최빈값(mode) : 가장 빈번하게 나타나는 값 | 범주형 자료에서 대표값으로 사용
    • 중앙값(median) : 자료를 크기 순으로 나열했을 때 가운데 위치하는 값
                                  순서형 자료의 대표값으로 적합, 이상치에 크게 영향받지 않음
    • 산술평균(mean) : 연속형 자료에 사용, 이상치에 영향을 크게 받을 수 있음
    • 가중평균(weighted mean) : 자료의 중요도에 따라 가중치를 부여한 평균
  • 퍼짐정도 : 자료가 얼마나 흩어져있고 얼마나 모여있는지
  • 왜도 : 분포의 좌우 비대칭성 정도
  • 첨도 : 분포의 뾰족한 정도

[Day 8~9]

온라인 강의로만 진행되던 기초 수학/통계를 이틀 동안 실시간 강의로 진행하였습니다. 
 
# 통계학 이해하기
1) 개념 : 모집단으로부터 표본의 특성을 파악하고, 모집단 특성에 대해 추론하는 원리와 방법을 배우는 학문
2) 목적 : 실무자의 주관적인 감이나 추측에 의한 의사결정보다 자료에 근거한 합리적 의사결정을 목표로 함
3) 분류 : 기술통계학, 추론통계학
- 기술통계학 : 요약통계량, 그래프, 표 등을 이용해 데이터를 정리 및 요약하여 데이터의 전반적인 특성 파악하는 방법
- 추론통계학 : 모집단으로부터 추출된 표본 기반 모집단의 특성을 파악하는 방법(점 추정, 구간 추정 등 가설 검정함)
 
# 기초 통계 상식
- 가설검정 : 모집단에 대한 가설 설정, 표본 관찰 기반 가설 채택 또는 기각 결정 내리는 것
- 가설의 종류 : 귀무가설, 대립가설

  • 귀무가설(H0) : 기존에 알려진 사실을 간단하고 구체적으로 표현한 가설
  • 대립가설(H1) : 연구자가 사실임을 입증하고자 하는 가설

- 1종 오류 및 2종 오류

  • 1종 오류 : 귀무가설(H0)이 옳은데도 귀무가설을 기각하게 되는 오류
  • 2종 오류 : 귀무가설(H0)이 옳지 않은데도 귀무가설을 채택하게 되는 오류

- 유의확률(P-value)
: 귀무가설(H0)이 맞다는 전제 하, 표본에서 실제 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률
  * 보통 유의확률은 0.05(5%)를 기준으로 하지만, 상황에 따라 0.01(1%) 등으로 다르게 설정될 수 있음
 
# T-test
1) 개념 : 두 개 집단의 평균에 통계적으로 유의미한 차이가 있는지 검정
2) 시행단계 : 변수선택 → F검정 → T-test → 결과해석
* 적합한 T-test 선택을 위해 F검정 수행 필요 
** F검정 : 두 집단의 등분산성(분산이 같은지 여부)을 검정
                  ▷ F검정 결과 기반 각 상황에 맞는 T-test 방법 선정하기 위해 사용

(실습) 서로 다른 데이터의 변수 1,2별 F검정 수행 결과 예시

*** F검정 결과, 등분산 가정 T-test, 이분산성 가정 T-test 수행 결과 예시

 
# 시계열 데이터 분석
1) 개념 : 일정 기간에 대해 시간의 함수로 표현되는 데이터를 의미
2) 목표 : 과거 시계열 데이터 특성 파악 및 미래 데이터 예측
3) 분석 방법 및 종류 : (일변량)정상시계열, 비정상 시계열, (다변량) 정상/비정상 시계열
[일변량 분석]

  • 정상시계열 : 이동평균법, 지수평활법, AR(자기회귀), ARMA(자기회귀 이동평균)
    • 지수평활법 : 현재의 실제값과 예측값을 합산하여 미래 예측 값을 구하는 방법
      엑셀 내 FORECAST.ETS 함수를 이용하여 지수평활법 계산 가능함
  • 비정상시계열 : ARIMA, GARCH

[다변량 분석]

  • 정상/비정상 시계열 : VAR, VECM, 다변량 GARCH

3. 데이터 분석을 위한 Python (Day 10)

오늘부터 Python 강의가 시작되었습니다.
저 같은 경우, Python은 재직 당시 써본 적은 있지만 제대로 다뤄본 적이 없어서 기본기가 거의 없다고 봐야했습니다.
 
강의 시작 전, 개별 역량 체크(구글폼) 진단하는 시간을 가졌는데 그에 맞춰 진도를 조절하겠다고 하셔서 좋았습니다.
 
# 진법의 이해
1) 개념 : 0부터 n개의 숫자를 사용해서 수를 표현하는 방법 
2) 종류 : 2진법, 10진법, 16진법

  • 2진법 : 0과 1 두개의 숫자를 사용해서 수를 표현하는 것
  • 10진법 : 0~9까지의 10개의 수를 사용해서 표현하는 것 
  • 16진법 : 0~9의 10개의 수와 A~F가지의 6개의 문자로 표현하는 것
# 16진법 이해하기 
0 1 2 3 4 5 6 7 8 9 + A B C D E F --16진법 구조

# A = 10, B = 11, C = 12, D = 13, E = 14, F = 15

 
# 인터프리터와 컴파일러
컴파일러 : 여러개의 코드를 기계어로 해석
인터프리터 : 한 단계씩 기계어로 해석 (Python 해당)
 
# 문자열(string) : 큰 따옴표("")나 작은 따옴표('') 안에 들어 있는 텍스트 데이터를 의미 
 
# 주석 달기 
- 한 줄 주석 : #
- 여러줄 주석 : ''' ~ ''' (작은 따옴표 3개)
 
# 연산자
- 사칙연산 : +, -, *, /

연산자 기능 연산자
나눗셈 후 소수점 연산자 버리기   //
나눗셈 후 나머지 표시하기 % (자주 활용됨)
거듭제곱 구하기 **
값을 정수로 만들기 int()

 
# 연습문제 START
Python을 연습해보기 위해 정말 기본부터 시작합니다.
Python을 아시는 분들한텐 아주 쉬운 문제겠지만 간단한 문제부터 천천히 다뤄보고 있습니다. 

파이썬 기본기 이해를 위한 연습문제들

연습문제를 진행하는 동안 error 메세지로 애로사항을 겪는 수강생분들이 있었지만,
쉬는시간에도 error 해결을 위해 열정적으로 가르쳐주시는 강사님 덕분에 실습 진행하는데 어려움은 없었던 것 같습니다.
 
남은 Python 강의도 이해하고 넘어갈 수 있도록 계속 검색해보고 연습도 해봐야겠습니다! 

 

(참고) Jupyter notebook 실행 시, 엣지가 아닌 크롬에서 바로 실행하는 방법

 

[Jupyter Notebook] 주피터 노트북 크롬(Chrome)으로 바로 실행하기

이번 포스팅에서는 주피터 노트북(Jupyter Notebook)을 시작할 때 크롬(Chrome) 브라우저에서 바로 실행하는 방법을 소개한다. 주피터 노트북 크롬(Chrome)으로 바로 실행하기 방법은 쉽다. 아래의 2단계

zephyrus1111.tistory.com


최근 ChatGPT로 인해 기술트렌드가 빠르게 변화하고 있습니다만
결국 데이터 분석 목표는 이동훈 강사님 말씀처럼, 아래 문구가 핵심인 것 같습니다.
 

"문제를 해결하고 현재를 개선시킬 수 있는 '인사이트' 도출"

 
엑셀은 4가지 분석 도구 툴 중 난이도가 쉬운 편이라 그런지 약 2주 가량 짧게 수업이 진행되었습니다.
'엑셀 데이터 분석 및 기초 수학/통계' 를 가르쳐주시는 이동훈 강사님이 수업을 쉽고 이해하기 쉽게 잘 전달해주시는 느낌을 받았습니다.
 
다음에 이 분이 강의하시는 다른 강의도 한번 들어보고 싶네요.
 
그리고 Python 강의가 이번주 금요일부터 시작되었습니다-!
Python은 약 3주 가량 미니프로젝트와 함께 진행될 예정인데 이제 조금씩 빡세지지 않을까 싶네요..?
 
뒤쳐지지 않도록 강의내용 놓치지 않도록 열심히 집중해봐야겠습니다-! 

Comments