01 시계열 데이터란?
- 행과 행에 시간의 순서가 있는 데이터
- 행과 행의 시간간격이 동일한 데이터
- Time Series. 즉, Sequential Data라고도 한다.
02 DataFrame 날짜 만들기
날짜형식으로 변환 : to_datetime
pd.to_datetime( 시리즈, format = '날짜 형식' )
날짜 요소 뽑기 : .dt.
시리즈.dt.date # YYYY-MM-DD(문자)
시리즈.dt.year # 연(4자리숫자)
시리즈.dt.month # 월(숫자)
시리즈.dt.month_name( ) # 월(문자)
시리즈.dt.day # 일(숫자)
시리즈.dt.time # HH:MM:SS(문자)
시리즈.dt.hour # 시(숫자)
시리즈.dt.minute # 분(숫자)
시리즈.dt.second # 초(숫자)
시리즈.dt.quarter # 분기(숫자)
시리즈.dt.day_name( ) # 요일 이름(문자)
시리즈.dt.dayofweek # 요일숫자(0-월, 1-화)
시리즈.dt.week # 연 기준 몇주째(숫자)
시리즈.dt.dayofyear # 연 기준 몇일째(숫자)
시리즈.dt.days_in_month # 월 일수(숫자) = daysinmonth
03 시계열 데이터에 유용한 메소드
Time Lag : shift()
데이터프레임[ '생성할 컬럼명' ] = 데이터프레임[ '기준 컬럼' ].shift( 시간 )
- 시계열 데이터에서 시간의 흐름 전후로 정보를 이동시킬 때 사용한다.
- 이전 값을 옆에 붙이는 것으로 이해하면 된다.
Moving Average : rolling.mean()
데이터프레임[ '생성할 컬럼명' ] = 데이터프레임[ '기준 컬럼' ].rolling( 시간, min_periods=숫자 ).mean()
- 시간의 흐름에 따라 일정 기간 동안 평균을 이동하면서 구한다.
- 이동 평균을 구하는 것으로 이해하면 된다.
min_period = n
최소 n개의 데이터가 있으면 연산해서 결과값을 보여달라는 뜻이다.
차분 : diff()
데이터프레임[ '생성할 컬럼명' ] = 데이터프레임[ '기준 컬럼' ].diff( 숫자 )
- 특정 시점 데이터, 이전시점 데이터와의 차이를 구한다.
'데이터 사이언스 > 데이터 분석·전처리' 카테고리의 다른 글
[Python] matplotlib, seaborn을 이용한 단변량 분석 (0) | 2023.02.11 |
---|---|
[데이터 분석 방법론] CRISP-DM 프로세스 (0) | 2023.02.10 |
[Python] Pandas DataFrame 사용법 정리 2 - 변경, 결합 (0) | 2023.02.07 |
[Python] Pandas DataFrame 사용법 정리 1 - 생성, 정보 확인, 정렬, 조회, 집계 (0) | 2023.02.07 |
[Python] Numpy 기초 정리 (0) | 2023.02.07 |