'데이터 사이언스/데이터 분석·전처리' 카테고리의 글 목록

[Scikit-learn] KNN Imputer을 이용한 결측치 보간

2023.03.27

sklearn.impute.KNNImputer Examples using sklearn.impute.KNNImputer: Release Highlights for scikit-learn 0.22 Release Highlights for scikit-learn 0.22 Imputing missing values before building an estimator Imputing missing val... scikit-learn.org KNN Imputer는 scikit-learn 모듈의 일부이다. 각 샘플의 결측치는 train set에서 찾는 n_neighbors개의 가장 가까운 이웃의 평균 값으로 대체된다. 다음은 사용법이다 from sklearn.impute import KNNImputer impute..

데이터 사이언스/데이터 분석·전처리

[Python] matplotlib, seaborn을 이용한 이변량 분석

2023.02.11

01 이변량 분석 개요 +) 라이브러리 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import scipy.stats as spst 02 숫자 → 숫자 숫자와 숫자의 분석을 진행할 시에 집중해야할 내용은 다음과 같다. 얼마나 직선으로 잘 설명할 수 있는가? 얼마나 직선에 점들이 모여있는가? 시각화 : 산점도 # 산점도 그리기 plt.scatter( 데이터프레임['x 컬럼'], 데이터프레임['y 컬럼'] ) plt.scatter( 'x 컬럼', 'y 컬럼', data=데이터프레임 ) sns.scatterplot( x='x 컬럼', y='y 컬럼', data=데이터프레임 ) # ..

데이터 사이언스/데이터 분석·전처리

[Python] matplotlib, seaborn을 이용한 단변량 분석

2023.02.11

01 라이브러리 불러오기 import matplotlib.pyplot as plt import seaborn as sns 02 matplotlib, seaborn 기초 # 차트 그리기 plt.plot( 데이터프레임명['컬럼명'] ) plt.plot( 데이터프레임명['x 컬럼명'], 데이터프레임명['y 컬럼명'] ) # x, y 축 지정 plt.plot( 'x 컬럼명', 'y 컬럼명', data = 데이터프레임명 ) # x, y 축 지정 데이터프레임명.plot( x='x 컬럼명', y='y 컬럼명' ) # x, y 축 지정 # 화면에 보여주기 plt.show() # x축, y축 이름, 타이틀 붙이기 plt.xticks(rotation = 각도) # x축 이름 방향 조정 plt.xlabel('x 컬럼명') ..

데이터 사이언스/데이터 분석·전처리

[데이터 분석 방법론] CRISP-DM 프로세스

2023.02.10

01 Business Understanding 비즈니스 문제 데이터 분석 방향/목표 결정 초기 가설 수립 (x→y) 귀무가설: 기존 연구 결과로 이어져 내려오는 정설 대립가설: 기존 입장을 넘어서기 위한 새로운 연구 가설 (📌 우리가 수립하는 가설) 가설 수립 절차 : 해결해야 할 문제 y를 설명하기 위한 요인 x를 찾아 가설의 구조를 정의한다. (x→y) 02 Data Understanding 데이터 원본 식별 및 취득 데이터 탐색 : EDA, CDA EDA(탐색적 데이터 분석) 개별 데이터의 분포를 통해 가설이 맞는지 파악한다. NA값이나 이상치를 파악한다. e.g.1) 그래프 - Histogram, Box plot, Density plot, Bar plot, Pie chart, Scatter plo..

데이터 사이언스/데이터 분석·전처리

[Python] Pandas 시계열 데이터 다루기 - 날짜, shift, rolling, diff

2023.02.08

01 시계열 데이터란? 행과 행에 시간의 순서가 있는 데이터 행과 행의 시간간격이 동일한 데이터 Time Series. 즉, Sequential Data라고도 한다. 02 DataFrame 날짜 만들기 날짜형식으로 변환 : to_datetime Pandas.to_datetime Doc 날짜 형식관련 Doc pd.to_datetime( 시리즈, format = '날짜 형식' ) 날짜 요소 뽑기 : .dt. 시리즈.dt.date # YYYY-MM-DD(문자) 시리즈.dt.year # 연(4자리숫자) 시리즈.dt.month # 월(숫자) 시리즈.dt.month_name( ) # 월(문자) 시리즈.dt.day # 일(숫자) 시리즈.dt.time # HH:MM:SS(문자) 시리즈.dt.hour # 시(숫자) 시리..

데이터 사이언스/데이터 분석·전처리

[Python] Pandas DataFrame 사용법 정리 2 - 변경, 결합

2023.02.07

Pandas Doc 06 DataFrame 변경 열 이름 변경 : rename 데이터프레임명.rename(columns=딕셔너리, inplace=여부) 데이터프레임명.rename(columns={'기존 컬럼명': '바뀔 컬럼명', ...}, inplace=여부) inplace=True : 원본 데이터를 변경하겠다. inplace=Flase : 원본 데이터는 변경하지 않고 조회하겠다. 열 추가 : 할당하기 데이터프레임명['추가할 컬럼명'] = 추가할 컬럼의 시리즈 없는 컬럼명에 추가할 컬럼의 시리즈를 할당하면 그 열이 추가된다. 하지만 있는 컬럼명에 할당한다면 추가는 되지 않고 변경된다. 맨 뒤 열로 추가된다. 원하는 위치로 열을 추가하려면 insert()메소드를 사용하면 되지만 권장되지 않는다. 열 삭제..

데이터 사이언스/데이터 분석·전처리

[Python] Pandas DataFrame 사용법 정리 1 - 생성, 정보 확인, 정렬, 조회, 집계

2023.02.07

01 라이브러리 불러오기 import pandas as pd 02 DataFrame 생성하기 딕셔너리로 생성하기 pd.DataFrame(딕셔너리명) CSV 파일 / URL로 생성하기 pd.read_csv(파일경로/url) 03 DataFrame 정보 확인과 정렬 정보 확인 메서드 DataFrame 정보 확인에 자주 사용되는 메서드들은 다음과 같다. df.head() 상위데이터 확인 df.tail() 하위 데이터 확인 df.shape 데이터프레임 모양 확인 df.columns 열 이름 확인 df.columns.values 열 이름 np.array 형태로 확인 df.dtypes 열 자료형 확인 df.info() 인덱스, 열 자료형, 값 개수, 데이터 형식 정보 등 확인 df.describe() 기초 통계정보..

데이터 사이언스/데이터 분석·전처리

[Python] Numpy 기초 정리

2023.02.07

01 라이브러리 불러오기 import numpy as np np라는 별칭(alias)으로 numpy를 import한다. 02 넘파이 배열 이해하기 상기 그림에서 axis 0는 분석 단위를 구성한다. 3차원 데이터의 shape가 (2500, 28, 28)이라면 (28, 28) 크기의 2차원 데이터가 2500개가 있는 것으로 해석하면 된다. 03 넘파이 배열 생성 및 변형하기 np.array() np.array(리스트) np.zeros(), np.ones(), np.full(), np.eye(), np.random.random() np.zeros() 0으로 채워진 배열 np.ones() 1로 채워진 배열 np.full() 특정 값으로 채워진 배열 np.eye() 정방향 행렬 np.random.random()..

티스토리툴바