Little bIT awesome

[데이터 마이닝] 기본 본문

인공지능/머신러닝 & 딥러닝

[데이터 마이닝] 기본

까루카라 2023. 4. 6. 17:03

Numpy: 파이썬을 위한 핵심적 수학 라이브러리

Scipy: numpy 행렬에 기반한 과학 및 공학 루틴 제공

Pandas: 데이터의 저장, 레이블링, 보기, 수정을 위한 관계형 데이터베이스를 제공

Matplotlib: 파이썬의 핵심 시각화 라이브러리

Seaborn: 통계적 시각화 라이브러리. 판다스 데이터 프레임을 입력으로 사용한다.

Statsmodels: 통계적 함수와 테스팅에 대한 라이브러리

Scikit-learn: 파이썬의 핵심 머신 러닝 라이브러리.

 

핵심 용어

Sample spaces: 측정의 모든 가능한 결과를 커버하는 공간. 샘플 공간 밖의 데이터는 잘못된 연구 결과로 이어질 수 있다.

Variable types(변수의 종류): 종속변수와 독립변수.

- 종속 변수는 독립변수의 영향을 받는 변수이다.

Data Type

- 카테고리/숫자: 질적이고 레이블의 순서가 없다. 

- 카테고리/순서: 질적이고 순서가 있다. 

- 숫자/이산: 수적이고 유한하거나 셀 수 있다. 

- 숫자/연속: 수적이고 특정 구간이거나 실수다. 

 

기본적 요약 통계량

위치: 데이터의 위치 혹은 중심. 평균, 중앙값, 최빈값 등

분포: 얼마나 데이터가 퍼져 있는가. 표준편차나 분산으로 표현

모양: 분포의 중심이 평균과 비교해서 어디에 위치하는지를 의미. 편향성

상관관계: 한 편수가 다른 변수에 얼마나 의존하는가. 피어슨 상관계수