인공지능/머신러닝 & 딥러닝
[데이터 마이닝] 기본
까루카라
2023. 4. 6. 17:03
Numpy: 파이썬을 위한 핵심적 수학 라이브러리
Scipy: numpy 행렬에 기반한 과학 및 공학 루틴 제공
Pandas: 데이터의 저장, 레이블링, 보기, 수정을 위한 관계형 데이터베이스를 제공
Matplotlib: 파이썬의 핵심 시각화 라이브러리
Seaborn: 통계적 시각화 라이브러리. 판다스 데이터 프레임을 입력으로 사용한다.
Statsmodels: 통계적 함수와 테스팅에 대한 라이브러리
Scikit-learn: 파이썬의 핵심 머신 러닝 라이브러리.
핵심 용어
Sample spaces: 측정의 모든 가능한 결과를 커버하는 공간. 샘플 공간 밖의 데이터는 잘못된 연구 결과로 이어질 수 있다.
Variable types(변수의 종류): 종속변수와 독립변수.
- 종속 변수는 독립변수의 영향을 받는 변수이다.
Data Type
- 카테고리/숫자: 질적이고 레이블의 순서가 없다.
- 카테고리/순서: 질적이고 순서가 있다.
- 숫자/이산: 수적이고 유한하거나 셀 수 있다.
- 숫자/연속: 수적이고 특정 구간이거나 실수다.
기본적 요약 통계량
위치: 데이터의 위치 혹은 중심. 평균, 중앙값, 최빈값 등
분포: 얼마나 데이터가 퍼져 있는가. 표준편차나 분산으로 표현
모양: 분포의 중심이 평균과 비교해서 어디에 위치하는지를 의미. 편향성
상관관계: 한 편수가 다른 변수에 얼마나 의존하는가. 피어슨 상관계수