- 회의 날짜: 2022/07/07 (토)
- 회의 장소: 디스코드
[이번 스터디 공부한 내용]
🦕이의훈
Chapter 4 | 지도 학습과 금융 활용
- 지도 학습 개념: 입력과 타겟 간 최적 관계를 찾는 머신러닝 영역. 회귀(연속값 예측)와 분류(범주 예측)로 구분되며, 금융에서는 회귀 기반 예측 모델이 자산 가치 산정·포트폴리오 관리·파생상품 가격 책정에 널리 활용됨.
- 학습 주제:
- 회귀·분류 모델의 개념과 파이썬 구현(sklearn, keras)
- GridSearchCV 기반 하이퍼파라미터 탐색 및 모델 튜닝
- 과적합 vs 과소적합, 편향-분산 트레이드오프
- 앙상블, 신경망, 딥러닝 모델 활용
- 모델 선택 및 교차 검증 방법
- 4.1.1 선형 회귀 (OLS)
- 최소제곱 기반으로 새로운 y를 예측하는 선형 모델
- Python 예시:
LinearRegression().fit(X,Y)
- GridSearchCV로
fit_intercept
등 하이퍼파라미터 검증 가능
- 장점: 단순·해석 용이
- 단점: 비선형 데이터, 다중공선성, 과적합에 취약
- 4.1.2 로지스틱 회귀
- 분류 문제(이진/다중 클래스)에서 확률 기반 예측 수행
- 시그모이드 함수 사용 → 출력 확률을 특정 임계값으로 분류
- 활용: 신용평가, 이벤트 리스크 분석, 포트폴리오 분류
- 장점: 확률적 해석 용이, 계산 효율성, 계수 해석 가능
- 단점: 선형 관계 가정, 비선형/고차원 데이터에 한계, 다중공선성 취약
정민성
2025 하계 모각코 4주차 | 통계분석·데이터 마이닝
- 통계분석 개요: 기술·추론·탐색·확인 분석을 통해 데이터 구조·패턴 파악, 의사결정·예측·가설 검정 지원. 모집단·표본·척도(명목~비율)에 따른 적절한 기법 활용.
- 기초 통계분석: 평균·중앙값·최빈값 중심 경향, 분산·표준편차·IQR 등 산포도, 정규성·왜도·첨도 확인. 이상치·결측치 탐지·처리, 히스토그램·박스플롯 등 시각화 기법.
- 방법론과 회귀분석: 가설 검정(t·z·χ²·ANOVA), 추정(점·구간), 회귀·분산분석·PCA·시계열 등 활용. OLS 기반 선형·다중 회귀, 가정(선형성·독립성·등분산성·정규성) 점검 및 다중공선성 해결(릿지·라쏘). 응용기법: 다항·더미·정규화·로버스트 회귀.
- 시계열 분석: 추세·계절·순환·불규칙 요소 분해, ARIMA·SARIMA·지수평활·Prophet·LSTM 적용. 정상성 확보, ACF·PACF·AIC/BIC로 모형 진단, 금융·제조·의료·물류 예측에 활용.
- 차원 축소·군집·연관분석: MDS(거리 기반 시각화), PCA(분산 최대 축소·차원 축소), 군집분석(K-means·DBSCAN 등), 연관분석(Apriori·FP-growth)으로 패턴 탐지 및 고객 세분화·이상치 탐지·마케팅 전략 도출.
- 데이터 마이닝·머신러닝 접점: 분류(로지스틱, 결정나무, SVM, 신경망), 앙상블(RandomForest·XGBoost·Stacking), 텍스트 마이닝(NLP 기반 감성·토픽 분석), 사회연결망 분석(SNA: 중심성·커뮤니티·정보확산).
- 실무 포인트: 데이터 전처리·스케일링·정규성·독립성 확인, 과적합 방지(교차검증·정규화), 변수 선택·차원 축소로 해석력·예측력 균형 확보. 금융·마케팅·정책·의료 등 전 분야에 응용 가능.
🐿️ 박수화