본문 바로가기

ML&DL73

[ML / Code Analysis / scikit-learn] DBSCAN 코드 분석 이전부터 머신러닝을 이해하고 구현하는 능력을 키우고 싶었다. 분석할 때 급한대로 알고리즘의 작동 방식을 슥 읽고 scikit-learn의 api를 찾아서 사용하다보니 항상 뭔가 2% 부족한 것을 느꼈기 때문이다. 하이퍼파라미터는 어떻게 조절해야 성능이 올라갈까? 이 알고리즘이 동작하는데 왜 이렇게 시간이 오래 걸릴까? 논문에 나와있는 theory가 코드로 어떻게 구현이 되어 있을까? 시간을 줄이고 메모리를 효과적으로 사용하기 위해서 어떻게 구현이 되어 있을까? 이런 물음들이 주마등처럼 지나갔지만.. 막상 문제를 해결하는 그 당시에는 바빠서 이를 외면하곤 한다 ㅠ 아무리 scikit-learn api가 개발이 잘 되었다 해도 이를 겉핥기로 사용하면 한계가 있을 수밖에 없고 계속 외면하고 외면한 끝에.. 드.. 2023. 3. 14.
[ML / Time series / paper review] Forecasting time series with complex seasonal patterns using exponential smoothing Motivation 단변량 시계열을 모델링하는 방법을 서베이하고 있다. 가장 쉽게 접근할 수 있는 방법이 ARIMA, Holt-winter's method이고, 이 중 holt 방법을 이전 포스트에서 살펴보았다. 여기에 통계적 가정을 추가하여 prediction interval까지 얻을 수 있는 모형으로 ETS가 있으며 이 또한 이 포스트에서 살펴보았다. 하지만 세상에 시계열의 종류는 정말 다양하고.. 그만큼 복잡한 친구들도 많으니.. 내가 회사에서 다루고 있는 시계열 데이터가 간단한 시계열은 아니었고 이에 맞는 방법을 찾기 시작했다. Why not Holt's method? 모델링하려는 데이터가 air passengers와 같으면 얼마나 좋을까.. 이 데이터는 1) 명확한 주기성이 보이고 2) vari.. 2023. 3. 8.
[ML / Time series] State space models for exponential smoothing Forecasting principles and practice을 참조하여 작성하였다. 요약해보기 state space model이란, exponential smoothing 계열 모형의 통계적 가정을 추가하여 관측된 것(observation)을 통해 관측되지 않은 것(trend, seasonality)을 추정하고자 하는 방법론이다. 총 세가지 부분, error, trend, seasonaltiy로 구성되며 각각은 모형에 additive, multiplicative하게 추가될 수 있다. smoothing parameter가 동일하다면 holt's model과 동일한 결과를 내지만 likelihood 기반으로 추정되기 때문에 point forecast뿐만 아니라 prediction interval도 계산할.. 2023. 3. 7.
[Time series / Evaluation Metric / paper review] Another look at measures of forecast accuracy 논문 링크: https://robjhyndman.com/papers/mase.pdf Motivation 이 논문은 시계열 예측 모형에 있어서 구축한 모형을 평가하기 위한 새로운 지표를 소개한다. 기존에 M-Competition 3차까지 사용하던 지표의 실효성에 대해 의문을 제기하고 여러 상황에서도 유효한 지표에 대해 설명한다. 새로운 지표는 Mean Absolute Scaled Error (MASE)이다. 논문에서는 MASE에 대한 연구 필요성을 보이기 위해 이전에 쓰였던 지표들이 유효하지 않은 상황을 제시한다. 세 데이터에 대해 training data로 모델을 구축하고 test data로 예측값을 만든다. training data는 in-sample, test data는 out-of-sample이라고.. 2023. 1. 10.
[ML / Time series] Exponential Smoothing Forecasting principlaes and practice을 참조하여 작성하였다. 한 줄로 설명해보기 exponential smoothing: 미래 시계열 값을 이전 시계열 값들의 exponential weighted sum으로 표현하는 알고리즘이다. simple exponential smoothing: 트랜드와 계절성이 없는 시계열에 대해, 미래 시점의 모든 시계열을 현재 시점의 추정된 level로 동일하게 예측하는 알고리즘이다. holt's linear trend method: 계절성은 없고 트랜드가 있는 시계열에 대해, 미래 시점의 시계열을 시점이 멀어짐에 따라서 선형적으로 증가하는 형태로 예측하는 알고리즘이다. holt's saeasonal method: 계절성과 트랜드가 모두 있는 시계열.. 2023. 1. 2.
[Time series / Anomaly Detection / survey paper review] ANOMALY DETECTION IN UNIVARIATE TIME-SERIES: ASURVEY ON THE STATE-OF-THE-ART https://arxiv.org/pdf/2004.00433.pdf 서베이 페이퍼에 나온 방법론 통계모형 AR MA ARMA ARIMA SES DES/TES PCI ML K-Means clustering DBSCAN LOF Isolation forest One class support vector machine XGBoost DL MLP CNN Resnet Wavenet LSTM GRU Autoencoder 논문 구성 Basics 시계열 데이터에서 이상치를 탐지하는 것에 대한 개념이 다루어진다. 기초적인 내용을 단단히하는 과정이다. Selected anomaly detection approaches for time series 통계 방법 / ml / dl 카테고리를 대표하는 방법론들을 소개한다. Appr.. 2022. 12. 30.