본문 바로가기

Domain Knowledge/Data Analysis8

[9] Time Series Analysis [응용데이터분석] 수업 요약created: 2026-05-21last modified: 2026-05-27이번에는 시계열 데이터 (Time Series Data)를 분석하는 방법을 배운다. 시계열 데이터를 분석하는 방법은 매우 많지만, 여기서는 기본적인 방법들만 제한적으로 다룬다. 0. Time Series DataTime Series Data는 시간에 따라 변화하는 값들의 데이터로, 예를 들어 주식 가격이 있다.시간에 따라 오르내리며,x축이 표시하는 범위가 넓어지면, 작은 변화는 묻히고 큰 변화들만 강조된다.반대로 좁아지면, 짧은 기간에 대한 변화만 강조된다. 1. Components Of Time SeriesTime Series Data의 값들이 변화하는 원인(요소)들은 아래와 같다.- Trend :.. 2026. 5. 21.
[8] Text Analysis [응용데이터분석] 수업 요약created: 2026-05-21last modified: 2026-05-26이번에는 text(문장들)을 분석하는 방법을 배운다. 결론은 비정형적인 text data를 어떻게 model이 이해할 수 있게 정형화시키느냐이다. 요즘은 LLM이 워낙 잘 나와서 알아서 다 이해하긴 하지만, 이건 대충 그 전의 이야기이다. Text Analysis를 하면, 예를 들어 아래와 같은 task를 해 볼 수 있다.- 요약 : 내 상품에 어떤 댓글들이 달렸는지 분석할 수 있다.- 모니터링 : 소셜 미디어의 트렌드/반응/유행 등을 분석해 볼 수 ㅣㅇㅆ다.- 콘텐츠 추천- 스팸 메일/광고를 차단할 수 있다. 1. Text NormalizatinText는 비정형적인 데이터이다. 숫자로 나타내기 어렵.. 2026. 5. 21.
[7] Statistics [응용데이터분석] 수업 요약created: 2026-05-04last modified: 2026-05-013기계학습 이론들을 넘어, 통계에 대해 정리한다. 평균, 분산 등의 내용은 이전 포스팅[2] Data Preprocessing에서 다뤘으므로 건너뛴다. 1. Population / Sample통계 하면 모집단(Population)과 표본(Sample)의 관계를 뺴놓을 수 없다.어떤 통계를 구한다고 할 때, 우리가 모집단을 전부 조사할 수 있는 경우는 매우 드물다. 전체 분포 중 한 개라도 부족하면 그건 표본이니까 말이다. 결과적으로 의문점이 생긴다. 표본은 결국 모집단과 다른데, 표본으로 구한 통계를 얼마나 믿으면 좋을까? 1.1. Standard Errorsample의 수가 많아지면 많아질 수록,.. 2026. 5. 4.
[6] Clustering / Metrics [응용데이터분석] 수업 요약created: 2026-04-13last modified: 2026-04-27Machine Learning을 이미 알고 있다고 가정하고, 간단하게 요점만 cheating cheat 느낌으로 정리한다. [3] Regression, [4] Classification이 Supervised Learning의 두 축이었다면, 이번에는 Unsupervised Learning에 대해 알아볼 것이다.Unsupervised Learning이란, y없이 input X만이 입력으로 주어질 때, X로만 특징을 찾는 방법이다. 먼저 Clustering이다.1. ClusteringClusteing은 X가 주어질 때, X의 feature space에서 가까운 것들끼리 묶어서 cluster를 만드는 것을.. 2026. 4. 13.
[5] Parameter Tuning / Ensemble [응용데이터분석] 수업 요약created: 2026-04-13last modified: 2026-04-13Machine Learning을 이미 알고 있다고 가정하고, 간단하게 요점만 cheating cheat 느낌으로 정리한다. 지난 글에서는 [3] Regression, [4] Classification을 배웠다.이 둘은 모두 X를 통해 y를 예측하지만,target y가 continouous한지, discrete한지에 대한 차이가 있었다. 여기서 둘 모두에- Parameter Tuning- 적용할 수 있는 기법 : Ensemble에 대해 정리한다. 1. Hyperparameter Tuningmodel에는 다양한 hyperparameter들이 있다.이것들에는 뭘로 써야 한다는 정해진 정답이 없으므로,알아.. 2026. 4. 13.
[4] Classification / Metrics [응용데이터분석] 수업 요약created: 2026-03-18last modified: 2026-04-16Machine Learning을 이미 알고 있다고 가정하고, 간단하게 요점만 cheating cheat 느낌으로 정리한다. 지난 글에서는 Regression에 대해 알아봤다. 이번 글에서는 비슷한 Classification에 대해 알아본다. 1. Classification (분류)Classification은 Regression과 비슷하게 X를 이용하여 y를 예측한다.다른 점이 있다면, Regression은 수치형 y(Continuous)를 예측한다면, Classifiacation은 분류형 y(discrete)를 예측한다. 분류 항목들을 class라고 한다.class 1, class 2, ... 1.1.. 2026. 3. 30.