Post

[데이터 독학] 0. 백준 골드에서 데이터 분석/ML까지

이 시리즈에서 할 일

한참 파이썬으로 알고리즘 풀이를 할 때 백준 골드정도 까지 풀었었는데, 요즈음 취업 준비를 하며 알고리즘 보다는 프로젝트나 포트폴리오에 집중을 하는사이에 조금 멀어졌다. 한 번 해봤던 경험이 있으니 그 기억을 살려 데이터 분석·머신러닝·시계열 프로젝트 쪽으로 다시 끌어와 보려고 한다.

  • 여러 데이터 분석/데이터 사이언스 로드맵 글과 강의 커리큘럼,
  • 소리님 velog 데이터분석 공부 시리즈 같은 스터디 노트들,
  • 위키독스/ADsP 독학 후기에서 추천하는 무료 자료들

을 참고해서, 나한테 맞는 독학 코스를 직접 짜고 (+ 제미나이, 퍼플렉시티, gpt 한테 각각 물어보고 3개 모두 합격을 줄 만한 코스를 짤 계획이다.) 하나씩 채워 갈 계획이다.

최종 목표는:

  • Python, pandas, SQL, 통계, 전통 ML까지 기본기를 깔고,
  • 반도체·주식 같은 시계열 데이터로 포트폴리오 프로젝트를 만들고,
  • 마지막에는 내가 한 프로젝트를 설명해 주는 간단한 챗봇/LLM까지 붙이는 것.

전체 로드맵 (초안)

Part 01. Python & 알고리즘 리마인드

  • 파이썬 기초 복습: 조건문, 반복문, 입력/출력, 함수, 예외 처리.
  • 자료구조/알고리즘: 리스트, 딕셔너리, 검색/정렬, 간단한 문제 풀이 정리.
  • “백준식 사고방식”이 데이터 분석/ML에서 어디까지 쓰이는지 정리.

Part 02. 데이터 분석 (pandas & EDA)

  • pandas 기초: Series, DataFrame, 인덱싱, groupby, 기초 시각화.
  • 공개데이터/크롤링 데이터로 EDA 리포트 써 보기.
  • 시계열 느낌 나는 데이터(주가·로그·트래픽 등)도 한 번씩 다뤄 본다.

Part 03. 데이터 수집·인프라 (크롤링 + SQL)

  • 웹 크롤링: requests + BeautifulSoup 위주로 간단한 수집 파이프라인 만들기.
  • SQL 기초: SELECT, WHERE, JOIN, GROUP BY, 집계 함수.
  • “분석가 채용공고에서 요구하는 SQL 수준”까지를 목표로 문제 풀어 보기.

Part 04. 통계 + 머신러닝

  • 통계 기초: 분포, 신뢰구간, 가설검정, 회귀를 데이터 분석 관점에서 정리.
  • 전통 ML: train/test 분할, 스케일링, 로지스틱 회귀, RandomForest, XGBoost까지.
  • 간단한 분류/회귀 문제를 하나 정해서 끝까지(전처리→모델→평가) 가져가기.

Part 05. 포트폴리오 프로젝트 (시계열 + 챗봇)

  • 프로젝트 A: 반도체/주식 시계열 예측 모델
    • 윈도우 피처 만들기 → RandomForest/XGBoost → (필요하면 LSTM) 비교.
  • 프로젝트 A 회고:
    • “알고리즘 실력(백준 골드) vs 데이터 분석 실력”이 어떻게 만나는지 정리.
  • 보너스: 간단한 LLM/챗봇으로
    • 프로젝트 요약/질의응답 챗봇 or
    • 데이터 분석 포트폴리오 Q&A 챗봇 만들어 보기.

이 시리즈를 어떻게 쓸지

각 글에서는:

  • 여러 로드맵/블로그/강의에서 공통으로 강조하는 핵심 한두 가지 개념이나 스킬을 뽑고,
  • 직접 돌려 본 코드/실습 스크린샷,
  • 그리고 “이게 포트폴리오나 실제 데이터 직무에서 어떻게 쓰일지”까지 같이 적어볼 예정이다.

중요한 건 “완벽하게 다 아는 것”이 아니라,
반도체/주식 시계열 + ML/챗봇이라는 내 방향에 맞게,
필요한 것들을 꾸준히 채워 가는 과정 그 자체를 기록하는 것이다.

This post is licensed under CC BY 4.0 by the author.