'분류 전체보기' 카테고리의 글 목록

주말동안 GPT와 협업하여 책 한 권을 뚝딱 집필(?) 해보았다. 내가 지향했던 예제문제의 스타일은 Alan Agresti의 이었다. 나는 4판을 2018년 하반기(석사과정 1학기)에 SPSS를 처음 접하면서 혼자 학습했었는데, 이번에 위키독스 작성을 위해 신판인 6판 원서를 65,000원에 구매했다. 6판은 분석 도구로 R, Python까지 담아내는 업데이트가 있었다. 비록 내가 원했던 깊이까지는 아직 작성하지는 못했고 초안 정도를 완성한 것이다. 나는 통계 책이 아니라 폭넓은 사회과학 데이터를 통해 개념을 익히고자 하는 방향으로 진행했다. 척도와 종류가 다양한 국제/국내 데이터를 활용하는 방법까지 넣고 싶었지만 일부 데이터 소개에 그쳤다는 점이 조금은 아쉽다. 가장 먼저 강사님께 피드백을 받았고,..

개인 프로젝트 한눈에 보기프로젝트명: CGV 영화 리뷰 데이터 기반 관객 반응 초기 분석진행 성격: 공유용 초기 분석 / 파일럿 프로젝트분석 대상: CGV 영화 , 리뷰 데이터크롤링 수집 일자: 2026.03.30 00:18 ~ 2026. 04. 01 10:471차 분석 데이터: 중간 저장 데이터 사용(46,599건)2차 분석 데이터: 5만건 이상 수집, 중복제거 후 최종 clean 데이터 사용(49,010건)현재 목표: (1차) 초기 분석 (2차) BERTopic향후 목표: valence, arousal 분석(1차) 핵심 목표대규모 영화 리뷰 데이터 수집 및 정제리뷰 감성 분포 및 날짜별 반응 변화 분석긍정/부정 리뷰의 핵심 표현 구조 파악Streamlit 기반 초기 결과 공유용 대시보드 구현Stre..

텍스트 데이터는 구조화되어 있지 않기 때문에 분석이 어렵다고 느껴질 수 있다.하지만 적절한 전처리와 벡터화 기법을 활용하면, 단순한 상품명만으로도 충분히 의미 있는 패턴을 발견할 수 있다. 이번 포스팅에서는 수업 중 연습문제로 내주신 상품명을 기반으로 유사한 제품들을 자동으로 묶는 '군집화(clustering)' 과정을 단계별로 정리해보고자 한다. 특히 TF-IDF와 KMeans를 활용하여 제품 카테고리가 어떻게 자연스럽게 분리되는지 확인해본다. 데이터 로드 및 기본 탐색# 먼저 UCI에서 제공하는 상품 데이터를 불러온다. 이 데이터에는 다양한 상품명(Product Title)이 포함되어 있다.import pandas as pddf = pd.read_csv('pricerunner_aggregate.csv..

데이터 다운로드:https://www.kaggle.com/datasets/uciml/human-activity-recognition-with-smartphones Human Activity Recognition with SmartphonesRecordings of 30 study participants performing activities of daily livingwww.kaggle.com 1. 문제 소개: 사용자 행동 인식이란사용자 행동 인식(Human Activity Recognition, HAR)은 스마트폰이나 웨어러블 기기의 센서 데이터를 바탕으로 사람이 어떤 행동을 하고 있는지 분류하는 문제이다. 대표적으로 걷기, 앉기, 서 있기, 계단 오르기, 계단 내려가기, 눕기와 같은 행동을 예측하는 ..

며칠 전, 크롤링을 계속 켜두느라고 아이패드와 아이폰만 가지고 집을 나선 적이 있었다.그래서 처음에는 동기 분들께 노트북을 잠시 빌려야 할 상황에 대해 양해를 구했었지만, 결국 Safari에서 GitHub에 접속하여 파일 업로드에 성공했다. 모바일 깃허브 앱도 있지만, Safari에서 웹에 접속하는 방식이 더 잘 맞았고, 실제로 빈 폴더 생성을 위한 .gitkeep 생성도 이 방식으로 처리했다. (내가 안드로이드 폰으로 확인해본 것은 아니지만) 꼭 아이폰이 아니더라도 모바일 인터넷을 통해 같은 기능을 사용할 수 있으리라 생각한다. Safari로 GitHub 웹에 들어가면 의외로 할 수 있는 것들대표적으로 아래와 같은 것들이 가능하다.README 수정, 간단한 오타 수정, 새 파일 생성, 링크 추가, 폴더..

교차검증, 하이퍼파라미터 튜닝 그리고 비지도학습머신러닝을 처음 공부할 때는 데이터를 나누고, 모델을 만들고, 정확도를 확인하는 과정 자체만으로도 충분히 새롭고 어렵게 느껴진다. 그런데 몇 번 반복하다 보면 비슷한 고민이 생기기 시작한다. "이 모델이 진짜 잘 만든 모델일까?", "이 결과를 그대로 믿어도 될까?" 같은 질문이다. 나 역시 간단한 모델을 만들어보고 정확도를 확인했을 때는 결과가 꽤 괜찮게 나와서 만족했던 적이 있다. 그런데 데이터를 나누는 방식을 조금 바꾸거나, 같은 모델을 다시 돌려보면 결과가 미묘하게 달라지는 것을 보게 된다. 이때부터 "모델을 한 번만 평가하는 것이 과연 충분한가"라는 의문을 가지게 된다. 이런 고민에서 등장하는 개념이 바로 교차검증(cross-validation)이다..

전처리, 스케일링, 특성공학과 성능 평가머신러닝을 처음 공부할 때는 어떤 알고리즘을 사용하는지가 가장 중요해 보였다. k-NN, 선형회귀, 랜덤 포레스트 같은 모델 이름들이 계속 나오다보니, 어떤 모델을 선택하느냐가 성능을 결정한다고 생각하기 쉬웠다. 그런데 공부를 조금 진행해보니 생각보다 다른 부분에서 막히게 된다. 바로 데이터를 다루는 과정이다. 실제로 모델을 적용해보면, 데이터가 깔끔하게 정리되어 있는 경우는 거의 없다. 값이 비어 있기도 하고, 숫자가 아닌 문자열이 섞여 있기도 하고, 변수마다 값의 크기가 크게 다른 경우도 많다. 이런 상태에서는 모델을 제대로 적용하기 어렵다. 그래서 머신러닝에서는 모델 이전 단계인 데이터 전처리 과정이 중요하다는 말을 많이 듣게 된다. 가장 먼저 마주하게 되는..

분류와 회귀부터 과대적합까지 한 번에 이해하기머신러닝을 처음 배우면 다양한 알고리즘 이름이 쏟아진다. K-NN, 선형회귀, 로지스틱 회귀, SVM, 결정트리 등 익숙하지 않은 용어들이 이어지면서 무엇부터 이해해야할지 막막해지기 쉽다. 하지만 이 많은 알고리즘들은 사실 몇 가지 공통된 개념 위에서 움직인다. 그 핵심이 바로 지도학습(Supervised Learning)이다. 지도학습은 말 그대로 정답이 있는 데이터를 가지고 학습하는 방식이다. 데이터 안에 입력값과 함께 정답이 같이 들어 있고, 모델은 이 둘 사이의 관계를 학습한다. 예를 들어 고객 정보가 있고 그 고객이 이탈했는지 여부가 함께 기록되어 있다면, 모델은 "어떤 조건일 때 이탈하는가"라는 패턴을 배우게 된다. 이후 새로운 고객 데이터가 들어오..

티스토리툴바