일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 파이썬 이미지 처리
- Machine learning
- Shorts
- text summarization
- deep learning
- JSON
- CCP자격증
- 뷰티 광고
- YouTube
- sql eda
- ML
- join
- DFS
- 프로그래머스
- ASAC
- 데이터분석
- selenium
- Python
- 백준
- BFS
- 크롤링
- cnn optuna
- ASAC14일차
- 머신러닝
- 파이썬
- Crawling
- ASAC5기
- EDA
- SQL
- pandas
- Today
- Total
목록Machine learning (5)
낼름낼름 동동이

0. 패키지 + 임포트import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom google.colab import drivedrive.mount('/content/drive')data = pd.read_csv('/content/drive/MyDrive/real_final.csv')1. X, Y 값 분리X_features = data.drop(["viewCount_log", 'viewCount', 'videoId', 'channelId'], axis = 1)y_label = data["viewCount_log"]X_features.info() 결과 2. 데이터 상관관계 체크corrcoef = X_features.corr()plt..
음원 데이터 수집유튜브 영상 ID만 있다면 메타 데이터는 youtube data api를 사용해서 수집 가능하며, 시청각 데이터는 pytube, youtube_DL 패키지와 librosa 패키지를 활용하면 수집하여 전처리도 가능해진다.1. 환경 설치 + Import# !pip install pytube# !pip install pydub # 두가지 활용해보고 youtube-dl이 가장 에러 없이 처리가 되어 이렇게 진행!pip install ffmpeg!pip3 install youtube-dl!pip3 install librosa!pip install matplotlib!pip3 install soundfilexfrom yt_dlp import YoutubeDLimport timeimport panda..
ASAC의 ML 프로젝트를 마무리하고 나서, 마음이 맞는 몇몇 팀원들과 함께 프로젝트를 이어가기로 했다. 이번에는 메타데이터뿐만 아니라 시청각 데이터를 포함하여 조회수를 예측하는 머신러닝 모델을 만들어보려고 했다. 단순히 포트폴리오용이 아닌, 성능을 개선하여 학회에 제출할 수 있을 만큼 발전시키기로 목표를 세웠다.실제로 발표된 논문을 보았을 떄, 유튜브 동영상의 조회수를 예측하는 모델 연구는 활발하게 이루어져 왔으나 2021년 7월 출시된 쇼츠의 조회수를 예측하는 선행 연구는 비교적 부족함에 따라 뷰티 광고 중 유튜브 쇼츠에 특화된 조회수 예측 모델을 만들어보기로 하였다. 내가 맡게 된 역할팀원들과 회의를 통해 데이터 수집 및 전처리에 대한 역할을 분담했다. 데이터를 수집하고 전처리하는 과정은 나눠서 하..

5월 7일의 기록오늘은 드디어 머신러닝 팀프로젝트 주제를 좀 정할 수 있었다. 이번 주말 내내 생각을 했었지만 좀처럼 괜찮은 답을 내리기 어려워서 걱정을 많이 했었는데, 해결 되어 진짜 다행이다.고민하던 걸 글로 써내면서 끝까지 최대한 논리적인 결론을 지어야겠다 생각하면서 최대한 내가 생각하는 괜찮은 아이디어를 바탕으로 팀원들에게 이야기를 했더니 아이디어에 부족한 부분을 보충해줘서 그 덕분에 할 수 있는 것들이 많이 생긴 것 같다.KNNK Nearest-Neighborhood기본 개념: 끼리끼리, 초록은 동색 → 그 사람에 대한 사항을 판단할 때, 그 사람의 친구로 판단하겠다는 일상 개념을 모델링화분류 & 회귀 모두 가능하다.Instance Model: 학습 개념이 아닌 주어진 데이터들의 거리 계산으로 ..

4월 30일의 기록머신 러닝을 하는 이유에 대해서 우선적으로 이해하면서 이론적인 공부를 하니 왜 이렇게 해야하는지, 수학적인 관점에서 왜 이런 계산식을 쓰는지 더 명확해진다. 내가 이해한 흐름대로 최대한 블로그를 쓰면서 제대로 이해했는지 검증해야겠다.목차수, 벡터, 행렬, 텐서(3차원 이상)데이터의 분리Learning이란?Learning : Parameter Estimation모델 평가 방법 수, 벡터, 행렬, 텐서수(Scalar) : 0차원벡터(Vector) : 1차원행렬(Matrix) : 2차원 행렬텐서(Tensor): 3차원 이상의 값머신러닝에서는 기본적으로 2차원의 행렬(Matrix)을 사용하게 된다.1개의 sample data → 여러 개의 측정값 → 여러 개의 값을 모아두는 Vector 표현..