일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- cnn optuna
- text summarization
- deep learning
- ASAC14일차
- pandas
- 파이썬 이미지 처리
- 머신러닝
- Shorts
- 데이터분석
- 파이썬
- DFS
- CCP자격증
- SQL
- JSON
- 백준
- sql eda
- Machine learning
- EDA
- 크롤링
- 뷰티 광고
- ASAC
- join
- Python
- BFS
- selenium
- 프로그래머스
- ASAC5기
- YouTube
- Crawling
- ML
- Today
- Total
목록전체 글 (46)
낼름낼름 동동이
프로젝트 회고오늘은 딥러닝 프로젝트의 발표날, 어제까지 만들었던 피피티 자료를 오전에도 피드백을 받으며 계속 수정하였다. 열심히는 하였지만 개인적으로는 아쉬웠다. 프로젝트에 할당된 시간을 지켜서 만들지 못하는 나의 한계이지 않았을까? 일을 많이 벌려두고 마무리를 못하는 습관이 보였던 것 같다.이미지와 사운드(사운드 중에서도 음악...) 딥러닝 모델을 2가지를 쓰면서 차별점을 극대화 하고 싶었고 이를 모두 이해하면서 직접 코딩까지 해보면서 환경 세팅 오류 해결 및 디버깅에 시간을 많이 쓰다보니, 정작 이 주제를 가지고 어떤 문제를 해결하려고 해? 하는 부분을 어필하지 못했던 것 같다. 아쉬웠기 때문에 좀 더 시간을 써서 디벨롭시켜야겠다. 4~8주라는 시간을 한번에 들여서 산출물을 한번에 뽑는 것이 아니라 ..

✅Training StageYOLO의 inference동작 원리에 초점이 맞춰져서 설명을 했다면, 이제는 학습이 어떻게 이루어지는지 알아보자.inference 과정에서는 바운딩 박스가 여러 개 등장했지만 학습과정에 참여하는 바운딩 박스는 딱 하나!그 하나의 바운딩박스를 선정하는 과정을 살펴봐야 한다. 특정 객체에 설명할 수 있는 cell을 찾아야 할텐데, 이는 Ground truth(줄여서 GT) 박스의 중심 좌표가 위치하는 셀로 할당한다.위 그림에서는 하늘색 그리드 셀이 강아지를 찾는데 의미를 가지는 셀이 된다. (why? 강아지의 Ground truth 박스의 중앙이 위치하기 때문이다.그럼, 하늘색 셀의 영역에서 두개의 노란색과 남색 박스를 예측했다고 가정하자.(남색 박스와 노란색 박스는 conv l..

6월 20일의 기록어제 좀 늦게 잤더니 바로 늦게 일어나 버렸다… 일찍 잠들자… 루틴을 바꾸면 컨디션이 확 안좋아지니까오늘은 yolo 수업을 좀 들으면서 남은 시간에는 집중해서 딥러닝 프로젝트를 계속 이어서 해야지 YOLOObject Detection의 대표적인 모델이다. 이 이미지를 보면 객체 검출 모델의 발전 과정을 확인해볼 수 있다. 이 중 YOLO는 조셉 레드몬에 의해 2015년 등장하게 되는데, 핵심 컨셉은 real time object detection 즉, 실시간 객체 검출이었다.(yolo의 뜻도 You Only Look Once라는 뜻으로 한 번에 가능하다는 뜻을 내포..) 기존 방식인 2 stage 계열 같은 경우 객체를 검출하는데 시간이 조금 걸린다. 자율주행 자동차와 같은 실시간으로..

6월 19일의 기록요새 항상 늦게오고 자꾸 게을러지는 것 같아서 개인적으로 일찍 오는 계기를 만들고자 아침 스터디를 하기로 하였다. 나는 아침형 인간인지.. 아침에는 집중이 잘된다. 그렇지만 저녁이 가까워질수록 집중도가 급격히 떨어진다.. 중요한 일은 아침에 잘 할수 있도록 노력해야지..! 아침에는 뇌를 깨우기 위해 코딩테스트 문제를 먼저 풀자. 그리고 그날의 할일을 계획하는 시간으로 삼아서 아침부터 보람차게 시작하자. 오늘은 딥러닝 프로젝트를 위주로 공부하면서 학습해나가야겠다. fine-tuning을 하는 다양한 방법에 대해서 찾아보면서 공부를 하고 실제 프로젝트에 적용해봐야지 Transfer Learning (전이 학습)성능이 좋은 딥러닝 모델을 만드는 최고의 방법은 바로 많은 수의 데이터를 확보하..

0. 패키지 + 임포트import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom google.colab import drivedrive.mount('/content/drive')data = pd.read_csv('/content/drive/MyDrive/real_final.csv')1. X, Y 값 분리X_features = data.drop(["viewCount_log", 'viewCount', 'videoId', 'channelId'], axis = 1)y_label = data["viewCount_log"]X_features.info() 결과 2. 데이터 상관관계 체크corrcoef = X_features.corr()plt..
음원 데이터 수집유튜브 영상 ID만 있다면 메타 데이터는 youtube data api를 사용해서 수집 가능하며, 시청각 데이터는 pytube, youtube_DL 패키지와 librosa 패키지를 활용하면 수집하여 전처리도 가능해진다.1. 환경 설치 + Import# !pip install pytube# !pip install pydub # 두가지 활용해보고 youtube-dl이 가장 에러 없이 처리가 되어 이렇게 진행!pip install ffmpeg!pip3 install youtube-dl!pip3 install librosa!pip install matplotlib!pip3 install soundfilexfrom yt_dlp import YoutubeDLimport timeimport panda..
ASAC의 ML 프로젝트를 마무리하고 나서, 마음이 맞는 몇몇 팀원들과 함께 프로젝트를 이어가기로 했다. 이번에는 메타데이터뿐만 아니라 시청각 데이터를 포함하여 조회수를 예측하는 머신러닝 모델을 만들어보려고 했다. 단순히 포트폴리오용이 아닌, 성능을 개선하여 학회에 제출할 수 있을 만큼 발전시키기로 목표를 세웠다.실제로 발표된 논문을 보았을 떄, 유튜브 동영상의 조회수를 예측하는 모델 연구는 활발하게 이루어져 왔으나 2021년 7월 출시된 쇼츠의 조회수를 예측하는 선행 연구는 비교적 부족함에 따라 뷰티 광고 중 유튜브 쇼츠에 특화된 조회수 예측 모델을 만들어보기로 하였다. 내가 맡게 된 역할팀원들과 회의를 통해 데이터 수집 및 전처리에 대한 역할을 분담했다. 데이터를 수집하고 전처리하는 과정은 나눠서 하..

6월 3일의 기록논문 내용을 살펴보고 이해하려고 노력했으나,,, 아직 어렵다. 블로그에 정리하면서 전체 내용은 파악 되었으나, 이제 이걸 활용할 때 더 정확하게 이해하면서 배울 수 있지 않을까? 생각이 든다. ResNet1. Abstract 기존 통념은 네트워크를 깊게 하면 성능이 좋다그러나 해봤더니 오히려 성능이 떨어졌다.이유 → 깊어서 역전파가 잘 올라가지 않아서해결책 : 중간에 skip을 이용해서 단계를 건너뛰면서 진행ResNet의 기본 아이디어를 살펴보면 neural networks가 깊어질수록 성능은 더 좋지만 train이 어렵다는 것은 알려진 사실이다. 그래서 실제 실험을 해봤는데, 깊은 networks에서 오히려 성능이 떨어지는 결과를 보였다.2. Introduction : Residual..