일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- Crawling
- ML
- 백준
- BFS
- 프로그래머스
- YouTube
- sql eda
- JSON
- 파이썬
- Machine learning
- ASAC5기
- cnn optuna
- DFS
- ASAC
- 뷰티 광고
- deep learning
- EDA
- CCP자격증
- SQL
- ASAC14일차
- 머신러닝
- pandas
- 크롤링
- 데이터분석
- text summarization
- Shorts
- 파이썬 이미지 처리
- join
- Python
- selenium
- Today
- Total
목록ASAC (21)
낼름낼름 동동이
7월 05일의 기록기업 연계 프로젝트를 위해 리뷰 요약을 위해 찾아보던 중, 리뷰 요약과 관련된 모델을 자세하게 설명해둔 Github가 있어서 공부하게 되었다.Intro to Text SummarizationDefinitionBerry, Dumais, & O’Brien (1995)은 텍스트 요약을 다음과 같이 정의한다.Text summarization is the process of distilling the most important information from a text to produce an abridged version for a particular task and user 텍스트 요약이란 주어진 텍스트 중 중요한 정보만 정제해내는 과정이다. 다시 말해, 텍스트 요약이란 원문을 이해하기 쉽고..

TextRank란?문서 집합을 요약하는 방법으로 키워드와 핵심 문장을 선택하는 extractive methods를 이용할 수 있다.TextRank는 word graph나 sentence graph를 구축한 뒤, Graph ranking 알고리즘인 PageRank를 이용하여 키워드와 핵심 문장을 선택한다.Unsupervised approach의 방법으로 텍스트의 도메인 영역, 언어에 구애받지 않고 적용할 수 있는 알고리즘이다.성능 대비 간편하여 키워드 및 핵심 문장 추출에 있어서 공부할 가치가 있는 알고리즘 기본 개념 : 그래프 이론(directed, weighted)TextRank 알고리즘은 Page-rank라는 그래프 기반 랭킹 알고리즘을 텍스트에 적용한 일종의 page-rank 알고리즘의 variat..
7월 3일의 기록오늘은 딥러닝 프로젝트의 회고를 바탕으로 새롭게 개선해야할 기획을 정리해보았다. 내용을 바탕으로 Stable-Diffusion에 대해 학습을 시켜 보았고, 이는 다시 블로그에 정리할 예정이다. 1. 문제점 정의작은 예산(1인 개발자)으로 게임을 개발하는 경우 게임 아트를 만들어줄 전문 인력을 고용할 여력이 없으며, 외주를 맡길 때도 비용이 들어가는데, 이 비용이 높은 부담이 된다.1-1. 서비스 타겟 : 1인 개발자, 게임 스타트업2. 해결방안원하는 상황에 맞는 게임 아트를 즉각적으로 생성해주는 AI가 있다면 외주를 맡기거나 인력을 고용해서 이미지를 만들지 않아도 된다2-1. InputBefore : 게임 스토리 프롬프트After : 필요로 하는 이미지에 대한 설명실제 서비스를 사용할 때..

7월 2일의 기록기업연계 프로젝트로 진행하고 있는 yelp 리뷰 데이터 요약을 위해 데이터 탐색을 진행하였다. 시작 단계에서 헤매긴 했지만, 캐글에서 이전에 사람들이 많이 진행했던 방법이 있어서 이를 참조하면서 내용을 진행해보았다. 목차Yelp란?EDAYelp란?2004년 7월에 설립된 미국의 종합 평점 플랫폼 운영사이다. 미국을 중심으로 식당이나 배달등 로컬 기반의 평점을 비롯한 서비스를 제공하고 있다. (맛집을 찾기에 유용하다) 한국으로 따지면 배민, 네이버 지도, 카카오 맵등의 기능을 종합적으로 제공하는 곳이라고 생각할 수 있다.Yelp에는 맛집을 탐방했던 유저들이 남겨둔 후기들이 많이 모여있는데, 이 데이터가 오픈 되어 있다.EDA0. 라이브러리 및 함수import numpy as npimpor..
프로젝트 회고오늘은 딥러닝 프로젝트의 발표날, 어제까지 만들었던 피피티 자료를 오전에도 피드백을 받으며 계속 수정하였다. 열심히는 하였지만 개인적으로는 아쉬웠다. 프로젝트에 할당된 시간을 지켜서 만들지 못하는 나의 한계이지 않았을까? 일을 많이 벌려두고 마무리를 못하는 습관이 보였던 것 같다.이미지와 사운드(사운드 중에서도 음악...) 딥러닝 모델을 2가지를 쓰면서 차별점을 극대화 하고 싶었고 이를 모두 이해하면서 직접 코딩까지 해보면서 환경 세팅 오류 해결 및 디버깅에 시간을 많이 쓰다보니, 정작 이 주제를 가지고 어떤 문제를 해결하려고 해? 하는 부분을 어필하지 못했던 것 같다. 아쉬웠기 때문에 좀 더 시간을 써서 디벨롭시켜야겠다. 4~8주라는 시간을 한번에 들여서 산출물을 한번에 뽑는 것이 아니라 ..

✅Training StageYOLO의 inference동작 원리에 초점이 맞춰져서 설명을 했다면, 이제는 학습이 어떻게 이루어지는지 알아보자.inference 과정에서는 바운딩 박스가 여러 개 등장했지만 학습과정에 참여하는 바운딩 박스는 딱 하나!그 하나의 바운딩박스를 선정하는 과정을 살펴봐야 한다. 특정 객체에 설명할 수 있는 cell을 찾아야 할텐데, 이는 Ground truth(줄여서 GT) 박스의 중심 좌표가 위치하는 셀로 할당한다.위 그림에서는 하늘색 그리드 셀이 강아지를 찾는데 의미를 가지는 셀이 된다. (why? 강아지의 Ground truth 박스의 중앙이 위치하기 때문이다.그럼, 하늘색 셀의 영역에서 두개의 노란색과 남색 박스를 예측했다고 가정하자.(남색 박스와 노란색 박스는 conv l..

6월 19일의 기록요새 항상 늦게오고 자꾸 게을러지는 것 같아서 개인적으로 일찍 오는 계기를 만들고자 아침 스터디를 하기로 하였다. 나는 아침형 인간인지.. 아침에는 집중이 잘된다. 그렇지만 저녁이 가까워질수록 집중도가 급격히 떨어진다.. 중요한 일은 아침에 잘 할수 있도록 노력해야지..! 아침에는 뇌를 깨우기 위해 코딩테스트 문제를 먼저 풀자. 그리고 그날의 할일을 계획하는 시간으로 삼아서 아침부터 보람차게 시작하자. 오늘은 딥러닝 프로젝트를 위주로 공부하면서 학습해나가야겠다. fine-tuning을 하는 다양한 방법에 대해서 찾아보면서 공부를 하고 실제 프로젝트에 적용해봐야지 Transfer Learning (전이 학습)성능이 좋은 딥러닝 모델을 만드는 최고의 방법은 바로 많은 수의 데이터를 확보하..

5월 29일의 기록어제 저녁에 뷰티 광고 유튜브들의 음성 데이터의 푸리에 변환까지 해두었는데, 이제 변환된 각 특성들이 무엇을 의미하는지, 어떻게 활용해야 할지를 공부해야겠다. 오늘은 CNN과 image의 구조를 배우다보니까 시각적으로 보이는 것 덕분에 이해가 잘되서 기분이 좋다. 목차Fashion_MNIST 데이터셋을 활용한 CNN 구조의 OptunaImage_intro( 이미지의 활용 방법 학습) 1. Fashion_MNIST 데이터셋을 활용한 CNN 구조의 Optuna CNN 구조의 최적화를 자동으로 해주는 Optuna를 활용해보자. Optuna 설치!pip install optuna패키지 import & 데이터셋 불러오기import optunaimport timeimport tensorflow ..