Machine Learning 썸네일형 리스트형 Video에서 Frame (image) 추출하기 다량의 이미지 데이터를 얻기 위해 영상에서 frame단위로 이미지를 추출할 수 있습니다. 공개된 영상 데이터를 사용하는 경우도 있을 것이고, 직접 다각도로 대상을 동영상으로 촬영한 뒤 해당 영상에서 frame을 추출할 수 있습니다. 여러 툴이 있지만 비교적 사용하기 간단한 VLC를 소개해 드리겠습니다. https://www.videolan.org/vlc/download-windows.html Download official VLC media player for Windows - VideoLAN VLC는 DVD, 오디오 CD, VCD 와 다양한 스트리밍 프로토콜뿐 아니라 대부분의 멀티미디어 파일을 재생할 수 있는 무료 오픈 소스 크로스 플랫폼 멀티미디어 재생기이자 프레임워크입니다. VLC는 대부분의 멀티미.. 더보기 Jupyter NoteBook 시작 path 바로가기 설정 (윈도우) Jupyter NoteBook 실행시에 일반적으로 윈도우에서 별도의 설정을 하지않으면 'C:\Users\UserName'이 루트 디렉토리로 마운트되어 실행된다. 프로젝트를 진행할때 매번 해당 경로에서 프로젝트가 있는 경로로 이동하는 것은 번거로움이 따른다. 이러한 불편함을 해소하기 위한 방법은 크게 2가지 있다. 1. 시작 경로 바꾸기 1) 시작 경로를 jupyter notebook --generate-config 명령어를 실행 2) 명령어를 통해 생성된 'C:\Users\UserName\.jupyter\'경로에 jupyter notebook --generate-config.py 파일을 텍스트 편집기로 실행 3) 214번줄로 이동하면 아래와 같은 경로와 관련된 문장이 있다. 4) 주석(#)을 제거하고 따.. 더보기 Unsupervised Learning사례, data preprocessing Unsupervised Learning 이란 알고 있는 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝을 의미한다. 학습 알고리즘은 input만을 통해서 데이터에서 지식을 추출할 수 있어야 한다. 근래의 대표적인 unsupervised learning 분야에 하나로는 GAN있다. Unsupervised Learning의 종류와 도전 과제 앞으로 살펴볼 것은 크게 두 종류의 학습이다. 1. 비지도 변환 Unsupervised Transformation 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 특히 널리 쓰이는 분야로 Dimensionality Reduction이 있는데, 특성 수를 줄이면서 꼭 필요한 특징을 .. 더보기 soft-max함수, numerical instability 확률적인 모델링에 유리한 softmax function단순한 linear classification이나 Neural Network에서 label score로 mapping 하기 위해 사용된다. SVM을 사용할때와 다르게 확률적인 모델링을 하기 때문에 W에 대해서 input x를 PDF로 mapping 하기 위한 parameter로도 해석할 수도 있다.이를 통해, cross entropy loss(data loss)는 MLE, Regularization penalty(regularization loss)는 MAP로도 직관적인 해석이 가능해진다. numerical instability 실제 컴퓨터내부 연산에서 생각해보면, 단순한 Softmax 함수는 numerical instability하다.e의 지수연산을.. 더보기 Categorical 변수 features의 종류 continuous feature categorical feature (discrete feature) 위의 특성은 입력에 대한 정보로, 출력에서 classification과 regression 차이와 유사하다. 대부분의 현실에 존재하는 feature는 categorical feature인 경우가 대부분이다. 가령, 소설책, 과학잡지, 역사책 등의 책 범주에선, 각 범주간에 중간값이 존재 하지 않으며, 순서도 정의 되지 않는다. 하지만, 데이터에서 feature들이 어떤 형태로 구성되었는가 보다 데이터를 어떻게 표현하는가가 머신러닝 모델의 성능에 주는 영향이 매우 크다. 특정 application에 가장 적합한 data representation을 찾는 것을 feature engi.. 더보기 Supervised Learning Models 모델의 undefit한 상태에서 벗어나기위해 학습을 수행한다. 학습과정에서 general 하게 특징을 반영하기위해 overfit은 피해야함. 목적에는 크게 분류와 회귀가 있고, 모델별 장단점과 복잡도 제어(overfit제어)하는 방법을 이해해야한다. 일반적으로 사용되는 machine learning model은 parametric approach로 parameter를 적절하게 학습하게 만들어 사용하는 것이 중요하며, 어떤 알고리즘은 input data의 feature scale에 민감하기도 하다. 따라서, 모델의 장단점과 매개변수의 의미를 이해하지 못하고 데이터셋에 아무 알고리즘이나 무조건 적용하면 좋은 모델이 생성되기에 무리가 따른다. KNN 작은 데이터셋일 때, 기본 모델로서 좋고 설명하기 쉬움 Li.. 더보기 Classification에서의 불확실성 추정 분류 예측의 불확실성 추정 머신러닝에서 불확실성으로 인해 발생되는 문제는 도메인에 따라 심각한 문제를 초래할 수 있다. 가령, 암환자 예측중 false negative(음성 추측했지만 거짓) 혹은 자율주행 과정에서 보도를 도로로 인식하게 되는 경우위 두 사례 모두 최악의 상황을 낳게 한다. 이러한, 불확실성을 사전에 파악하기 위해서, scikit-learn에서 제공하는 API중 classification에 대해 예측의 불확실성을 추정하는 기능이 있다. scikit-learn classification에서 제공하는 함수는 크게 두 개가 있다. decision_function predict_function GradientBoostingClassifier에서 두함수를 적용해 보겠다. Decision Funct.. 더보기 Neural Network (Deep Learning/ MLP) Neural Network (Deep Learning) 딥러닝은 특정 분야에 정교하게 적용되는 경우가 많다. 이 장에선 간단하게 분류와 회귀 모두 가능하며, 딥러닝의 출발점인 Multi layer Perceptrons( MLP )를 다룬다. MLP는 feed-foward Neural Network, 또는 Neural Network으로 불린다. MLP는 여러 단계를 거쳐 결정을 만들어내는 Linear Model의 일반화된 모습이라고 볼 수 있다. 가중치 합을 만드는 과정이 여러 번 반복되며, 먼저 중간 단계를 구성하는 hidden unit을 계산하고 이를 이용하여 최종 결과를 산출하기 위해 다시 가중치의 합을 계산한다. input이 다음 layer로 가면서 또 다른 input을 만들어 내는 end-to-e.. 더보기 이전 1 2 3 다음