일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- python
- Machine Learning
- 튜토리얼
- 파이썬
- 해커톤 종류
- numpy.arange
- 파워포인트
- github
- 점곱
- 주피터노트북 실행
- 깃
- 머신 러닝
- 주피터노트북 설치
- 커밋
- powerpoint
- GIT
- 스터디
- 단축키
- 국가 자격 시험
- 서평
- 사이킷런
- 첫 시행 후기
- 머신러닝
- 깃허브
- 데이터 자격 검정
- do it
- numpy
- 젠심
- 공모전
- 베어유
- Today
- Total
목록Data Science (6)
일공이의 IT노트
파이썬을 설치하고 나서 딥 러닝에 바로 도입하고자 한다. 그렇다면 제일 먼저 해야 할 것은 딥 러닝 프레임워크를 구축하는 것이다. 아나콘다를 설치했다면 기본적으로 Numpy, Pandas, Jupyter notebook, scikit-learn, matplotlib, seaborn, nltk 등이 깔려 있을 것이다. 만약 아나콘다를 사용하지 않는다면, 파이썬 가상 환경 설치 포스팅을 참고하여 가상 환경을 만들고 그 위에 패키지들을 pip로 설치하면 된다. 텐서플로우(Tensor flow) 텐서플로우는 구글이 2015년에 공개한 머신 러닝 오픈소스 라이브러리이다. 머신 러닝과 딥 러닝을 직관적이고 손쉽게 할 수 있도록 설계되었다. 텐서플로우를 사용하면 손쉽게 모델 빌드가 가능하고, 사용하는 언어에 상관없이..
분류 문제 출력하는 타깃 클래스가 두 개뿐인 학습 작업을 이진 분류(binary classification)라고 한다. {예, 아니요}, {빨강, 검정}, {진실, 거짓} 같은 타깃을 가진 문제들은 수학적으로 {-1, +1} 혹은 {0, 1}로 표현된다. 세 가지 이상의 타깃 클래스가 있는 문제를 다중 범주(multiclass) 문제라고 한다. 분류 모델 생성 과정 1. 데이터셋 준비 sklearn에 내장된 iris(붓꽃) 데이터셋은 대표적인 간단한 분류 데이터셋이다. 20세기 중반 통계학자인 로널드 피셔 경(Sir Ronald Fisher)이 우리가 현재 '분류'라고 하는 내용을 다룬 초기 학술 논문에 등장하여 가끔 피셔의 iris 데이터셋이라고도 한다. 데이터의 각 행은 붓꽃 하나를 꽃받침과 꽃잎의 ..
평면, 초평면 등 다중 차원을 사용하여 다변량 데이터를 한눈에 살펴볼 수 있다. 함수 f(x, y, z) = x + y + z에서 여러 입력 특성을 조합하는 것처럼 말이다. 이변량 그래프 콘서트를 보러 가는 데에 드는 총 비용이 다음과 같다고 해보자. 위와 같이 콘서트를 보러 가는 데에 고려해야 하는 품목이 두 개가 되면 전체 세 차원 중 입력 특성은 차원 두 개로 표현된다. 만약 티켓 가격과 비어 가격, 주차비가 각각 80, 10, 40으로 정해져 있다면 그래프로 어떻게 표현할 수 있을지 다음과 같이 살펴볼 수 있다. 먼저 데이터를 만든다. import numpy as np number_people = np.arange(1,11) # 사람 수 1-10 number_rbs = np.arange(0,20)..
가중 합(weighted sum) 수학자들이 일반적으로 이야기하는 선형 결합은 마트에서 장을 보는 것을 기술적인 용어로 표현한 것이라고 이해할 수 있다. 제품 수량 단가 와인 2 12.50 오렌지 12 .50 머핀 3 1.75 위의 품목들의 비용을 계산할 때에는 각 품목의 단가를 고려해야 한다. 개별 품목의 단가와 수량을 곱해서 더하면 지불해야 할 총비용이 된다. 이를 가중 합(weighted sum)으로 생각할 수 있다. 1) 기본 파이썬 코드로 가중 합을 구하는 방법 quantity = [2, 12, 3] costs = [12.5, .5, 1.75] sum(q*c for q,c in zip(quantity,costs)) 36.25 2) Numpy 배열에 수량과 비용을 입력하여 연산을 수행하는 방법 q..
우리는 주사위 굴리기, 동전 던지기, 카드 게임 등을 통해 확률 개념을 많이 접한다. 주사위 굴리기와 같은 무작위 사건 사례에서 각 사건의 발생 확률은 1/6로 모두 같다. 이를 수식으로 표현하면, 위와 같이 나타낼 수 있고, 이를 풀어쓰면 "주사위를 굴려 1이 나올 확률은 6분의 1이다."이다. 파이썬에서 NumPy를 이용하여 동일한 가중치를 가진 무작위 사건을 생성하는 방법은 다음과 같다. np.random.randint(1,7) radint는 파이썬의 인덱싱 방식처럼 시작점을 포함하고 마지막 지점을 제외한다. 그래서 1부터 6까지 값을 얻으려면 1에서 시작해서 7로 끝나야 한다. 수학적 용어로는 반개 구간(half-open interval)이라고 한다. 주사위를 10번 굴렸을 때의 각 사건에 대한 ..
머신 러닝의 탄생 1950년대에 IBM에서 일하던 아서 사무엘(Arthur Samuel)이 컴퓨터에게 체스를 두는 일을 시키는 대신에 체스를 두는 방법을 학습하도록 했다는 이야기가 있다. 체스를 두는 방법을 학습하는, 즉 어떤 작업에 필요한 스킬을 학습하는 작업을 '메타(meta) 작업'이라고 하는데 이는 머신 러닝 시스템의 기초가 되는 개념이다. 컴퓨터는 시키는 일을 하고, 우리는 컴퓨터에 능력을 개발하라고 명령할 수 있다. 그러므로 컴퓨터는 학습할 수 있다는 것이다. 계산 학습 시스템(computational learning systems)에는 수많은 종류가 있는데, 이러한 종류를 다루는 학문 분야를 머신 러닝(machine learning)이라고 한다. 예를 들어, 한 번도 보지 못한 미지의 동물 ..