[혼자공부하는 머신러닝 + 딥러닝] 2_첫 머신러닝

September 12, 2021

1. 마켓과 머신러닝

1. 들어가며

생선분류 문제
- 한빛 마켓에서 팔기 시작한 생선은 ‘도미’,’곤들매기’,’농어’,’강꼬치고기’,’로치’,’빙어’,’송어’이다.
- 이 생선들을 프로그램으로 분류한다고 가정한다.
- 생선 크기가 30cm이상이면 도미로 분류한다.
but 모든 도미가 다 30cm보다 크다고 말할 순 없다.
- 고래나 새우처럼 많은 차이가 있지않다면, 길이로만 고르는 것은 정확성이 매우 낮으며, 신뢰할 수 없다.
- 머신러닝은 정해진 기준이 아닌 알려지지 않은 기준을 찾아서 일을 한다.
- 도미의 기준을 알 수 있도록 여러 도미 데이터를 학습시켜야 한다,

import pandas as pd # 데이터프레임처리를 하는 판다스를 불러옵니다.
import matplotlib.pyplot as plt # 그래프를 그리기 위해 matplotlib을 불러옵니다.
from sklearn.neighbors import KNeighborsClassifier # sklearn의 K최근접 이웃 알고리즘을 불러온다.

# 도미 데이터를 불러온다. 가각 도미들의 길이와 무게를 변수에 담아준다.

bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

### 이진분류 : 머신러닝에서 여러개의 종류 중 하나를 구별해내는 문제를 분류라고 한다. 이번 문제 처럼 도미냐, 도미가 아니냐의 문제는 이진분류라고 한다.

# 해당 데이터를 이용해 산점도를 그리면 아래와 같습니다.
plt.scatter(bream_length, bream_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

output_6_0

생선의 길이가 길어지면 무게도 많이 나간다고 생각해본다면 그래프로 설명이 가능하다. 이를 선형적이다 라고 한다.
도미 하나만으로 분류하기보다는 다른 어종의 데이터를 가지고 분류를 진행해보기 위해 빙어 데이터를 불러온다.

smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

# 빙어 데이터와 도미 데이터를 보두 산점도를 통해 나타내면 다음과 같다.
plt.scatter(bream_length, bream_weight)
plt.scatter(smelt_length, smelt_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

output_9_0

matplotlib을 이용하면, 두가지를 색깔을 임의로 구분해서 나타내준다.
여기서 알 수 있는 점은, 빙어는 도미보다 길이와 무게 모두 작게 나간다는 것이다.
그렇다면 머신러닝 알고리즘 중 K-최근접 이웃 알고리즘을 이용해 도미와 빙어 데이터를 구분해보겠다.

2. K-최근접 이웃 알고리즘 이용

length = bream_length + smelt_length
weight = bream_weight + smelt_weight

각각의 물고기들의 길이와 무게를 더해 하나의 리스트형태로 만들어준다.
사이킷런 패키지를 사용하기 위해서는 리스트가 2차원리스트의 형태로 존재해야 한다. 따라서 각각의 리스트를 이용해 하나의 2차원리스트를 만든다.

fish_data = [[l,w] for l, w in zip(length, weight)]

print(fish_data)

[[25.4, 242.0], [26.3, 290.0], [26.5, 340.0], [29.0, 363.0], [29.0, 430.0], [29.7, 450.0], [29.7, 500.0], [30.0, 390.0], [30.0, 450.0], [30.7, 500.0], [31.0, 475.0], [31.0, 500.0], [31.5, 500.0], [32.0, 340.0], [32.0, 600.0], [32.0, 600.0], [33.0, 700.0], [33.0, 700.0], [33.5, 610.0], [33.5, 650.0], [34.0, 575.0], [34.0, 685.0], [34.5, 620.0], [35.0, 680.0], [35.0, 700.0], [35.0, 725.0], [35.0, 720.0], [36.0, 714.0], [36.0, 850.0], [37.0, 1000.0], [38.5, 920.0], [38.5, 955.0], [39.5, 925.0], [41.0, 975.0], [41.0, 950.0], [9.8, 6.7], [10.5, 7.5], [10.6, 7.0], [11.0, 9.7], [11.2, 9.8], [11.3, 8.7], [11.8, 10.0], [11.8, 9.9], [12.0, 9.8], [12.2, 12.2], [12.4, 13.4], [13.0, 12.2], [14.3, 19.7], [15.0, 19.9]]

fish_data라는 2차원의 리스트가 만들어졌다. 각각 물고기의 길이와 무게가 담겨있다.
어떤 물고기가 도미이고 어떤것이 빙어인지 알도록 훈련하기 위해서는 정답을 알려줘야 한다. 따라서 정답을 담고있는 리스트를 생성하도록 한다. (도미는 1 빙어는 0)

fish_target = [1] * 35 + [0] * 14
print(fish_target)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

앞의 35개의 데이터가 도미이므로 1을 35번 반복해 넣어주고, 뒤의 14개가 빙어이므로 0을 14번 반복해 넣어주어 정답 리스트를 만들어준다.

kn = KNeighborsClassifier()
# 앞에서 불러온 KNeighborsClassifier 클래스의 객체를 생성한다.

kn.fit(fish_data, fish_target)
# 데이터를 삽입해 fit을 이용해 훈련시킨다.

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

kn.score(fish_data, fish_target)
# 훈련된 데이터의 정답률을 살펴보면 1.0이 나온다 이는 당연한데, 문제와 정답을 전부 알려주었기 때문이다. 정확도가 확실하니 임의의 데이터를 넣고, 정답을 잘 찾을 수 있는지 시험해 봐야한다.

1.0

kn.predict([[30, 600]])
# 위의 데이터는 도미로 예측했다. 과연 도미일까? 

array([1])

plt.scatter(bream_length, bream_weight)
plt.scatter(smelt_length, smelt_weight)
plt.scatter(30,600, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()
# 주변 데이터가 전부 도미인것으로 봐서 도미로 추측이 가능하다.

output_22_0

K-최근접 이웃 알고리즘을 사용하기 위해서는 데이터를 모두 가지고 있기만 하면 된다.
새로운 데이터를 예측할때에는 가장 가까운 직선거리상에 어떤 데이터가 있는지 살펴보면 되기 때문이다.
하지만 이는 데이터의 양이 많을때는 사용하기가 어렵다. 왜냐하면 데이터크기가 방대하면 메모리가 많이 필요하고, 직선거리를 계산하는데도 많은 시간을 소모하기 때문이다.
이 클래스에서 _fit_X에는 fish_data를 가지고 있고, -y 속성에는 정답인 fish_target을 가지고 있다. 사실상 훈련이라기보단 데이터를 전부 집어 넣고 근처에 있는 특성을 관찰한뒤 분류하는 것이라 볼 수 있다.
해당 알고리즘이 몇개의 데이터를 고려할 것인가는 직접 정할 수 있다. 하지만 많은 데이터를 고려할때 그 수가 너무 많으면 오히려 정확성이 내려가는 문제가 생기기도 한다.

print(kn._fit_X)

[[  25.4  242. ]
 [  26.3  290. ]
 [  26.5  340. ]
 [  29.   363. ]
 [  29.   430. ]
 [  29.7  450. ]
 [  29.7  500. ]
 [  30.   390. ]
 [  30.   450. ]
 [  30.7  500. ]
 [  31.   475. ]
 [  31.   500. ]
 [  31.5  500. ]
 [  32.   340. ]
 [  32.   600. ]
 [  32.   600. ]
 [  33.   700. ]
 [  33.   700. ]
 [  33.5  610. ]
 [  33.5  650. ]
 [  34.   575. ]
 [  34.   685. ]
 [  34.5  620. ]
 [  35.   680. ]
 [  35.   700. ]
 [  35.   725. ]
 [  35.   720. ]
 [  36.   714. ]
 [  36.   850. ]
 [  37.  1000. ]
 [  38.5  920. ]
 [  38.5  955. ]
 [  39.5  925. ]
 [  41.   975. ]
 [  41.   950. ]
 [   9.8    6.7]
 [  10.5    7.5]
 [  10.6    7. ]
 [  11.     9.7]
 [  11.2    9.8]
 [  11.3    8.7]
 [  11.8   10. ]
 [  11.8    9.9]
 [  12.     9.8]
 [  12.2   12.2]
 [  12.4   13.4]
 [  13.    12.2]
 [  14.3   19.7]
 [  15.    19.9]]

print(kn._y)

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0
 0 0 0 0 0 0 0 0 0 0 0 0]

kn49 = KNeighborsClassifier(n_neighbors=49) # 참고 데이터를 49개 활용했기 때문에 모든 데이터가 다수의 데이터를 따라감

kn49.fit(fish_data, fish_target)
kn49.score(fish_data, fish_target)

0.7142857142857143

print(35/49)

0.7142857142857143

3. 마치며

KNeighborsClassifier 클래스의 fit(), score(), predict()메서드를 사용해보고, K-최근접 이웃 알고리즘의 특징을 알아보는 시간이였다.
이로써 첫 머신러닝 공부의 발을 들였다. 아직까진 흥미롭고 재미있는내용이 가득해서 다음장이 기대가 된다.

Share on

Twitter Facebook LinkedIn

논나

[혼자공부하는 머신러닝 + 딥러닝] 2_첫 머신러닝

1. 마켓과 머신러닝

1. 들어가며

2. K-최근접 이웃 알고리즘 이용

3. 마치며

Share on

Leave a comment

You may also enjoy

[NLP]Word2vec

[NLP]데이터 전처리와 인코딩 그리고 코사인 유사도

[NLP]BoW, tf-idf, Stop-Word, N-gram

[논문 리뷰] Attention is all you need - 1