from tensorflow import keras
keras.__version__
'2.4.0'
이 노트북은 케라스 창시자에게 배우는 딥러닝 책의 5장 3절의 코드 예제입니다. 책에는 더 많은 내용과 그림이 있습니다. 이 노트북에는 소스 코드에 관련된 설명만 포함합니다. 이 노트북의 설명은 케라스 버전 2.2.2에 맞추어져 있습니다. 케라스 최신 버전이 릴리스되면 노트북을 다시 테스트하기 때문에 설명과 코드의 결과가 조금 다를 수 있습니다.
작은 이미지 데이터셋에 딥러닝을 적용하는 일반적이고 매우 효과적인 방법은 사전 훈련된 네트워크를 사용하는 것입니다. 사전 훈련된 네트워크는 일반적으로 대규모 이미지 분류 문제를 위해 대량의 데이터셋에서 미리 훈련되어 저장된 네트워크입니다. 원본 데이터셋이 충분히 크고 일반적이라면 사전 훈련된 네트워크에 의해 학습된 특성의 계층 구조는 실제 세상에 대한 일반적인 모델로 효율적인 역할을 할 수 있습니다. 새로운 문제가 원래 작업과 완전히 다른 클래스에 대한 것이더라도 이런 특성은 많은 컴퓨터 비전 문제에 유용합니다. 예를 들어 (대부분 동물이나 생활 용품으로 이루어진) ImageNet 데이터셋에 네트워크를 훈련합니다. 그다음 이 네트워크를 이미지에서 가구 아이템을 식별하는 것 같은 다른 용도로 사용할 수 있습니다. 학습된 특성을 다른 문제에 적용할 수 있는 이런 유연성은 이전의 많은 얕은 학습 방법과 비교했을 때 딥러닝의 핵심 장점입니다. 이런 방식으로 작은 데이터셋을 가진 문제에도 딥러닝이 효율적으로 작동할 수 있습니다.
여기에서는 (1.4백만 개의 레이블된 이미지와 1,000개의 클래스로 이루어진) ImageNet 데이터셋에서 훈련된 대규모 컨브넷을 사용해 보겠습니다. ImageNet 데이터셋은 다양한 종의 강아지와 고양이를 포함해 많은 동물들을 포함하고 있습니다. 그래서 강아지 vs. 고양이 분류 문제에 좋은 성능을 낼 것 같습니다.
캐런 시몬연과 앤드류 지서먼이 2014년에 개발한 VGG16 구조를 사용하겠습니다. VGG16은 간단하고 ImageNet 데이터셋에 널리 사용되는 컨브넷 구조입니다. VGG16은 조금 오래되었고 최고 수준의 성능에는 못미치며 최근의 다른 모델보다는 조금 무겁습니다. 하지만 이 모델의 구조가 이전에 보았던 것과 비슷해서 새로운 개념을 도입하지 않고 이해하기 쉽기 때문에 선택했습니다. 아마 VGG가 처음 보는 모델 애칭일지 모르겠습니다. 이런 이름에는 VGG, ResNet, Inception, Inception-ResNet, Xception 등이 있습니다. 컴퓨터 비전을 위해 딥러닝을 계속 공부하다보면 이런 이름을 자주 만나게 될 것입니다.
사전 훈련된 네트워크를 사용하는 두 가지 방법이 있습니다. 특성 추출과 미세 조정입니다. 이 두 가지를 모두 다루어 보겠습니다. 먼저 특성 추출부터 시작하죠.
특성 추출은 사전에 학습된 네트워크의 표현을 사용해 새로운 샘플에서 흥미로운 특성을 뽑아내는 것입니다. 이런 특성을 사용하여 새로운 분류기를 처음부터 훈련합니다.
앞서 보았듯이 컨브넷은 이미지 분류를 위해 두 부분으로 구성됩니다. 먼저 연속된 합성곱과 풀링 층으로 시작해서 완전 연결 분류기로 끝납니다. 첫 번째 부분을 모델의 합성곱 기반층(convolutional base)이라고 부르겠습니다. 컨브넷의 경우 특성 추출은 사전에 훈련된 네트워크의 합성곱 기반층을 선택해 새로운 데이터를 통과시키고 그 출력으로 새로운 분류기를 훈련합니다.
왜 합성곱 층만 재사용할까요? 완전 연결 분류기도 재사용할 수 있을까요? 일반적으로 권장하지 않습니다. 합성곱 층에 의해 학습된 표현이 더 일반적이어서 재사용 가능하기 때문입니다. 컨브넷의 특성 맵은 사진에 대한 일반적인 컨셉의 존재 여부를 기록한 맵입니다. 그래서 주어진 컴퓨터 비전 문제에 상관없이 유용하게 사용할 수 있습니다. 하지만 분류기에서 학습한 표현은 모델이 훈련된 클래스 집합에 특화되어 있습니다. 분류기는 전체 사진에 어떤 클래스가 존재할 확률에 관한 정보만을 담고 있습니다. 더군다나 완전 연결 층에서 찾은 표현은 더 이상 입력 이미지에 있는 객체의 위치 정보를 가지고 있지 않습니다. 완전 연결 층들은 공간 개념을 제거하지만 합성곱의 특성 맵은 객체의 위치를 고려합니다. 객체의 위치가 중요한 문제라면 완전 연결 층에서 만든 특성은 크게 쓸모가 없습니다.
특정 합성곱 층에서 추출한 표현의 일반성(그리고 재사용성)의 수준은 모델에 있는 층의 깊이에 달려 있습니다. 모델의 하위 층은 (에지, 색깔, 질감 등과 같이) 지역적이고 매우 일반적인 특성 맵을 추출합니다. 반면 상위 층은 ('강아지 눈'이나 '고양이 귀'와 같이) 좀 더 추상적인 개념을 추출합니다. 만약 새로운 데이터셋이 원본 모델이 훈련한 데이터셋과 많이 다르다면 전체 합성곱 기반층을 사용하는 것보다는 모델의 하위 층 몇 개만 특성 추출에 사용하는 것이 좋습니다.
ImageNet의 클래스 집합에는 여러 종류의 강아지와 고양이를 포함하고 있습니다. 이런 경우 원본 모델의 완전 연결 층에 있는 정보를 재사용하는 것이 도움이 될 것 같습니다. 하지만 새로운 문제의 클래스가 원본 모델의 클래스 집합과 겹치지 않는 좀 더 일반적인 경우를 다루기 위해서 여기서는 완전 연결 층을 사용하지 않겠습니다.
ImageNet 데이터셋에 훈련된 VGG16 네트워크의 합성곱 기반층을 사용하여 강아지와 고양이 이미지에서 유용한 특성을 추출해 보겠습니다. 그런 다음 이 특성으로 강아지 vs. 고양이 분류기를 훈련합니다.
VGG16 모델은 케라스에 패키지로 포함되어 있습니다. keras.applications
모듈에서 임포트할 수 있습니다. keras.applications
모듈에서 사용 가능한 이미지 분류 모델은 다음과 같습니다(모두 ImageNet 데이터셋에서 훈련되었습니다):
VGG16 모델을 만들어 보죠:
from tensorflow.keras.applications import VGG16
conv_base = VGG16(weights='imagenet',
include_top=False,
input_shape=(150, 150, 3))
Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5 58892288/58889256 [==============================] - 5s 0us/step
VGG16 함수에 세 개의 매개변수를 전달합니다:
weights
는 모델을 초기화할 가중치 체크포인트를 지정합니다.include_top
은 네트워크의 최상위 완전 연결 분류기를 포함할지 안할지를 지정합니다. 기본값은 ImageNet의 1,000개의 클래스에 대응되는 완전 연결 분류기를 포함합니다. 별도의 (강아지와 고양이 두 개의 클래스를 구분하는) 완전 연결 층을 추가하려고 하므로 이를 포함시키지 않습니다.input_shape
은 네트워크에 주입할 이미지 텐서의 크기입니다. 이 매개변수는 선택사항입니다. 이 값을 지정하지 않으면 네트워크가 어떤 크기의 입력도 처리할 수 있습니다.다음은 VGG16 합성곱 기반층의 자세한 구조입니다. 이 구조는 앞에서 보았던 간단한 컨브넷과 비슷합니다.
conv_base.summary()
Model: "vgg16" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= input_1 (InputLayer) [(None, 150, 150, 3)] 0 _________________________________________________________________ block1_conv1 (Conv2D) (None, 150, 150, 64) 1792 _________________________________________________________________ block1_conv2 (Conv2D) (None, 150, 150, 64) 36928 _________________________________________________________________ block1_pool (MaxPooling2D) (None, 75, 75, 64) 0 _________________________________________________________________ block2_conv1 (Conv2D) (None, 75, 75, 128) 73856 _________________________________________________________________ block2_conv2 (Conv2D) (None, 75, 75, 128) 147584 _________________________________________________________________ block2_pool (MaxPooling2D) (None, 37, 37, 128) 0 _________________________________________________________________ block3_conv1 (Conv2D) (None, 37, 37, 256) 295168 _________________________________________________________________ block3_conv2 (Conv2D) (None, 37, 37, 256) 590080 _________________________________________________________________ block3_conv3 (Conv2D) (None, 37, 37, 256) 590080 _________________________________________________________________ block3_pool (MaxPooling2D) (None, 18, 18, 256) 0 _________________________________________________________________ block4_conv1 (Conv2D) (None, 18, 18, 512) 1180160 _________________________________________________________________ block4_conv2 (Conv2D) (None, 18, 18, 512) 2359808 _________________________________________________________________ block4_conv3 (Conv2D) (None, 18, 18, 512) 2359808 _________________________________________________________________ block4_pool (MaxPooling2D) (None, 9, 9, 512) 0 _________________________________________________________________ block5_conv1 (Conv2D) (None, 9, 9, 512) 2359808 _________________________________________________________________ block5_conv2 (Conv2D) (None, 9, 9, 512) 2359808 _________________________________________________________________ block5_conv3 (Conv2D) (None, 9, 9, 512) 2359808 _________________________________________________________________ block5_pool (MaxPooling2D) (None, 4, 4, 512) 0 ================================================================= Total params: 14,714,688 Trainable params: 14,714,688 Non-trainable params: 0 _________________________________________________________________
최종 특성 맵의 크기는 (4, 4, 512)
입니다. 이 특성 위에 완전 연결 층을 놓을 것입니다.
이 지점에서 두 가지 방식이 가능합니다.
conv_base
) 위에 Dense
층을 쌓아 확장합니다. 그다음 입력 데이터에서 엔드 투 엔드로 전체 모델을 실행합니다. 모델에 노출된 모든 입력 이미지가 매번 합성곱 기반층을 통과하기 때문에 데이터 증식을 사용할 수 있습니다. 하지만 이런 이유로 이 방식은 첫 번째 방식보다 훨씬 비용이 많이 듭니다.두 가지 방식을 모두 다루어 보겠습니다. 첫 번째 방식을 구현하는 코드를 살펴봅니다. conv_base
에 데이터를 주입하고 출력을 기록합니다. 이 출력을 새로운 모델의 입력으로 사용하겠습니다.
먼저 앞서 소개한 ImageDataGenerator
를 사용해 이미지와 레이블을 넘파이 배열로 추출하겠습니다. conv_base
모델의 predict
메서드를 호출하여 이 이미지에서 특성을 추출합니다.
import os
import numpy as np
from tensorflow.keras.preprocessing.image import ImageDataGenerator
base_dir = './datasets/cats_and_dogs_small'
train_dir = os.path.join(base_dir, 'train')
validation_dir = os.path.join(base_dir, 'validation')
test_dir = os.path.join(base_dir, 'test')
datagen = ImageDataGenerator(rescale=1./255)
batch_size = 20
def extract_features(directory, sample_count):
features = np.zeros(shape=(sample_count, 4, 4, 512))
labels = np.zeros(shape=(sample_count))
generator = datagen.flow_from_directory(
directory,
target_size=(150, 150),
batch_size=batch_size,
class_mode='binary')
i = 0
for inputs_batch, labels_batch in generator:
features_batch = conv_base.predict(inputs_batch)
features[i * batch_size : (i + 1) * batch_size] = features_batch
labels[i * batch_size : (i + 1) * batch_size] = labels_batch
i += 1
if i * batch_size >= sample_count:
# 제너레이터는 루프 안에서 무한하게 데이터를 만들어내므로 모든 이미지를 한 번씩 처리하고 나면 중지합니다
break
return features, labels
train_features, train_labels = extract_features(train_dir, 2000)
validation_features, validation_labels = extract_features(validation_dir, 1000)
test_features, test_labels = extract_features(test_dir, 1000)
Found 2000 images belonging to 2 classes. Found 1000 images belonging to 2 classes. Found 1000 images belonging to 2 classes.
추출된 특성의 크기는 (samples, 4, 4, 512)
입니다. 완전 연결 분류기에 주입하기 위해서 먼저 (samples, 8192)
크기로 펼칩니다:
train_features = np.reshape(train_features, (2000, 4 * 4 * 512))
validation_features = np.reshape(validation_features, (1000, 4 * 4 * 512))
test_features = np.reshape(test_features, (1000, 4 * 4 * 512))
그러고 나서 완전 연결 분류기를 정의하고(규제를 위해 드롭아웃을 사용합니다) 저장된 데이터와 레이블을 사용해 훈련합니다:
from tensorflow.keras import models
from tensorflow.keras import layers
from tensorflow.keras import optimizers
model = models.Sequential()
model.add(layers.Dense(256, activation='relu', input_dim=4 * 4 * 512))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer=optimizers.RMSprop(lr=2e-5),
loss='binary_crossentropy',
metrics=['accuracy'])
history = model.fit(train_features, train_labels,
epochs=30,
batch_size=20,
validation_data=(validation_features, validation_labels))
Epoch 1/30 100/100 [==============================] - 1s 7ms/step - loss: 0.6142 - accuracy: 0.6465 - val_loss: 0.4569 - val_accuracy: 0.8320 Epoch 2/30 100/100 [==============================] - 0s 4ms/step - loss: 0.4294 - accuracy: 0.8185 - val_loss: 0.3709 - val_accuracy: 0.8660 Epoch 3/30 100/100 [==============================] - 0s 4ms/step - loss: 0.3608 - accuracy: 0.8425 - val_loss: 0.3313 - val_accuracy: 0.8740 Epoch 4/30 100/100 [==============================] - 0s 4ms/step - loss: 0.3232 - accuracy: 0.8645 - val_loss: 0.3058 - val_accuracy: 0.8860 Epoch 5/30 100/100 [==============================] - 0s 4ms/step - loss: 0.2840 - accuracy: 0.8955 - val_loss: 0.2851 - val_accuracy: 0.8910 Epoch 6/30 100/100 [==============================] - 0s 4ms/step - loss: 0.2546 - accuracy: 0.9020 - val_loss: 0.2764 - val_accuracy: 0.8940 Epoch 7/30 100/100 [==============================] - 0s 4ms/step - loss: 0.2436 - accuracy: 0.9040 - val_loss: 0.2642 - val_accuracy: 0.8980 Epoch 8/30 100/100 [==============================] - 0s 4ms/step - loss: 0.2365 - accuracy: 0.9075 - val_loss: 0.2629 - val_accuracy: 0.9010 Epoch 9/30 100/100 [==============================] - 0s 4ms/step - loss: 0.2188 - accuracy: 0.9190 - val_loss: 0.2525 - val_accuracy: 0.8980 Epoch 10/30 100/100 [==============================] - 0s 4ms/step - loss: 0.2013 - accuracy: 0.9300 - val_loss: 0.2692 - val_accuracy: 0.8850 Epoch 11/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1945 - accuracy: 0.9275 - val_loss: 0.2482 - val_accuracy: 0.9000 Epoch 12/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1901 - accuracy: 0.9265 - val_loss: 0.2433 - val_accuracy: 0.9000 Epoch 13/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1819 - accuracy: 0.9340 - val_loss: 0.2434 - val_accuracy: 0.9010 Epoch 14/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1726 - accuracy: 0.9385 - val_loss: 0.2380 - val_accuracy: 0.9030 Epoch 15/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1620 - accuracy: 0.9435 - val_loss: 0.2490 - val_accuracy: 0.8940 Epoch 16/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1518 - accuracy: 0.9480 - val_loss: 0.2422 - val_accuracy: 0.9000 Epoch 17/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1516 - accuracy: 0.9435 - val_loss: 0.2400 - val_accuracy: 0.9010 Epoch 18/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1410 - accuracy: 0.9515 - val_loss: 0.2352 - val_accuracy: 0.9050 Epoch 19/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1396 - accuracy: 0.9530 - val_loss: 0.2377 - val_accuracy: 0.8970 Epoch 20/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1307 - accuracy: 0.9560 - val_loss: 0.2373 - val_accuracy: 0.9000 Epoch 21/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1277 - accuracy: 0.9550 - val_loss: 0.2439 - val_accuracy: 0.9030 Epoch 22/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1236 - accuracy: 0.9595 - val_loss: 0.2344 - val_accuracy: 0.9070 Epoch 23/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1157 - accuracy: 0.9605 - val_loss: 0.2364 - val_accuracy: 0.9040 Epoch 24/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1102 - accuracy: 0.9665 - val_loss: 0.2355 - val_accuracy: 0.9070 Epoch 25/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1075 - accuracy: 0.9660 - val_loss: 0.2346 - val_accuracy: 0.9090 Epoch 26/30 100/100 [==============================] - 0s 4ms/step - loss: 0.1019 - accuracy: 0.9670 - val_loss: 0.2418 - val_accuracy: 0.9000 Epoch 27/30 100/100 [==============================] - 0s 4ms/step - loss: 0.0989 - accuracy: 0.9700 - val_loss: 0.2376 - val_accuracy: 0.9050 Epoch 28/30 100/100 [==============================] - 0s 4ms/step - loss: 0.0986 - accuracy: 0.9690 - val_loss: 0.2350 - val_accuracy: 0.9080 Epoch 29/30 100/100 [==============================] - 0s 4ms/step - loss: 0.0967 - accuracy: 0.9680 - val_loss: 0.2388 - val_accuracy: 0.9060 Epoch 30/30 100/100 [==============================] - 0s 4ms/step - loss: 0.0876 - accuracy: 0.9725 - val_loss: 0.2428 - val_accuracy: 0.9010
두 개의 Dense
층만 처리하면 되기 때문에 훈련이 매우 빠릅니다. CPU를 사용하더라도 한 에포크에 걸리는 시간이 1초 미만입니다.
훈련 손실과 정확도 곡선을 살펴보죠:
import matplotlib.pyplot as plt
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(len(acc))
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()
약 90%의 검증 정확도에 도달했습니다. 이전 절에서 처음부터 훈련시킨 작은 모델에서 얻은 것보다 훨씬 좋습니다. 하지만 이 그래프는 많은 비율로 드롭아웃을 사용했음에도 불구하고 훈련이 시작하면서 거의 바로 과대적합되고 있다는 것을 보여줍니다. 작은 이미지 데이터셋에서는 과대적합을 막기 위해 필수적인 데이터 증식을 사용하지 않았기 때문입니다.
이제 특성 추출을 위해 두 번째로 언급한 방법을 살펴보겠습니다. 이 방법은 훨씬 느리고 비용이 많이 들지만 훈련하는 동안 데이터 증식 기법을 사용할 수 있습니다. conv_base
모델을 확장하고 입력 데이터를 사용해 엔드 투 엔드로 실행합니다.
이 기법은 연산 비용이 크기 때문에 GPU를 사용할 수 있을 때 시도해야 합니다. CPU에서는 적용하기 매우 힘듭니다. GPU를 사용할 수 없다면 첫 번째 방법을 사용하세요.
모델은 층과 동일하게 작동하므로 층을 추가하듯이 Sequential
모델에 (conv_base
같은) 다른 모델을 추가할 수 있습니다:
from tensorflow.keras import models
from tensorflow.keras import layers
model = models.Sequential()
model.add(conv_base)
model.add(layers.Flatten())
model.add(layers.Dense(256, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
이 모델의 구조는 다음과 같습니다:
model.summary()
Model: "sequential_1" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= vgg16 (Functional) (None, 4, 4, 512) 14714688 _________________________________________________________________ flatten (Flatten) (None, 8192) 0 _________________________________________________________________ dense_2 (Dense) (None, 256) 2097408 _________________________________________________________________ dense_3 (Dense) (None, 1) 257 ================================================================= Total params: 16,812,353 Trainable params: 16,812,353 Non-trainable params: 0 _________________________________________________________________
여기서 볼 수 있듯이 VGG16의 합성곱 기반층은 14,714,688개의 매우 많은 파라미터를 가지고 있습니다. 합성곱 기반층 위에 추가한 분류기는 2백만 개의 파라미터를 가집니다.
모델을 컴파일하고 훈련하기 전에 합성곱 기반층을 동결하는 것이 아주 중요합니다. 하나 이상의 층을 동결한다는 것은 훈련하는 동안 가중치가 업데이트되지 않도록 막는다는 뜻입니다. 이렇게 하지 않으면 합성곱 기반층에 의해 사전에 학습된 표현이 훈련하는 동안 수정될 것입니다. 맨 위의 Dense
층은 랜덤하게 초기화되었기 때문에 매우 큰 가중치 업데이트 값이 네트워크에 전파될 것입니다. 이는 사전에 학습된 표현을 크게 훼손하게 됩니다.
케라스에서는 trainable
속성을 False
로 설정하여 네트워크를 동결할 수 있습니다:
print('conv_base를 동결하기 전 훈련되는 가중치의 수:',
len(model.trainable_weights))
conv_base를 동결하기 전 훈련되는 가중치의 수: 30
conv_base.trainable = False
print('conv_base를 동결한 후 훈련되는 가중치의 수:',
len(model.trainable_weights))
conv_base를 동결한 후 훈련되는 가중치의 수: 4
이렇게 설정하면 추가한 두 개의 Dense
층의 가중치만 훈련될 것입니다. 층마다 두 개씩(가중치 행렬과 편향 벡터) 총 네 개의 텐서가 훈련됩니다. 변경 사항을 적용하려면 먼저 모델을 컴파일해야 합니다. 컴파일 단계 후에 trainable
속성을 변경하면 반드시 모델을 다시 컴파일해야 합니다. 그렇지 않으면 변경 사항이 적용되지 않습니다.
이제 앞의 예제에서 사용했던 데이터 증식을 사용하여 모델 훈련을 시작할 수 있습니다:
from tensorflow.keras.preprocessing.image import ImageDataGenerator
train_datagen = ImageDataGenerator(
rescale=1./255,
rotation_range=20,
width_shift_range=0.1,
height_shift_range=0.1,
shear_range=0.1,
zoom_range=0.1,
horizontal_flip=True,
fill_mode='nearest')
# 검증 데이터는 증식되어서는 안 됩니다!
test_datagen = ImageDataGenerator(rescale=1./255)
train_generator = train_datagen.flow_from_directory(
# 타깃 디렉터리
train_dir,
# 모든 이미지의 크기를 150 × 150로 변경합니다
target_size=(150, 150),
batch_size=20,
# binary_crossentropy 손실을 사용하므로 이진 레이블이 필요합니다
class_mode='binary')
validation_generator = test_datagen.flow_from_directory(
validation_dir,
target_size=(150, 150),
batch_size=20,
class_mode='binary')
model.compile(loss='binary_crossentropy',
optimizer=optimizers.RMSprop(lr=2e-5),
metrics=['accuracy'])
history = model.fit_generator(
train_generator,
steps_per_epoch=100,
epochs=30,
validation_data=validation_generator,
validation_steps=50,
verbose=2)
Found 2000 images belonging to 2 classes. Found 1000 images belonging to 2 classes. WARNING:tensorflow:From <ipython-input-14-56828f86a2e3>:41: Model.fit_generator (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version. Instructions for updating: Please use Model.fit, which supports generators. Epoch 1/30 100/100 - 34s - loss: 0.5426 - accuracy: 0.7385 - val_loss: 0.4112 - val_accuracy: 0.8540 Epoch 2/30 100/100 - 34s - loss: 0.4030 - accuracy: 0.8410 - val_loss: 0.3434 - val_accuracy: 0.8660 Epoch 3/30 100/100 - 34s - loss: 0.3537 - accuracy: 0.8485 - val_loss: 0.3033 - val_accuracy: 0.8840 Epoch 4/30 100/100 - 34s - loss: 0.3222 - accuracy: 0.8635 - val_loss: 0.2841 - val_accuracy: 0.8900 Epoch 5/30 100/100 - 34s - loss: 0.3064 - accuracy: 0.8795 - val_loss: 0.2741 - val_accuracy: 0.8930 Epoch 6/30 100/100 - 34s - loss: 0.2895 - accuracy: 0.8765 - val_loss: 0.2676 - val_accuracy: 0.8920 Epoch 7/30 100/100 - 34s - loss: 0.2748 - accuracy: 0.8890 - val_loss: 0.2581 - val_accuracy: 0.8930 Epoch 8/30 100/100 - 34s - loss: 0.2596 - accuracy: 0.8945 - val_loss: 0.2541 - val_accuracy: 0.9020 Epoch 9/30 100/100 - 34s - loss: 0.2461 - accuracy: 0.9045 - val_loss: 0.2588 - val_accuracy: 0.8820 Epoch 10/30 100/100 - 34s - loss: 0.2485 - accuracy: 0.9030 - val_loss: 0.2443 - val_accuracy: 0.9060 Epoch 11/30 100/100 - 33s - loss: 0.2567 - accuracy: 0.8925 - val_loss: 0.2405 - val_accuracy: 0.9030 Epoch 12/30 100/100 - 34s - loss: 0.2419 - accuracy: 0.8985 - val_loss: 0.2396 - val_accuracy: 0.9080 Epoch 13/30 100/100 - 34s - loss: 0.2337 - accuracy: 0.9125 - val_loss: 0.2364 - val_accuracy: 0.9120 Epoch 14/30 100/100 - 34s - loss: 0.2333 - accuracy: 0.9105 - val_loss: 0.2383 - val_accuracy: 0.9050 Epoch 15/30 100/100 - 33s - loss: 0.2261 - accuracy: 0.9125 - val_loss: 0.2365 - val_accuracy: 0.9100 Epoch 16/30 100/100 - 34s - loss: 0.2205 - accuracy: 0.9110 - val_loss: 0.2451 - val_accuracy: 0.9010 Epoch 17/30 100/100 - 34s - loss: 0.2150 - accuracy: 0.9150 - val_loss: 0.2313 - val_accuracy: 0.9140 Epoch 18/30 100/100 - 34s - loss: 0.2171 - accuracy: 0.9090 - val_loss: 0.2319 - val_accuracy: 0.9150 Epoch 19/30 100/100 - 34s - loss: 0.2025 - accuracy: 0.9210 - val_loss: 0.2365 - val_accuracy: 0.9100 Epoch 20/30 100/100 - 34s - loss: 0.2042 - accuracy: 0.9250 - val_loss: 0.2382 - val_accuracy: 0.9080 Epoch 21/30 100/100 - 34s - loss: 0.2015 - accuracy: 0.9220 - val_loss: 0.2361 - val_accuracy: 0.9100 Epoch 22/30 100/100 - 34s - loss: 0.2034 - accuracy: 0.9160 - val_loss: 0.2363 - val_accuracy: 0.9070 Epoch 23/30 100/100 - 34s - loss: 0.1923 - accuracy: 0.9225 - val_loss: 0.2317 - val_accuracy: 0.9110 Epoch 24/30 100/100 - 34s - loss: 0.1965 - accuracy: 0.9240 - val_loss: 0.2326 - val_accuracy: 0.9130 Epoch 25/30 100/100 - 34s - loss: 0.1972 - accuracy: 0.9160 - val_loss: 0.2380 - val_accuracy: 0.9080 Epoch 26/30 100/100 - 34s - loss: 0.1910 - accuracy: 0.9220 - val_loss: 0.2395 - val_accuracy: 0.9080 Epoch 27/30 100/100 - 34s - loss: 0.1869 - accuracy: 0.9260 - val_loss: 0.2398 - val_accuracy: 0.9090 Epoch 28/30 100/100 - 34s - loss: 0.1825 - accuracy: 0.9360 - val_loss: 0.2380 - val_accuracy: 0.9090 Epoch 29/30 100/100 - 34s - loss: 0.1816 - accuracy: 0.9290 - val_loss: 0.2368 - val_accuracy: 0.9090 Epoch 30/30 100/100 - 34s - loss: 0.1864 - accuracy: 0.9260 - val_loss: 0.2360 - val_accuracy: 0.9090
model.save('cats_and_dogs_small_3.h5')
결과 그래프를 다시 그려 봅시다:
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(len(acc))
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()
여기서 볼 수 있듯이 검증 정확도가 이전과 비슷하지만 처음부터 훈련시킨 소규모 컨브넷보다 과대적합이 줄었습니다.
모델을 재사용하는 데 널리 사용되는 또 하나의 기법은 특성 추출을 보완하는 미세 조정입니다. 미세 조정은 특성 추출에 사용했던 동결 모델의 상위 층 몇 개를 동결에서 해제하고 모델에 새로 추가한 층(여기서는 완전 연결 분류기)과 함께 훈련하는 것입니다. 주어진 문제에 조금 더 밀접하게 재사용 모델의 표현을 일부 조정하기 때문에 미세 조정이라고 부릅니다.
앞서 랜덤하게 초기화된 상단 분류기를 훈련하기 위해 VGG16의 합성곱 기반층을 동결해야 한다고 말했습니다. 같은 이유로 맨 위에 있는 분류기가 훈련된 후에 합성곱 기반의 상위 층을 미세 조정할 수 있습니다. 분류기가 미리 훈련되지 않으면 훈련되는 동안 너무 큰 오차 신호가 네트워크에 전파됩니다. 이는 미세 조정될 층들이 사전에 학습한 표현들을 망가뜨리게 될 것입니다. 네트워크를 미세 조정하는 단계는 다음과 같습니다:
처음 세 단계는 특성 추출을 할 때 이미 완료했습니다. 네 번째 단계를 진행해 보죠. conv_base
의 동결을 해제하고 개별 층을 동결하겠습니다.
기억을 되살리기 위해 합성곱 기반층의 구조를 다시 확인해 보겠습니다:
conv_base.summary()
Model: "vgg16" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= input_1 (InputLayer) [(None, 150, 150, 3)] 0 _________________________________________________________________ block1_conv1 (Conv2D) (None, 150, 150, 64) 1792 _________________________________________________________________ block1_conv2 (Conv2D) (None, 150, 150, 64) 36928 _________________________________________________________________ block1_pool (MaxPooling2D) (None, 75, 75, 64) 0 _________________________________________________________________ block2_conv1 (Conv2D) (None, 75, 75, 128) 73856 _________________________________________________________________ block2_conv2 (Conv2D) (None, 75, 75, 128) 147584 _________________________________________________________________ block2_pool (MaxPooling2D) (None, 37, 37, 128) 0 _________________________________________________________________ block3_conv1 (Conv2D) (None, 37, 37, 256) 295168 _________________________________________________________________ block3_conv2 (Conv2D) (None, 37, 37, 256) 590080 _________________________________________________________________ block3_conv3 (Conv2D) (None, 37, 37, 256) 590080 _________________________________________________________________ block3_pool (MaxPooling2D) (None, 18, 18, 256) 0 _________________________________________________________________ block4_conv1 (Conv2D) (None, 18, 18, 512) 1180160 _________________________________________________________________ block4_conv2 (Conv2D) (None, 18, 18, 512) 2359808 _________________________________________________________________ block4_conv3 (Conv2D) (None, 18, 18, 512) 2359808 _________________________________________________________________ block4_pool (MaxPooling2D) (None, 9, 9, 512) 0 _________________________________________________________________ block5_conv1 (Conv2D) (None, 9, 9, 512) 2359808 _________________________________________________________________ block5_conv2 (Conv2D) (None, 9, 9, 512) 2359808 _________________________________________________________________ block5_conv3 (Conv2D) (None, 9, 9, 512) 2359808 _________________________________________________________________ block5_pool (MaxPooling2D) (None, 4, 4, 512) 0 ================================================================= Total params: 14,714,688 Trainable params: 0 Non-trainable params: 14,714,688 _________________________________________________________________
마지막 세 개의 합성곱 층을 미세 조정하겠습니다. 즉, block4_pool
까지 모든 층은 동결되고 block5_conv1
, block5_conv2
, block5_conv3
층은 학습 대상이 됩니다.
왜 더 많은 층을 미세 조정하지 않을까요? 왜 전체 합성곱 기반층을 미세 조정하지 않을까요? 그렇게 할 수도 있지만 다음 사항을 고려해야 합니다:
그러므로 이런 상황에서는 합성곱 기반층에서 최상위 두 세개의 층만 미세 조정하는 것이 좋습니다.
앞선 예제 코드에 이어서 미세 조정을 설정해보죠:
conv_base.trainable = True
set_trainable = False
for layer in conv_base.layers:
if layer.name == 'block5_conv1':
set_trainable = True
if set_trainable:
layer.trainable = True
else:
layer.trainable = False
이제 네트워크의 미세 조정을 시작하겠습니다. 학습률을 낮춘 RMSProp 옵티마이저를 사용합니다. 학습률을 낮추는 이유는 미세 조정하는 세 개의 층에서 학습된 표현을 조금씩 수정하기 위해서입니다. 변경량이 너무 크면 학습된 표현에 나쁜 영향을 끼칠 수 있습니다.
미세 조정을 진행해 보죠:
model.compile(loss='binary_crossentropy',
optimizer=optimizers.RMSprop(lr=1e-5),
metrics=['accuracy'])
history = model.fit_generator(
train_generator,
steps_per_epoch=100,
epochs=100,
validation_data=validation_generator,
validation_steps=50)
Epoch 1/100 100/100 [==============================] - 34s 340ms/step - loss: 0.1891 - accuracy: 0.9240 - val_loss: 0.2237 - val_accuracy: 0.9180 Epoch 2/100 100/100 [==============================] - 34s 338ms/step - loss: 0.1606 - accuracy: 0.9295 - val_loss: 0.2222 - val_accuracy: 0.9180 Epoch 3/100 100/100 [==============================] - 34s 340ms/step - loss: 0.1259 - accuracy: 0.9500 - val_loss: 0.2126 - val_accuracy: 0.9220 Epoch 4/100 100/100 [==============================] - 34s 340ms/step - loss: 0.1106 - accuracy: 0.9530 - val_loss: 0.2192 - val_accuracy: 0.9240 Epoch 5/100 100/100 [==============================] - 34s 341ms/step - loss: 0.1027 - accuracy: 0.9590 - val_loss: 0.2260 - val_accuracy: 0.9220 Epoch 6/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0870 - accuracy: 0.9630 - val_loss: 0.2339 - val_accuracy: 0.9170 Epoch 7/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0889 - accuracy: 0.9675 - val_loss: 0.2190 - val_accuracy: 0.9200 Epoch 8/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0783 - accuracy: 0.9730 - val_loss: 0.2352 - val_accuracy: 0.9220 Epoch 9/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0649 - accuracy: 0.9750 - val_loss: 0.2251 - val_accuracy: 0.9260 Epoch 10/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0623 - accuracy: 0.9755 - val_loss: 0.2377 - val_accuracy: 0.9210 Epoch 11/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0550 - accuracy: 0.9800 - val_loss: 0.2318 - val_accuracy: 0.9220 Epoch 12/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0465 - accuracy: 0.9845 - val_loss: 0.2667 - val_accuracy: 0.9150 Epoch 13/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0490 - accuracy: 0.9815 - val_loss: 0.2312 - val_accuracy: 0.9270 Epoch 14/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0423 - accuracy: 0.9855 - val_loss: 0.2685 - val_accuracy: 0.9120 Epoch 15/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0310 - accuracy: 0.9920 - val_loss: 0.3247 - val_accuracy: 0.9050 Epoch 16/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0350 - accuracy: 0.9885 - val_loss: 0.2716 - val_accuracy: 0.9160 Epoch 17/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0258 - accuracy: 0.9915 - val_loss: 0.2693 - val_accuracy: 0.9240 Epoch 18/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0226 - accuracy: 0.9950 - val_loss: 0.2846 - val_accuracy: 0.9260 Epoch 19/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0244 - accuracy: 0.9925 - val_loss: 0.2373 - val_accuracy: 0.9330 Epoch 20/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0212 - accuracy: 0.9945 - val_loss: 0.2802 - val_accuracy: 0.9190 Epoch 21/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0256 - accuracy: 0.9915 - val_loss: 0.2973 - val_accuracy: 0.9140 Epoch 22/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0194 - accuracy: 0.9955 - val_loss: 0.2374 - val_accuracy: 0.9300 Epoch 23/100 100/100 [==============================] - 34s 337ms/step - loss: 0.0164 - accuracy: 0.9940 - val_loss: 0.2728 - val_accuracy: 0.9280 Epoch 24/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0163 - accuracy: 0.9955 - val_loss: 0.2555 - val_accuracy: 0.9290 Epoch 25/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0134 - accuracy: 0.9950 - val_loss: 0.2876 - val_accuracy: 0.9200 Epoch 26/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0176 - accuracy: 0.9935 - val_loss: 0.3378 - val_accuracy: 0.9190 Epoch 27/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0102 - accuracy: 0.9965 - val_loss: 0.2900 - val_accuracy: 0.9210 Epoch 28/100 100/100 [==============================] - 34s 341ms/step - loss: 0.0100 - accuracy: 0.9965 - val_loss: 0.2984 - val_accuracy: 0.9270 Epoch 29/100 100/100 [==============================] - 34s 342ms/step - loss: 0.0128 - accuracy: 0.9960 - val_loss: 0.3277 - val_accuracy: 0.9220 Epoch 30/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0080 - accuracy: 0.9980 - val_loss: 0.3086 - val_accuracy: 0.9230 Epoch 31/100 100/100 [==============================] - 34s 337ms/step - loss: 0.0147 - accuracy: 0.9940 - val_loss: 0.3221 - val_accuracy: 0.9240 Epoch 32/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0099 - accuracy: 0.9965 - val_loss: 0.3174 - val_accuracy: 0.9230 Epoch 33/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0228 - accuracy: 0.9925 - val_loss: 0.2574 - val_accuracy: 0.9360 Epoch 34/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0126 - accuracy: 0.9955 - val_loss: 0.2893 - val_accuracy: 0.9330 Epoch 35/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0080 - accuracy: 0.9975 - val_loss: 0.2772 - val_accuracy: 0.9310 Epoch 36/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0055 - accuracy: 0.9985 - val_loss: 0.3766 - val_accuracy: 0.9200 Epoch 37/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0089 - accuracy: 0.9975 - val_loss: 0.3087 - val_accuracy: 0.9300 Epoch 38/100 100/100 [==============================] - 34s 341ms/step - loss: 0.0071 - accuracy: 0.9980 - val_loss: 0.3210 - val_accuracy: 0.9280 Epoch 39/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0084 - accuracy: 0.9975 - val_loss: 0.3133 - val_accuracy: 0.9250 Epoch 40/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0076 - accuracy: 0.9980 - val_loss: 0.3840 - val_accuracy: 0.9260 Epoch 41/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0053 - accuracy: 0.9980 - val_loss: 0.3571 - val_accuracy: 0.9330 Epoch 42/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0061 - accuracy: 0.9975 - val_loss: 0.3471 - val_accuracy: 0.9380 Epoch 43/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0109 - accuracy: 0.9970 - val_loss: 0.3115 - val_accuracy: 0.9330 Epoch 44/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0058 - accuracy: 0.9985 - val_loss: 0.3192 - val_accuracy: 0.9360 Epoch 45/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0047 - accuracy: 0.9990 - val_loss: 0.3429 - val_accuracy: 0.9330 Epoch 46/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0090 - accuracy: 0.9970 - val_loss: 0.5894 - val_accuracy: 0.8970 Epoch 47/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0046 - accuracy: 0.9985 - val_loss: 0.3848 - val_accuracy: 0.9290 Epoch 48/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0087 - accuracy: 0.9970 - val_loss: 0.3018 - val_accuracy: 0.9330 Epoch 49/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0041 - accuracy: 0.9985 - val_loss: 0.3127 - val_accuracy: 0.9370 Epoch 50/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0035 - accuracy: 0.9995 - val_loss: 0.3241 - val_accuracy: 0.9420 Epoch 51/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0059 - accuracy: 0.9975 - val_loss: 0.3412 - val_accuracy: 0.9340 Epoch 52/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0053 - accuracy: 0.9985 - val_loss: 0.3240 - val_accuracy: 0.9310 Epoch 53/100 100/100 [==============================] - 34s 337ms/step - loss: 0.0057 - accuracy: 0.9980 - val_loss: 0.3430 - val_accuracy: 0.9290 Epoch 54/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0035 - accuracy: 0.9995 - val_loss: 0.3719 - val_accuracy: 0.9320 Epoch 55/100 100/100 [==============================] - 34s 341ms/step - loss: 0.0030 - accuracy: 0.9990 - val_loss: 0.7676 - val_accuracy: 0.8950 Epoch 56/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0028 - accuracy: 0.9990 - val_loss: 0.3357 - val_accuracy: 0.9370 Epoch 57/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0034 - accuracy: 0.9990 - val_loss: 0.3574 - val_accuracy: 0.9290 Epoch 58/100 100/100 [==============================] - 35s 349ms/step - loss: 0.0033 - accuracy: 0.9990 - val_loss: 0.3456 - val_accuracy: 0.9380 Epoch 59/100 100/100 [==============================] - 34s 337ms/step - loss: 0.0024 - accuracy: 0.9995 - val_loss: 0.3542 - val_accuracy: 0.9320 Epoch 60/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0034 - accuracy: 0.9985 - val_loss: 0.3434 - val_accuracy: 0.9310 Epoch 61/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0035 - accuracy: 0.9985 - val_loss: 0.3497 - val_accuracy: 0.9310 Epoch 62/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0035 - accuracy: 0.9990 - val_loss: 0.3505 - val_accuracy: 0.9380 Epoch 63/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0033 - accuracy: 0.9990 - val_loss: 0.3804 - val_accuracy: 0.9350 Epoch 64/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0083 - accuracy: 0.9980 - val_loss: 0.3674 - val_accuracy: 0.9260 Epoch 65/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0048 - accuracy: 0.9980 - val_loss: 0.3495 - val_accuracy: 0.9320 Epoch 66/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0035 - accuracy: 0.9990 - val_loss: 0.3422 - val_accuracy: 0.9340 Epoch 67/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0023 - accuracy: 0.9990 - val_loss: 0.3449 - val_accuracy: 0.9310 Epoch 68/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0046 - accuracy: 0.9995 - val_loss: 0.9674 - val_accuracy: 0.8830 Epoch 69/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0014 - accuracy: 0.9995 - val_loss: 0.3856 - val_accuracy: 0.9310 Epoch 70/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0090 - accuracy: 0.9975 - val_loss: 0.4152 - val_accuracy: 0.9250 Epoch 71/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0014 - accuracy: 1.0000 - val_loss: 0.3824 - val_accuracy: 0.9340 Epoch 72/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0020 - accuracy: 1.0000 - val_loss: 0.3410 - val_accuracy: 0.9380 Epoch 73/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0026 - accuracy: 0.9990 - val_loss: 0.3914 - val_accuracy: 0.9270 Epoch 74/100 100/100 [==============================] - 34s 341ms/step - loss: 0.0018 - accuracy: 0.9995 - val_loss: 0.3476 - val_accuracy: 0.9400 Epoch 75/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0118 - accuracy: 0.9975 - val_loss: 0.3772 - val_accuracy: 0.9300 Epoch 76/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0027 - accuracy: 0.9990 - val_loss: 0.3663 - val_accuracy: 0.9290 Epoch 77/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0012 - accuracy: 0.9995 - val_loss: 0.3813 - val_accuracy: 0.9330 Epoch 78/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0010 - accuracy: 1.0000 - val_loss: 0.3596 - val_accuracy: 0.9350 Epoch 79/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0040 - accuracy: 0.9990 - val_loss: 0.4450 - val_accuracy: 0.9250 Epoch 80/100 100/100 [==============================] - 34s 341ms/step - loss: 0.0041 - accuracy: 0.9990 - val_loss: 0.4082 - val_accuracy: 0.9300 Epoch 81/100 100/100 [==============================] - 34s 342ms/step - loss: 0.0011 - accuracy: 1.0000 - val_loss: 0.3916 - val_accuracy: 0.9350 Epoch 82/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0038 - accuracy: 0.9990 - val_loss: 0.3423 - val_accuracy: 0.9350 Epoch 83/100 100/100 [==============================] - 34s 338ms/step - loss: 0.0035 - accuracy: 0.9990 - val_loss: 0.5165 - val_accuracy: 0.9140 Epoch 84/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0042 - accuracy: 0.9985 - val_loss: 0.4973 - val_accuracy: 0.9220 Epoch 85/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0011 - accuracy: 0.9995 - val_loss: 0.4146 - val_accuracy: 0.9370 Epoch 86/100 100/100 [==============================] - 34s 336ms/step - loss: 0.0019 - accuracy: 1.0000 - val_loss: 0.4035 - val_accuracy: 0.9330 Epoch 87/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0027 - accuracy: 0.9990 - val_loss: 0.3911 - val_accuracy: 0.9330 Epoch 88/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0016 - accuracy: 0.9995 - val_loss: 0.4136 - val_accuracy: 0.9320 Epoch 89/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0019 - accuracy: 0.9995 - val_loss: 0.3837 - val_accuracy: 0.9340 Epoch 90/100 100/100 [==============================] - 34s 338ms/step - loss: 2.8951e-04 - accuracy: 1.0000 - val_loss: 0.4675 - val_accuracy: 0.9320 Epoch 91/100 100/100 [==============================] - 34s 340ms/step - loss: 0.0025 - accuracy: 0.9990 - val_loss: 0.4114 - val_accuracy: 0.9300 Epoch 92/100 100/100 [==============================] - 34s 339ms/step - loss: 0.0047 - accuracy: 0.9985 - val_loss: 0.4112 - val_accuracy: 0.9320 Epoch 93/100 100/100 [==============================] - 34s 340ms/step - loss: 2.8220e-04 - accuracy: 1.0000 - val_loss: 0.3802 - val_accuracy: 0.9330 Epoch 94/100 100/100 [==============================] - 34s 341ms/step - loss: 5.6367e-04 - accuracy: 1.0000 - val_loss: 0.3934 - val_accuracy: 0.9350 Epoch 95/100 100/100 [==============================] - 34s 339ms/step - loss: 2.0591e-04 - accuracy: 1.0000 - val_loss: 0.4638 - val_accuracy: 0.9270 Epoch 96/100 100/100 [==============================] - 34s 341ms/step - loss: 0.0067 - accuracy: 0.9980 - val_loss: 0.6171 - val_accuracy: 0.9220 Epoch 97/100 100/100 [==============================] - 34s 338ms/step - loss: 9.0054e-04 - accuracy: 0.9995 - val_loss: 0.4406 - val_accuracy: 0.9280 Epoch 98/100 100/100 [==============================] - 34s 337ms/step - loss: 0.0025 - accuracy: 0.9990 - val_loss: 0.4030 - val_accuracy: 0.9330 Epoch 99/100 100/100 [==============================] - 34s 345ms/step - loss: 9.0987e-04 - accuracy: 0.9995 - val_loss: 0.3954 - val_accuracy: 0.9350 Epoch 100/100 100/100 [==============================] - 34s 342ms/step - loss: 0.0039 - accuracy: 0.9985 - val_loss: 0.4722 - val_accuracy: 0.9310
model.save('cats_and_dogs_small_4.h5')
이전과 동일한 코드로 결과 그래프를 그려 보겠습니다:
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(len(acc))
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()
그래프가 불규칙하게 보입니다. 그래프를 보기 쉽게하기 위해 지수 이동 평균으로 정확도와 손실 값을 부드럽게 표현할 수 있습니다. 다음은 지수 이동 평균을 구하기 위한 간단한 함수입니다:
def smooth_curve(points, factor=0.8):
smoothed_points = []
for point in points:
if smoothed_points:
previous = smoothed_points[-1]
smoothed_points.append(previous * factor + point * (1 - factor))
else:
smoothed_points.append(point)
return smoothed_points
plt.plot(epochs,
smooth_curve(acc), 'bo', label='Smoothed training acc')
plt.plot(epochs,
smooth_curve(val_acc), 'b', label='Smoothed validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs,
smooth_curve(loss), 'bo', label='Smoothed training loss')
plt.plot(epochs,
smooth_curve(val_loss), 'b', label='Smoothed validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()
검증 정확도 곡선이 훨씬 깨끗하게 보입니다. 정확도가 확실히 1% 이상 향상되었습니다.
손실 곡선은 실제 어떤 향상을 얻지 못했습니다(사실 악화되었습니다). 손실히 감소되지 않았는데 어떻게 정확도가 안정되거나 향상될 수 있을까요? 답은 간단합니다. 그래프는 개별적인 손실 값의 평균을 그린 것입니다. 하지만 정확도에 영향을 미치는 것은 손실 값의 분포이지 평균이 아닙니다. 정확도는 모델이 예측한 클래스 확률이 어떤 임계값을 넘었는지에 대한 결과이기 때문입니다. 모델이 더 향상더라도 평균 손실에 반영되지 않을 수 있습니다.
이제 마지막으로 테스트 데이터에서 이 모델을 평가하겠습니다:
test_generator = test_datagen.flow_from_directory(
test_dir,
target_size=(150, 150),
batch_size=20,
class_mode='binary')
test_loss, test_acc = model.evaluate_generator(test_generator, steps=50)
print('test acc:', test_acc)
Found 1000 images belonging to 2 classes. WARNING:tensorflow:From <ipython-input-23-19f8443b6c42>:7: Model.evaluate_generator (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version. Instructions for updating: Please use Model.evaluate, which supports generators. test acc: 0.9380000233650208
92%의 테스트 정확도를 얻을 것입니다. 이 데이터셋을 사용한 원래 캐글 경연 대회에서 꽤 높은 순위입니다. 하지만 최신 딥러닝 기법으로 훈련 데이터의 일부분(약 10%)만을 사용해서 이런 결과를 달성했습니다. 20,000개의 샘플에서 훈련하는 것과 2,000개의 샘플에서 훈련하는 것 사이에는 아주 큰 차이점이 있습니다!
다음은 앞의 두 절에 있는 예제로부터 배운 것들입니다.
지금까지 이미지 분류 문제에서 특히 작은 데이터셋을 다루기 위한 좋은 도구들을 배웠습니다.