from tensorflow import keras
keras.__version__

'2.4.0'


from tensorflow.keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)


len(train_data)

8982


len(test_data)

2246


train_data[10]

[1,
 245,
 273,
 207,
 156,
 53,
 74,
 160,
 26,
 14,
 46,
 296,
 26,
 39,
 74,
 2979,
 3554,
 14,
 46,
 4689,
 4329,
 86,
 61,
 3499,
 4795,
 14,
 61,
 451,
 4329,
 17,
 12]


word_index = reuters.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
# 0, 1, 2는 '패딩', '문서 시작', '사전에 없음'을 위한 인덱스이므로 3을 뺍니다
decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])


decoded_newswire

'? ? ? said as a result of its december acquisition of space co it expects earnings per share in 1987 of 1 15 to 1 30 dlrs per share up from 70 cts in 1986 the company said pretax net should rise to nine to 10 mln dlrs from six mln dlrs in 1986 and rental operation revenues to 19 to 22 mln dlrs from 12 5 mln dlrs it said cash flow per share this year should be 2 50 to three dlrs reuter 3'


train_labels[10]

3


import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

# 훈련 데이터 벡터 변환
x_train = vectorize_sequences(train_data)
# 테스트 데이터 벡터 변환
x_test = vectorize_sequences(test_data)


def to_one_hot(labels, dimension=46):
    results = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        results[i, label] = 1.
    return results

# 훈련 레이블 벡터 변환
one_hot_train_labels = to_one_hot(train_labels)
# 테스트 레이블 벡터 변환
one_hot_test_labels = to_one_hot(test_labels)


from tensorflow.keras.utils import to_categorical

one_hot_train_labels = to_categorical(train_labels)
one_hot_test_labels = to_categorical(test_labels)


from tensorflow.keras import models
from tensorflow.keras import layers

model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))


model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])


x_val = x_train[:1000]
partial_x_train = x_train[1000:]

y_val = one_hot_train_labels[:1000]
partial_y_train = one_hot_train_labels[1000:]


history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=20,
                    batch_size=512,
                    validation_data=(x_val, y_val))

Epoch 1/20
16/16 [==============================] - 1s 34ms/step - loss: 2.5481 - accuracy: 0.5302 - val_loss: 1.6585 - val_accuracy: 0.6490
Epoch 2/20
16/16 [==============================] - 0s 15ms/step - loss: 1.3666 - accuracy: 0.7194 - val_loss: 1.2723 - val_accuracy: 0.7240
Epoch 3/20
16/16 [==============================] - 0s 14ms/step - loss: 1.0172 - accuracy: 0.7816 - val_loss: 1.1034 - val_accuracy: 0.7590
Epoch 4/20
16/16 [==============================] - 0s 15ms/step - loss: 0.7948 - accuracy: 0.8326 - val_loss: 1.0390 - val_accuracy: 0.7750
Epoch 5/20
16/16 [==============================] - 0s 15ms/step - loss: 0.6302 - accuracy: 0.8680 - val_loss: 0.9546 - val_accuracy: 0.8000
Epoch 6/20
16/16 [==============================] - 0s 15ms/step - loss: 0.4996 - accuracy: 0.8953 - val_loss: 0.9306 - val_accuracy: 0.8020
Epoch 7/20
16/16 [==============================] - 0s 12ms/step - loss: 0.4072 - accuracy: 0.9163 - val_loss: 0.8982 - val_accuracy: 0.8120
Epoch 8/20
16/16 [==============================] - 0s 11ms/step - loss: 0.3286 - accuracy: 0.9297 - val_loss: 0.9190 - val_accuracy: 0.8030
Epoch 9/20
16/16 [==============================] - 0s 11ms/step - loss: 0.2724 - accuracy: 0.9404 - val_loss: 0.8994 - val_accuracy: 0.8190
Epoch 10/20
16/16 [==============================] - 0s 12ms/step - loss: 0.2332 - accuracy: 0.9464 - val_loss: 0.8937 - val_accuracy: 0.8250
Epoch 11/20
16/16 [==============================] - 0s 13ms/step - loss: 0.2029 - accuracy: 0.9500 - val_loss: 0.9367 - val_accuracy: 0.8170
Epoch 12/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1826 - accuracy: 0.9499 - val_loss: 0.9241 - val_accuracy: 0.8160
Epoch 13/20
16/16 [==============================] - 0s 16ms/step - loss: 0.1618 - accuracy: 0.9544 - val_loss: 0.9723 - val_accuracy: 0.8100
Epoch 14/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1457 - accuracy: 0.9569 - val_loss: 1.0324 - val_accuracy: 0.8000
Epoch 15/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1417 - accuracy: 0.9550 - val_loss: 1.0936 - val_accuracy: 0.7950
Epoch 16/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1315 - accuracy: 0.9567 - val_loss: 1.0689 - val_accuracy: 0.7910
Epoch 17/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1266 - accuracy: 0.9565 - val_loss: 1.0361 - val_accuracy: 0.8080
Epoch 18/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1206 - accuracy: 0.9558 - val_loss: 1.0521 - val_accuracy: 0.8050
Epoch 19/20
16/16 [==============================] - 0s 14ms/step - loss: 0.1220 - accuracy: 0.9570 - val_loss: 1.1220 - val_accuracy: 0.7910
Epoch 20/20
16/16 [==============================] - 0s 13ms/step - loss: 0.1118 - accuracy: 0.9568 - val_loss: 1.1308 - val_accuracy: 0.7900


import matplotlib.pyplot as plt


loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(loss) + 1)

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()


plt.clf()   # 그래프를 초기화합니다

acc = history.history['accuracy']
val_acc = history.history['val_accuracy']

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()

plt.show()


model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.fit(partial_x_train,
          partial_y_train,
          epochs=9,
          batch_size=512,
          validation_data=(x_val, y_val))
results = model.evaluate(x_test, one_hot_test_labels)

Epoch 1/9
16/16 [==============================] - 0s 21ms/step - loss: 2.4876 - accuracy: 0.5337 - val_loss: 1.6613 - val_accuracy: 0.6330
Epoch 2/9
16/16 [==============================] - 0s 11ms/step - loss: 1.3874 - accuracy: 0.7016 - val_loss: 1.2853 - val_accuracy: 0.7070
Epoch 3/9
16/16 [==============================] - 0s 11ms/step - loss: 1.0438 - accuracy: 0.7729 - val_loss: 1.1152 - val_accuracy: 0.7580
Epoch 4/9
16/16 [==============================] - 0s 11ms/step - loss: 0.8292 - accuracy: 0.8187 - val_loss: 1.0214 - val_accuracy: 0.7790
Epoch 5/9
16/16 [==============================] - 0s 12ms/step - loss: 0.6618 - accuracy: 0.8623 - val_loss: 0.9596 - val_accuracy: 0.8070
Epoch 6/9
16/16 [==============================] - 0s 11ms/step - loss: 0.5314 - accuracy: 0.8926 - val_loss: 0.9191 - val_accuracy: 0.8110
Epoch 7/9
16/16 [==============================] - 0s 12ms/step - loss: 0.4290 - accuracy: 0.9127 - val_loss: 0.9029 - val_accuracy: 0.8030
Epoch 8/9
16/16 [==============================] - 0s 11ms/step - loss: 0.3470 - accuracy: 0.9272 - val_loss: 0.8871 - val_accuracy: 0.8090
Epoch 9/9
16/16 [==============================] - 0s 11ms/step - loss: 0.2928 - accuracy: 0.9359 - val_loss: 0.9012 - val_accuracy: 0.8150
71/71 [==============================] - 0s 3ms/step - loss: 1.0030 - accuracy: 0.7867


results

[1.0030264854431152, 0.7867319583892822]


import copy

test_labels_copy = copy.copy(test_labels)
np.random.shuffle(test_labels_copy)
float(np.sum(np.array(test_labels) == np.array(test_labels_copy))) / len(test_labels)

0.17898486197684774


predictions = model.predict(x_test)


predictions[0].shape

(46,)


np.sum(predictions[0])

0.99999994


np.argmax(predictions[0])

4


y_train = np.array(train_labels)
y_test = np.array(test_labels)


model.compile(optimizer='rmsprop', loss='sparse_categorical_crossentropy', metrics=['accuracy'])


model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(4, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.fit(partial_x_train,
          partial_y_train,
          epochs=20,
          batch_size=128,
          validation_data=(x_val, y_val))

Epoch 1/20
63/63 [==============================] - 1s 9ms/step - loss: 2.5093 - accuracy: 0.5164 - val_loss: 1.8195 - val_accuracy: 0.5650
Epoch 2/20
63/63 [==============================] - 0s 6ms/step - loss: 1.6370 - accuracy: 0.5804 - val_loss: 1.5683 - val_accuracy: 0.5830
Epoch 3/20
63/63 [==============================] - 0s 6ms/step - loss: 1.3817 - accuracy: 0.6248 - val_loss: 1.4339 - val_accuracy: 0.6360
Epoch 4/20
63/63 [==============================] - 0s 5ms/step - loss: 1.2063 - accuracy: 0.6741 - val_loss: 1.3403 - val_accuracy: 0.6590
Epoch 5/20
63/63 [==============================] - 0s 5ms/step - loss: 1.0544 - accuracy: 0.7139 - val_loss: 1.2852 - val_accuracy: 0.6780
Epoch 6/20
63/63 [==============================] - 0s 6ms/step - loss: 0.9334 - accuracy: 0.7695 - val_loss: 1.2620 - val_accuracy: 0.7050
Epoch 7/20
63/63 [==============================] - 0s 6ms/step - loss: 0.8413 - accuracy: 0.7953 - val_loss: 1.2969 - val_accuracy: 0.7130
Epoch 8/20
63/63 [==============================] - 0s 7ms/step - loss: 0.7746 - accuracy: 0.8043 - val_loss: 1.3145 - val_accuracy: 0.7180
Epoch 9/20
63/63 [==============================] - 0s 6ms/step - loss: 0.7153 - accuracy: 0.8140 - val_loss: 1.3236 - val_accuracy: 0.7140
Epoch 10/20
63/63 [==============================] - 0s 6ms/step - loss: 0.6719 - accuracy: 0.8186 - val_loss: 1.3852 - val_accuracy: 0.7230
Epoch 11/20
63/63 [==============================] - 0s 6ms/step - loss: 0.6341 - accuracy: 0.8262 - val_loss: 1.3867 - val_accuracy: 0.7220
Epoch 12/20
63/63 [==============================] - 0s 7ms/step - loss: 0.5997 - accuracy: 0.8309 - val_loss: 1.4388 - val_accuracy: 0.7290
Epoch 13/20
63/63 [==============================] - 0s 6ms/step - loss: 0.5683 - accuracy: 0.8325 - val_loss: 1.5393 - val_accuracy: 0.7120
Epoch 14/20
63/63 [==============================] - 0s 7ms/step - loss: 0.5437 - accuracy: 0.8395 - val_loss: 1.6084 - val_accuracy: 0.7160
Epoch 15/20
63/63 [==============================] - 0s 6ms/step - loss: 0.5202 - accuracy: 0.8393 - val_loss: 1.5943 - val_accuracy: 0.7120
Epoch 16/20
63/63 [==============================] - 0s 7ms/step - loss: 0.5006 - accuracy: 0.8504 - val_loss: 1.6465 - val_accuracy: 0.7100
Epoch 17/20
63/63 [==============================] - 0s 5ms/step - loss: 0.4828 - accuracy: 0.8548 - val_loss: 1.7377 - val_accuracy: 0.7160
Epoch 18/20
63/63 [==============================] - 0s 6ms/step - loss: 0.4642 - accuracy: 0.8634 - val_loss: 1.8150 - val_accuracy: 0.7020
Epoch 19/20
63/63 [==============================] - 0s 6ms/step - loss: 0.4499 - accuracy: 0.8680 - val_loss: 1.8643 - val_accuracy: 0.7080
Epoch 20/20
63/63 [==============================] - 0s 6ms/step - loss: 0.4326 - accuracy: 0.8688 - val_loss: 1.9312 - val_accuracy: 0.7120

<tensorflow.python.keras.callbacks.History at 0x7f039bce7630>

뉴스 기사 분류: 다중 분류 문제¶

로이터 데이터셋¶

데이터 준비¶

모델 구성¶

훈련 검증¶

새로운 데이터에 대해 예측하기¶

레이블과 손실을 다루는 다른 방법¶

충분히 큰 중간층을 두어야 하는 이유¶

추가 실험¶

정리¶