from tensorflow import keras
keras.__version__

'2.4.0'


from tensorflow.keras.layers import Embedding

# Embedding 층은 적어도 두 개의 매개변수를 받습니다.
# 가능한 토큰의 개수(여기서는 1,000으로 단어 인덱스 최댓값 + 1입니다)와 임베딩 차원(여기서는 64)입니다
embedding_layer = Embedding(1000, 64)


from tensorflow.keras.datasets import imdb
from tensorflow.keras import preprocessing

# 특성으로 사용할 단어의 수
max_features = 10000
# 사용할 텍스트의 길이(가장 빈번한 max_features 개의 단어만 사용합니다)
maxlen = 20

# 정수 리스트로 데이터를 로드합니다.
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

# 리스트를 (samples, maxlen) 크기의 2D 정수 텐서로 변환합니다.
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
17465344/17464789 [==============================] - 2s 0us/step


from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense, Embedding

model = Sequential()
# 나중에 임베딩된 입력을 Flatten 층에서 펼치기 위해 Embedding 층에 input_length를 지정합니다.
model.add(Embedding(10000, 8, input_length=maxlen))
# Embedding 층의 출력 크기는 (samples, maxlen, 8)가 됩니다.

# 3D 임베딩 텐서를 (samples, maxlen * 8) 크기의 2D 텐서로 펼칩니다.
model.add(Flatten())

# 분류기를 추가합니다.
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])
model.summary()

history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_split=0.2)

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_1 (Embedding)      (None, 20, 8)             80000     
_________________________________________________________________
flatten (Flatten)            (None, 160)               0         
_________________________________________________________________
dense (Dense)                (None, 1)                 161       
=================================================================
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
625/625 [==============================] - 3s 4ms/step - loss: 0.6669 - accuracy: 0.6367 - val_loss: 0.6125 - val_accuracy: 0.7026
Epoch 2/10
625/625 [==============================] - 2s 4ms/step - loss: 0.5372 - accuracy: 0.7543 - val_loss: 0.5207 - val_accuracy: 0.7384
Epoch 3/10
625/625 [==============================] - 2s 4ms/step - loss: 0.4587 - accuracy: 0.7897 - val_loss: 0.4969 - val_accuracy: 0.7514
Epoch 4/10
625/625 [==============================] - 2s 4ms/step - loss: 0.4208 - accuracy: 0.8098 - val_loss: 0.4921 - val_accuracy: 0.7606
Epoch 5/10
625/625 [==============================] - 2s 4ms/step - loss: 0.3945 - accuracy: 0.8241 - val_loss: 0.4905 - val_accuracy: 0.7564
Epoch 6/10
625/625 [==============================] - 2s 4ms/step - loss: 0.3731 - accuracy: 0.8351 - val_loss: 0.4941 - val_accuracy: 0.7574
Epoch 7/10
625/625 [==============================] - 2s 4ms/step - loss: 0.3541 - accuracy: 0.8443 - val_loss: 0.4998 - val_accuracy: 0.7610
Epoch 8/10
625/625 [==============================] - 2s 4ms/step - loss: 0.3362 - accuracy: 0.8547 - val_loss: 0.5049 - val_accuracy: 0.7592
Epoch 9/10
625/625 [==============================] - 2s 4ms/step - loss: 0.3190 - accuracy: 0.8643 - val_loss: 0.5118 - val_accuracy: 0.7570
Epoch 10/10
625/625 [==============================] - 2s 4ms/step - loss: 0.3030 - accuracy: 0.8716 - val_loss: 0.5199 - val_accuracy: 0.7566


import os

imdb_dir = './datasets/aclImdb'
train_dir = os.path.join(imdb_dir, 'train')

labels = []
texts = []

for label_type in ['neg', 'pos']:
    dir_name = os.path.join(train_dir, label_type)
    for fname in os.listdir(dir_name):
        if fname[-4:] == '.txt':
            f = open(os.path.join(dir_name, fname), encoding='utf8')
            texts.append(f.read())
            f.close()
            if label_type == 'neg':
                labels.append(0)
            else:
                labels.append(1)


from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

maxlen = 100  # 100개 단어 이후는 버립니다
training_samples = 200  # 훈련 샘플은 200개입니다
validation_samples = 10000  # 검증 샘플은 10,000개입니다
max_words = 10000  # 데이터셋에서 가장 빈도 높은 10,000개의 단어만 사용합니다

tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

word_index = tokenizer.word_index
print('%s개의 고유한 토큰을 찾았습니다.' % len(word_index))

data = pad_sequences(sequences, maxlen=maxlen)

labels = np.asarray(labels)
print('데이터 텐서의 크기:', data.shape)
print('레이블 텐서의 크기:', labels.shape)

# 데이터를 훈련 세트와 검증 세트로 분할합니다.
# 샘플이 순서대로 있기 때문에 (부정 샘플이 모두 나온 후에 긍정 샘플이 옵니다) 
# 먼저 데이터를 섞습니다.
indices = np.arange(data.shape[0])
np.random.shuffle(indices)
data = data[indices]
labels = labels[indices]

x_train = data[:training_samples]
y_train = labels[:training_samples]
x_val = data[training_samples: training_samples + validation_samples]
y_val = labels[training_samples: training_samples + validation_samples]

88582개의 고유한 토큰을 찾았습니다.
데이터 텐서의 크기: (25000, 100)
레이블 텐서의 크기: (25000,)


glove_dir = './datasets/'

embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.100d.txt'), encoding="utf8")
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs
f.close()

print('%s개의 단어 벡터를 찾았습니다.' % len(embeddings_index))

400000개의 단어 벡터를 찾았습니다.


embedding_dim = 100

embedding_matrix = np.zeros((max_words, embedding_dim))
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if i < max_words:
        if embedding_vector is not None:
            # 임베딩 인덱스에 없는 단어는 모두 0이 됩니다.
            embedding_matrix[i] = embedding_vector


from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_2 (Embedding)      (None, 100, 100)          1000000   
_________________________________________________________________
flatten_1 (Flatten)          (None, 10000)             0         
_________________________________________________________________
dense_1 (Dense)              (None, 32)                320032    
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 33        
=================================================================
Total params: 1,320,065
Trainable params: 1,320,065
Non-trainable params: 0
_________________________________________________________________


model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False


model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])
history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_data=(x_val, y_val))
model.save_weights('pre_trained_glove_model.h5')

Epoch 1/10
7/7 [==============================] - 1s 148ms/step - loss: 2.1136 - accuracy: 0.4950 - val_loss: 0.8917 - val_accuracy: 0.5003
Epoch 2/10
7/7 [==============================] - 1s 122ms/step - loss: 0.6376 - accuracy: 0.6450 - val_loss: 0.7839 - val_accuracy: 0.5090
Epoch 3/10
7/7 [==============================] - 1s 128ms/step - loss: 0.5523 - accuracy: 0.7000 - val_loss: 0.7312 - val_accuracy: 0.5215
Epoch 4/10
7/7 [==============================] - 1s 128ms/step - loss: 0.3093 - accuracy: 0.9100 - val_loss: 0.9494 - val_accuracy: 0.5021
Epoch 5/10
7/7 [==============================] - 1s 131ms/step - loss: 0.2186 - accuracy: 0.9500 - val_loss: 1.8341 - val_accuracy: 0.4999
Epoch 6/10
7/7 [==============================] - 1s 125ms/step - loss: 0.3560 - accuracy: 0.8550 - val_loss: 0.7369 - val_accuracy: 0.5548
Epoch 7/10
7/7 [==============================] - 1s 117ms/step - loss: 0.1208 - accuracy: 0.9800 - val_loss: 1.1336 - val_accuracy: 0.5090
Epoch 8/10
7/7 [==============================] - 1s 123ms/step - loss: 0.0783 - accuracy: 0.9950 - val_loss: 1.2085 - val_accuracy: 0.5054
Epoch 9/10
7/7 [==============================] - 1s 124ms/step - loss: 0.0727 - accuracy: 0.9900 - val_loss: 1.5593 - val_accuracy: 0.5009
Epoch 10/10
7/7 [==============================] - 1s 131ms/step - loss: 0.1183 - accuracy: 0.9350 - val_loss: 1.1931 - val_accuracy: 0.5236


import matplotlib.pyplot as plt


acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()

plt.show()


from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.summary()

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])
history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_data=(x_val, y_val))

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_3 (Embedding)      (None, 100, 100)          1000000   
_________________________________________________________________
flatten_2 (Flatten)          (None, 10000)             0         
_________________________________________________________________
dense_3 (Dense)              (None, 32)                320032    
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 33        
=================================================================
Total params: 1,320,065
Trainable params: 1,320,065
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
7/7 [==============================] - 1s 152ms/step - loss: 0.6972 - accuracy: 0.4550 - val_loss: 0.6931 - val_accuracy: 0.5106
Epoch 2/10
7/7 [==============================] - 1s 138ms/step - loss: 0.4689 - accuracy: 0.9800 - val_loss: 0.6973 - val_accuracy: 0.5123
Epoch 3/10
7/7 [==============================] - 1s 126ms/step - loss: 0.2338 - accuracy: 0.9900 - val_loss: 0.6991 - val_accuracy: 0.5185
Epoch 4/10
7/7 [==============================] - 1s 133ms/step - loss: 0.0984 - accuracy: 1.0000 - val_loss: 0.7184 - val_accuracy: 0.5203
Epoch 5/10
7/7 [==============================] - 1s 134ms/step - loss: 0.0473 - accuracy: 1.0000 - val_loss: 0.7096 - val_accuracy: 0.5224
Epoch 6/10
7/7 [==============================] - 1s 132ms/step - loss: 0.0226 - accuracy: 1.0000 - val_loss: 0.7270 - val_accuracy: 0.5249
Epoch 7/10
7/7 [==============================] - 1s 134ms/step - loss: 0.0133 - accuracy: 1.0000 - val_loss: 0.7217 - val_accuracy: 0.5225
Epoch 8/10
7/7 [==============================] - 1s 130ms/step - loss: 0.0076 - accuracy: 1.0000 - val_loss: 0.7263 - val_accuracy: 0.5246
Epoch 9/10
7/7 [==============================] - 1s 130ms/step - loss: 0.0047 - accuracy: 1.0000 - val_loss: 0.7399 - val_accuracy: 0.5291
Epoch 10/10
7/7 [==============================] - 1s 134ms/step - loss: 0.0029 - accuracy: 1.0000 - val_loss: 0.7371 - val_accuracy: 0.5265


acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()

plt.show()


training_samples = 2000
x_train = data[:training_samples]
y_train = labels[:training_samples]
x_val = data[training_samples: training_samples + validation_samples]
y_val = labels[training_samples: training_samples + validation_samples]


history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_data=(x_val, y_val))

Epoch 1/10
63/63 [==============================] - 2s 24ms/step - loss: 0.6457 - accuracy: 0.6070 - val_loss: 0.6918 - val_accuracy: 0.5947
Epoch 2/10
63/63 [==============================] - 1s 22ms/step - loss: 0.1605 - accuracy: 0.9855 - val_loss: 0.6257 - val_accuracy: 0.6669
Epoch 3/10
63/63 [==============================] - 1s 23ms/step - loss: 0.0190 - accuracy: 1.0000 - val_loss: 0.6417 - val_accuracy: 0.6889
Epoch 4/10
63/63 [==============================] - 1s 23ms/step - loss: 0.0015 - accuracy: 1.0000 - val_loss: 0.7208 - val_accuracy: 0.6963
Epoch 5/10
63/63 [==============================] - 1s 23ms/step - loss: 9.2584e-05 - accuracy: 1.0000 - val_loss: 0.7846 - val_accuracy: 0.7031
Epoch 6/10
63/63 [==============================] - 1s 21ms/step - loss: 5.6782e-06 - accuracy: 1.0000 - val_loss: 0.8604 - val_accuracy: 0.7064
Epoch 7/10
63/63 [==============================] - 1s 23ms/step - loss: 6.2126e-07 - accuracy: 1.0000 - val_loss: 0.9280 - val_accuracy: 0.7070
Epoch 8/10
63/63 [==============================] - 1s 23ms/step - loss: 1.3104e-07 - accuracy: 1.0000 - val_loss: 0.9929 - val_accuracy: 0.7072
Epoch 9/10
63/63 [==============================] - 1s 22ms/step - loss: 4.8818e-08 - accuracy: 1.0000 - val_loss: 1.0220 - val_accuracy: 0.7070
Epoch 10/10
63/63 [==============================] - 1s 23ms/step - loss: 2.6975e-08 - accuracy: 1.0000 - val_loss: 1.0451 - val_accuracy: 0.7074


acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()

plt.show()


test_dir = os.path.join(imdb_dir, 'test')

labels = []
texts = []

for label_type in ['neg', 'pos']:
    dir_name = os.path.join(test_dir, label_type)
    for fname in sorted(os.listdir(dir_name)):
        if fname[-4:] == '.txt':
            f = open(os.path.join(dir_name, fname), encoding="utf8")
            texts.append(f.read())
            f.close()
            if label_type == 'neg':
                labels.append(0)
            else:
                labels.append(1)

sequences = tokenizer.texts_to_sequences(texts)
x_test = pad_sequences(sequences, maxlen=maxlen)
y_test = np.asarray(labels)


model.load_weights('pre_trained_glove_model.h5')
model.evaluate(x_test, y_test)

782/782 [==============================] - 2s 3ms/step - loss: 1.1996 - accuracy: 0.5226

[1.1996161937713623, 0.5226399898529053]

단어 임베딩 사용하기¶

`Embedding` 층을 사용해 단어 임베딩 학습하기¶

사전 훈련된 단어 임베딩 사용하기¶

모든 내용을 적용하기: 원본 텍스트에서 단어 임베딩까지¶

원본 IMDB 텍스트 다운로드하기¶

데이터 토큰화¶

GloVe 단어 임베딩 내려받기¶

임베딩 전처리¶

모델 정의하기¶

모델에 GloVe 임베딩 로드하기¶

모델 훈련과 평가¶

단어 임베딩 사용하기¶

Embedding 층을 사용해 단어 임베딩 학습하기¶

사전 훈련된 단어 임베딩 사용하기¶

모든 내용을 적용하기: 원본 텍스트에서 단어 임베딩까지¶

원본 IMDB 텍스트 다운로드하기¶

데이터 토큰화¶

GloVe 단어 임베딩 내려받기¶

임베딩 전처리¶

모델 정의하기¶

모델에 GloVe 임베딩 로드하기¶

모델 훈련과 평가¶

`Embedding` 층을 사용해 단어 임베딩 학습하기¶