b/diagnosis_rnn.py
+'''
+Trains a RNN on medical diagnosis of diseases dataset
+   data is obtained from various online sources
+   Memory network needs to predict the disease using many symptoms listed as
+   natural language sentences
+'''
+from __future__ import print_function
+from functools import reduce
+import re
+import tarfile
+import os.path
+import pickle
+import h5py
+import pdb
+from itertools import izip_longest
+import random
+import numpy as np
+np.random.seed(1337)  # for reproducibility
+random.seed(1337)
+from keras.utils.data_utils import get_file
+from keras.layers.embeddings import Embedding
+from keras.layers.core import Dense, Merge, Dropout, RepeatVector
+from keras.layers import recurrent
+from keras.layers.recurrent import LSTM, GRU
+from keras.models import Sequential
+from keras.preprocessing.sequence import pad_sequences
+from keras.callbacks import ModelCheckpoint, Callback
+from utils import create_vectors_dataset, get_spacy_vectors
+from glove import Glove
+from spacy.en import English
+RNN = recurrent.LSTM
+NUM_HIDDEN_UNITS = 128
+BATCH_SIZE = 32
+EPOCHS = 10
+DROPOUT_FACTOR = 0.5
+print('RNN / HIDDENS = {}, {}'.format(RNN, NUM_HIDDEN_UNITS))
+max_len = 500
+word_vec_dim = 300
+vocab_size = 2350
+training_set_file = 'data/training_set.dat'
+test_set_file = 'data/test_set.dat'
+train_stories = pickle.load(open(training_set_file,'r'))
+test_stories = pickle.load(open(test_set_file,'r'))
+train_stories = [(reduce(lambda x,y: x + y, map(list,fact)),q) for fact,q in train_stories]
+test_stories = [(reduce(lambda x,y: x + y, map(list,fact)),q) for fact,q in test_stories]
+answer_vocab = sorted(reduce(lambda x, y: x | y, (set([answer]) for _, answer in train_stories + test_stories)))
+# Reserve 0 for masking via pad_sequences
+answer_dict = dict((word, i) for i, word in enumerate(answer_vocab))
+print('Answers dict len: {0}'.format(len(answer_dict)))
+# I need to check also if this exist
+#word_vectors_dir = 'word_vectors/glove.42B.300d.txt'
+#word_vectors_model = Glove.load_stanford(word_vectors_dir)
+nlp = English()
+print('Build model...')
+model = Sequential()
+model.add(GRU(output_dim = NUM_HIDDEN_UNITS, activation='tanh',
+               return_sequences=True, input_shape=(max_len, word_vec_dim)))
+model.add(Dropout(DROPOUT_FACTOR))
+model.add(GRU(NUM_HIDDEN_UNITS, return_sequences=False))
+model.add(Dense(vocab_size, init='uniform',activation='softmax'))
+#json_string = model.to_json()
+#model_file_name = 'models/lstm_num_hidden_units_' + str(NUM_HIDDEN_UNITS) + '_num_lstm_layers_' + str(2) + '_dropout_' + str(0.3)
+#open(model_file_name  + '.json', 'w').write(json_string)
+print('Compiling model...')
+model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
+print('Compilation done...')
+print('Training')
+base_dir = '.'
+NUM_DATA_TRAIN = len(train_stories)
+NUM_DATA_TEST = len(test_stories)
+random.shuffle(train_stories)
+valid_stories = train_stories[int(len(train_stories)*0.95):]
+train_stories = train_stories[:int(len(train_stories)*0.95)]
+print('Validation size: {0}'.format(len(valid_stories)))
+print('Training size: {0}'.format(len(train_stories)))
+def grouper(iterable, n, fillvalue=None):
+    args = [iter(iterable)] * n
+    return izip_longest(*args, fillvalue=fillvalue)
+acc_hist = []
+acc_hist.append(0.)
+show_batch_interval = 50
+for k in xrange(EPOCHS):
+    for b,train_batch in enumerate(zip(grouper(train_stories, BATCH_SIZE, fillvalue=train_stories[-1]))):
+        X,Y = get_spacy_vectors(train_batch[0], answer_dict,
+                                         max_len, nlp)
+        loss = model.train_on_batch(X, Y)
+        if b % show_batch_interval == 0:
+            print('Epoch: {0}, Batch: {1}, loss: {2}'.format(k,b,loss))
+    X,Y = get_spacy_vectors(valid_stories, answer_dict,
+                                        max_len, nlp)
+    loss, acc = model.evaluate(X, Y, batch_size=BATCH_SIZE)
+    print('Epoch{0}, Valid loss / valid accuracy = {1:.4f} / {2:.4f}'.format(k,loss, acc))
+    #Logging results
+    with open(base_dir + '/logs/log_{0}_{1}_drop_{2}.txt'.format(
+                'GRU',str(NUM_HIDDEN_UNITS),str(DROPOUT_FACTOR)),'a') as fil:
+        fil.write(str(loss) + ' ' + str(acc) + '\n')
+    #Saving model
+    if max(acc_hist) < acc:
+        model.save_weights(base_dir + '/models/weights_{0}_{1}_drop_{2}.hdf5'.format(
+                'GRU',str(NUM_HIDDEN_UNITS),str(DROPOUT_FACTOR)),overwrite=True)
+    acc_hist.append(acc)
+# Obtaining test results
+# Evaluatin Best 5 accuracy and best accuracy
+SAVE_ERRORS = False
+acc_5 = 0.
+acc = 0.
+for b,test_batch in enumerate(zip(grouper(test_stories, BATCH_SIZE, fillvalue=test_stories[-1]))):
+    X,Y = get_spacy_vectors(test_batch[0], answer_dict,
+                                     max_len, nlp)
+    answers_test = Y if b == 0 else np.vstack((answers_test,Y))
+    preds = model.predict(X)
+    # Saving in order to make some more visualizations
+    all_predictions = preds if b == 0 else np.vstack((all_predictions,preds))
+    if b % 50 == 0:
+        print('Batch: {0}'.format(b))
+all_predictions = all_predictions[:len(test_stories)]
+answers_test = answers_test[:len(test_stories)]
+for k,(pred,answer) in enumerate(zip(all_predictions,answers_test)):
+    prediction = np.argsort(pred)[-5:][::-1]
+    pred_words = [answer_dict.keys()[answer_dict.values().index(pred)] for pred in prediction]
+    answer_word = answer_dict.keys()[answer_dict.values().index(answer.argmax())]
+    if answer_word in pred_words:
+        acc_5 += 1.
+    if pred_words[0] == answer_word:
+        acc += 1.
+all_err = -np.log(all_predictions[range(all_predictions.shape[0]),answers_test.argmax(axis=1)])
+np.savetxt('logs/error.dat',all_err)
+acc /= len(test_stories)
+acc_5 /= len(test_stories)
+print('Accuracy: {0}'.format(acc))
+print('5 most prob. accuracy: {0}'.format(acc_5))