MetaPred / Git / [2b4aea] /data

Models:
philipB/
MetaPred
Downloads: 1
[2b4aea]: / data_loader.py
History
Download this file
318 lines (283 with data), 13.8 kB

""" Code for data loader """
import numpy as np
import os, sys, copy
import random
import tensorflow as tf

from sklearn.model_selection import StratifiedKFold
from tensorflow.python.platform import flags

import tqdm
import pickle as pkl

FLAGS = flags.FLAGS

PADDING_ID = 1016 # make the padding id as the number of group code
                  # maximum of group code index is 1015, start from 0
N_WORDS = 1017
TIMESTEPS = 21 # choice by statistics

TASKS = ["AD", "PD", "DM", "AM", "MCI"]

class DataLoader(object):
    '''
    Data Loader capable of generating batches of ohsu data.
    '''
    def __init__(self, source, target, true_target, n_tasks, n_samples_per_task, meta_batch_size):
        """
        Args:
            source:             source tasks
            target:             simulated target task(s)
            true_target:        true target task (to test)
            n_tasks:            number of tasks including both source and simulated target tasks
            n_samples_per_task: number samples to generate per task in one batch
            meta_batch_size:    size of meta batch size (e.g. number of functions)
        """
        ### load data: training
        self.intmd_path = 'intermediate/'
        self.source = source
        self.target = target
        self.timesteps = TIMESTEPS
        self.code_size = 0
        # self.code_size = N_WORDS-1 # set the code_size as the number of all the possible codes
        #                            # in order to use in pretrain
        self.task_code_size = dict() # maintain a dictionary for icd codes, disease : code list
        print ("The selected timesteps is: ", self.timesteps)

        self.data_to_show = dict()
        self.label_to_show = dict()
        self.ratio_t = 0.8
        self.pat_reduce = False
        self.code_set = set()
        self.data_s, self.data_t, self.label_s, self.label_t = self.load_data()

        ## load data: validate & test
        self.true_target = true_target
        if FLAGS.method == "mlp":
            data_tt, label_tt = self.load_data_vector(self.true_target[0]) # only 1 true target, index is 0
        elif FLAGS.method == "rnn" or FLAGS.method == "cnn":
            data_tt, label_tt = self.load_data_matrix(self.true_target[0])
            # compute code_size
            self.code_size = max([cz for cz in self.task_code_size.values()])
            print ("The code_size is: ", self.code_size)
            # make data the same size matrices
            data_tt, label_tt = self.get_data_prepared(data_tt, label_tt)

            for i in range(len(self.source)):
                self.data_s[i], self.label_s[i] = self.get_data_prepared(self.data_s[i], self.label_s[i])

            for i in range(len(self.target)):
                self.data_t[i], self.label_t[i] = self.get_data_prepared(self.data_t[i], self.label_t[i])

        # cross validation for true target
        self.n_fold = 5
        self.get_cross_val(data_tt, label_tt, n_fold=self.n_fold)

        ### set model params
        self.meta_batch_size = meta_batch_size
        self.n_samples_per_task = n_samples_per_task # in one meta batch
        self.n_tasks = n_tasks
        self.n_words = N_WORDS

        ## generate finetune data
        self.tt_sample, self.tt_label = dict(), dict()
        self.tt_sample_val, self.tt_label_val = dict(), dict()
        for ifold in range(self.n_fold): # generate n-fold cv data for finetuning
            self.tt_sample[ifold], self.tt_label[ifold] = self.generate_finetune_data(is_training=True, ifold=ifold)
            self.tt_sample_val[ifold], self.tt_label_val[ifold] = self.generate_finetune_data(is_training=False, ifold=ifold)

        self.episode = self.generate_meta_idx_batches(is_training=True)
        self.episode_val = dict()
        for ifold in range(self.n_fold): # true target validation
            self.episode_val[ifold] = self.generate_meta_idx_batches(is_training=False, ifold=ifold)

    def get_cross_val(self, X, y, n_fold=5):
        '''split the true target into train (might be useful in finetunning) and test (for evaluation)'''
        self.data_tt_tr, self.data_tt_val = dict(), dict()
        self.label_tt_tr, self.label_tt_val = dict(), dict()
        skf = StratifiedKFold(n_splits = n_fold, random_state = 99991)
        ifold = 0
        print ("split the true target ...")
        for train_index, test_index in skf.split(X, y):
            self.data_tt_tr[ifold], self.data_tt_val[ifold] = X[train_index], X[test_index]
            self.label_tt_tr[ifold], self.label_tt_val[ifold] = y[train_index], y[test_index]
            ifold+=1

    def load_data_matrix(self, task):
        '''load data sequential vectors for cnn or rnn. One matrix per sample'''
        X_pos, y_pos = [], []
        X_neg, y_neg = [], []
        with open(self.intmd_path + task + '.pos.pkl', 'rb') as f:
            X_pos_mat, y_pos_mat = pkl.load(f)
            f.close()

        with open(self.intmd_path + task + '.neg.pkl', 'rb') as f:
            X_neg_mat, y_neg_mat = pkl.load(f)
            f.close()

        print ("The number of positive samles in task %s is: " %task, len(y_pos_mat))
        print ("The number of negative samles in task %s is: " %task, len(y_neg_mat))

        for s, array in X_pos_mat.items():
             X_pos.append(array) # X_pos_mat[s] size: seq_len x n_words
             y_pos.append(y_pos_mat[s])

        for s, array in X_neg_mat.items():
             X_neg.append(array)
             y_neg.append(y_neg_mat[s])
        return (X_pos, X_neg), (y_pos, y_neg)

    def get_fixed_timesteps(self, X_pos, X_neg):
        '''delete the first several timesteps according to the selected number'''
        # postives:
        for i in range(len(X_pos)):
            timesteps = X_pos[i].shape[0]
            if timesteps > self.timesteps:
                X_pos[i] = X_pos[i][timesteps-self.timesteps:, :]
        # negatives:
        for i in range(len(X_neg)):
            timesteps = X_neg[i].shape[0]
            if timesteps > self.timesteps:
                X_neg[i] = X_neg[i][timesteps-self.timesteps:, :]
        return (X_pos, X_neg)

    def get_fixed_codesize(self, X_pos, X_neg):
        '''delete the -1 values according to the code size'''
        # postives:
        for i in range(len(X_pos)):
            code_size = X_pos[i].shape[1]
            if code_size > self.code_size:
                X_pos[i] = X_pos[i][:, :self.code_size]
        # negatives:
        for i in range(len(X_neg)):
            code_size = X_neg[i].shape[1]
            if code_size > self.code_size:
                X_neg[i] = X_neg[i][:, :self.code_size]
        return (X_pos, X_neg)

    def get_feed_records(self, X):
        '''generate ehrs as a 3d tensor that can be used to feed networks'''
        n_samples = len(X)
        X_new = np.zeros([n_samples, self.timesteps, self.code_size], dtype="int32") + PADDING_ID
        for i in range(n_samples):
            timesteps = X[i].shape[0]
            X_new[i, self.timesteps-timesteps:, :] = X[i]
        return X_new

    def get_data_prepared(self, data, label):
        X_pos, X_neg = data
        y_pos, y_neg = label

        X_pos, X_neg = self.get_fixed_timesteps(X_pos, X_neg)
        X_pos, X_neg = self.get_fixed_codesize(X_pos, X_neg)
        X_pos = self.get_feed_records(X_pos)
        X_neg = self.get_feed_records(X_neg)
        # concatenate pos and neg
        data, label = np.concatenate((X_pos, X_neg), axis=0), np.concatenate((y_pos, y_neg), axis=0)
        return data, label

    def load_data(self):
        '''load data vectors or matrices for samples with labels'''
        data_s, label_s = dict(), dict()
        data_t, label_t = dict(), dict()

        self.dim_input = [TIMESTEPS, N_WORDS]
        for i in range(len(self.source)):
            data_s[i], label_s[i] = self.load_data_matrix(self.source[i])

        for i in range(len(self.target)):
            data_t[i], label_t[i] = self.load_data_matrix(self.target[i])
        return data_s, data_t, label_s, label_t

    def generate_finetune_data(self, is_training=True, ifold=0):
        ''' get finetuning samples and labels'''
        try:
            if is_training:
                sample = self.data_tt_tr[ifold]
                label = self.label_tt_tr[ifold]
            else:
                sample = self.data_tt_val[ifold]
                label = self.label_tt_val[ifold]
        except:
            print ("Error: split training and validate first!")
        return sample, label

    def generate_meta_batches(self, is_training=True, ifold=0):
        ''' get samples and the corresponding labels with episode for batching'''
        if is_training: # training
            prefix = "metatrain"
            data_s = self.data_s
            data_t = self.data_t
            label_s = self.label_s
            label_t = self.label_t
            self.n_total_batches = FLAGS.n_total_batches
        else: # test & eval, say, true target task is used here
            try:
                prefix = "metaval" + str(ifold)
                data_s = self.data_s
                label_s = self.label_s
                data_t = self.data_tt_val[ifold]
                label_t = self.label_tt_val[ifold]
                self.n_total_batches = int(len(label_t)/self.n_samples_per_task)
            except:
                print ("Error: split training and validate first!")
        # check if the meta batch file dumped
        if os.path.isfile(self.intmd_path + "meta.batch." + prefix + ".pkl"):
            print ('meta batch file exits')
            with open(self.intmd_path + "meta.batch." + prefix + ".pkl", 'rb') as f:
                sample, label = pkl.load(f)
                f.close()
        else:
            # generate episode
            sample, label = [], []
            s_dict, t_dict = dict(), dict()
            for i in range(len(self.source)):
                s_dict[i] = range(len(self.label_s[i]))
            for i in range(len(self.target)):
                t_dict[i] = range(len(self.label_t[i]))
            batch_count = 0
            for _ in tqdm.tqdm(range(self.n_total_batches), 'generating meta batches'): # progress bar
                # i.e., sample 16 patients from selected tasks
                # len of spl and lbl: 4 * 16
                spl, lbl = [], [] # samples and labels in one episode
                for i in range(len(self.source)): # fetch from source tasks olderly
                    ### do not keep pos/neg ratio
                    s_idx = random.sample(s_dict[i], self.n_samples_per_task)
                    spl.extend(data_s[i][s_idx])
                    lbl.extend(label_s[i][s_idx])
                ### do not keep pos/neg ratio
                if is_training:
                    t_idx = random.sample(t_dict[0], self.n_samples_per_task)
                    spl.extend(data_t[0][t_idx])
                    lbl.extend(label_t[0][t_idx])
                else:
                    spl.extend(data_t[batch_count*self.n_samples_per_task:(batch_count+1)*self.n_samples_per_task])
                    lbl.extend(label_t[batch_count*self.n_samples_per_task:(batch_count+1)*self.n_samples_per_task])
                batch_count += 1
                # add meta_batch
                sample.append(spl)
                label.append(lbl)

        print ("batch counts: ", batch_count)
        sample = np.array(sample, dtype="float32")
        label = np.array(label, dtype="float32")
        return sample, label

    def generate_meta_idx_batches(self, is_training=True, ifold=0):
        ''' get samples and the corresponding labels with episode for batching'''
        if is_training: # training
            prefix = "metatrain"
            data_s = self.data_s
            data_t = self.data_t
            label_s = self.label_s
            label_t = self.label_t
            self.n_total_batches = FLAGS.n_total_batches
        else: # test & eval, say, true target task is used here
            try:
                prefix = "metaval" + str(ifold)
                data_s = self.data_s
                label_s = self.label_s
                data_t = self.data_tt_val[ifold]
                label_t = self.label_tt_val[ifold]
                self.n_total_batches = int(len(label_t)/self.n_samples_per_task)
                print (data_t.shape)
                print (label_t.shape)
                print (len(label_t))
            except:
                print ("Error: split training and validate first!")

        # generate episode
        episode = []
        s_dict, t_dict = dict(), dict()
        for i in range(len(self.source)):
            s_dict[i] = range(len(self.label_s[i]))
        for i in range(len(self.target)):
            t_dict[i] = range(len(self.label_t[i]))
        batch_count = 0
        for _ in tqdm.tqdm(range(self.n_total_batches), 'generating meta batches'): # progress bar
            # i.e., sample 16 patients from selected tasks
            # len of spl and lbl: 4 * 16
            idx = [] # index in one episode
            for i in range(len(self.source)): # fetch from source tasks olderly
                ### do not keep pos/neg ratio
                s_idx = random.sample(s_dict[i], self.n_samples_per_task)
                idx.extend(s_idx)
            ### do not keep pos/neg ratio
            if is_training:
                t_idx = random.sample(t_dict[0], self.n_samples_per_task)
                idx.extend(t_idx)
            else:
                t_idx = range(batch_count*self.n_samples_per_task, (batch_count+1)*self.n_samples_per_task)
                idx.extend(t_idx)
            batch_count += 1
            # add meta_batch
            episode.append(idx)

        print ("batch counts: ", batch_count)
        return episode