Uncertainty-Quantificatio / Git / Diff of /HINT/model.py

Models:

joseph-gordon/

Uncertainty-Quantificatio

Downloads: 1

Diff of /HINT/model.py [000000] .. [bc9e98]

Switch to unified view

 b/HINT/model.py
+from sklearn.metrics import roc_auc_score, f1_score, average_precision_score, precision_score, recall_score, accuracy_score
+import matplotlib.pyplot as plt
+from copy import deepcopy
+import numpy as np
+from tqdm import tqdm
+import torch
+torch.manual_seed(0)
+from torch import nn
+from torch.autograd import Variable
+import torch.nn.functional as F
+from HINT.module import Highway, GCN
+from functools import reduce
+import pickle
+class Interaction(nn.Sequential):
+    def __init__(self, molecule_encoder, disease_encoder, protocol_encoder,
+                    device,
+                    global_embed_size,
+                    highway_num_layer,
+                    prefix_name,
+                    epoch = 20,
+                    lr = 3e-4,
+                    weight_decay = 0,
+                    ):
+        super(Interaction, self).__init__()
+        self.molecule_encoder = molecule_encoder
+        self.disease_encoder = disease_encoder
+        self.protocol_encoder = protocol_encoder
+        self.global_embed_size = global_embed_size
+        self.highway_num_layer = highway_num_layer
+        self.feature_dim = self.molecule_encoder.embedding_size + self.disease_encoder.embedding_size + self.protocol_encoder.embedding_size
+        self.epoch = epoch
+        self.lr = lr
+        self.weight_decay = weight_decay
+        self.save_name = prefix_name + '_interaction'
+        self.f = F.relu
+        self.loss = nn.BCEWithLogitsLoss()
+        ##### NN
+        self.encoder2interaction_fc = nn.Linear(self.feature_dim, self.global_embed_size).to(device)
+        self.encoder2interaction_highway = Highway(self.global_embed_size, self.highway_num_layer).to(device)
+        self.pred_nn = nn.Linear(self.global_embed_size, 1)
+        self.device = device
+        self = self.to(device)
+    def feed_lst_of_module(self, input_feature, lst_of_module):
+        x = input_feature
+        for single_module in lst_of_module:
+            x = self.f(single_module(x))
+        return x
+    def forward_get_three_encoders(self, smiles_lst2, icdcode_lst3, criteria_lst):
+        molecule_embed = self.molecule_encoder.forward_smiles_lst_lst(smiles_lst2)
+        icd_embed = self.disease_encoder.forward_code_lst3(icdcode_lst3)
+        protocol_embed = self.protocol_encoder.forward(criteria_lst)
+        return molecule_embed, icd_embed, protocol_embed
+    def forward_encoder_2_interaction(self, molecule_embed, icd_embed, protocol_embed):
+        encoder_embedding = torch.cat([molecule_embed, icd_embed, protocol_embed], 1)
+        # interaction_embedding = self.feed_lst_of_module(encoder_embedding, [self.encoder2interaction_fc, self.encoder2interaction_highway])
+        h = self.encoder2interaction_fc(encoder_embedding)
+        h = self.f(h)
+        h = self.encoder2interaction_highway(h)
+        interaction_embedding = self.f(h)
+        return interaction_embedding
+    def forward(self, smiles_lst2, icdcode_lst3, criteria_lst):
+        molecule_embed, icd_embed, protocol_embed = self.forward_get_three_encoders(smiles_lst2, icdcode_lst3, criteria_lst)
+        interaction_embedding = self.forward_encoder_2_interaction(molecule_embed, icd_embed, protocol_embed)
+        output = self.pred_nn(interaction_embedding)
+        return output ### 32, 1
+    def evaluation(self, predict_all, label_all, threshold = 0.5):
+        import pickle, os
+        from sklearn.metrics import roc_curve, precision_recall_curve
+        with open("predict_label.txt", 'w') as fout:
+            for i,j in zip(predict_all, label_all):
+                fout.write(str(i)[:6] + '\t' + str(j)[:4]+'\n')
+        auc_score = roc_auc_score(label_all, predict_all)
+        figure_folder = "figure"
+        #### ROC-curve
+        fpr, tpr, thresholds = roc_curve(label_all, predict_all, pos_label=1)
+        # roc_curve =plt.figure()
+        # plt.plot(fpr,tpr,'-',label=self.save_name + ' ROC Curve ')
+        # plt.legend(fontsize = 15)
+        # plt.savefig(os.path.join(figure_folder,self.save_name+"_roc_curve.png"))
+        #### PR-curve
+        precision, recall, thresholds = precision_recall_curve(label_all, predict_all)
+        # plt.plot(recall,precision, label = self.save_name + ' PR Curve')
+        # plt.legend(fontsize = 15)
+        # plt.savefig(os.path.join(figure_folder,self.save_name + "_pr_curve.png"))
+        label_all = [int(i) for i in label_all]
+        float2binary = lambda x:0 if x < threshold else 1
+        predict_all = list(map(float2binary, predict_all))
+        f1score = f1_score(label_all, predict_all)
+        prauc_score = average_precision_score(label_all, predict_all)
+        # print(predict_all)
+        precision = precision_score(label_all, predict_all)
+        recall = recall_score(label_all, predict_all)
+        accuracy = accuracy_score(label_all, predict_all)
+        predict_1_ratio = sum(predict_all) / len(predict_all)
+        label_1_ratio = sum(label_all) / len(label_all)
+        return auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio
+    def testloader_to_lst(self, dataloader):
+        nctid_lst, label_lst, smiles_lst2, icdcode_lst3, criteria_lst = [], [], [], [], []
+        for nctid, label, smiles, icdcode, criteria in dataloader:
+            nctid_lst.extend(nctid)
+            label_lst.extend([i.item() for i in label])
+            smiles_lst2.extend(smiles)
+            icdcode_lst3.extend(icdcode)
+            criteria_lst.extend(criteria)
+        length = len(nctid_lst)
+        assert length == len(smiles_lst2) and length == len(icdcode_lst3)
+        return nctid_lst, label_lst, smiles_lst2, icdcode_lst3, criteria_lst, length
+    def generate_predict(self, dataloader):
+        whole_loss = 0
+        label_all, predict_all, nctid_all = [], [], []
+        for nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst in dataloader:
+            nctid_all.extend(nctid_lst)
+            label_vec = label_vec.to(self.device)
+            output = self.forward(smiles_lst2, icdcode_lst3, criteria_lst).view(-1)
+            loss = self.loss(output, label_vec.float())
+            whole_loss += loss.item()
+            predict_all.extend([i.item() for i in torch.sigmoid(output)])
+            label_all.extend([i.item() for i in label_vec])
+        return whole_loss, predict_all, label_all, nctid_all
+    def bootstrap_test(self, dataloader, valid_loader = None, sample_num = 20):
+        best_threshold = 0.5
+        # if validloader is not None:
+        #   best_threshold = self.select_threshold_for_binary(valid_loader)
+        #   print(f"best_threshold: {best_threshold}")
+        self.eval()
+        whole_loss, predict_all, label_all, nctid_all = self.generate_predict(dataloader)
+        from HINT.utils import plot_hist
+        plt.clf()
+        prefix_name = "./figure/" + self.save_name
+        plot_hist(prefix_name, predict_all, label_all)
+        def bootstrap(length, sample_num):
+            idx = [i for i in range(length)]
+            from random import choices
+            bootstrap_idx = [choices(idx, k = length) for i in range(sample_num)]
+            return bootstrap_idx
+        results_lst = []
+        bootstrap_idx_lst = bootstrap(len(predict_all), sample_num = sample_num)
+        for bootstrap_idx in bootstrap_idx_lst:
+            bootstrap_label = [label_all[idx] for idx in bootstrap_idx]
+            bootstrap_predict = [predict_all[idx] for idx in bootstrap_idx]
+            results = self.evaluation(bootstrap_predict, bootstrap_label, threshold = best_threshold)
+            results_lst.append(results)
+        self.train()
+        auc = [results[0] for results in results_lst]
+        f1score = [results[1] for results in results_lst]
+        prauc_score = [results[2] for results in results_lst]
+        print("PR-AUC   mean: "+str(np.mean(prauc_score))[:6], "std: "+str(np.std(prauc_score))[:6])
+        print("F1       mean: "+str(np.mean(f1score))[:6], "std: "+str(np.std(f1score))[:6])
+        print("ROC-AUC  mean: "+str(np.mean(auc))[:6], "std: "+str(np.std(auc))[:6])
+        for nctid, label, predict in zip(nctid_all, label_all, predict_all):
+            if (predict > 0.5 and label == 0) or (predict < 0.5 and label == 1):
+                print(nctid, label, str(predict)[:6])
+        nctid2predict = {nctid:predict for nctid, predict in zip(nctid_all, predict_all)}
+        pickle.dump(nctid2predict, open('results/nctid2predict.pkl', 'wb'))
+        return nctid_all, predict_all
+    def ongoing_test(self, dataloader, sample_num = 20):
+        self.eval()
+        best_threshold = 0.5
+        whole_loss, predict_all, label_all, nctid_all = self.generate_predict(dataloader)
+        self.train()
+        return nctid_all, predict_all
+    def test(self, dataloader, return_loss = True, validloader=None):
+        # if validloader is not None:
+        #   best_threshold = self.select_threshold_for_binary(validloader)
+        self.eval()
+        best_threshold = 0.5
+        whole_loss, predict_all, label_all, nctid_all = self.generate_predict(dataloader)
+        # from HINT.utils import plot_hist
+        # plt.clf()
+        # prefix_name = "./figure/" + self.save_name
+        # plot_hist(prefix_name, predict_all, label_all)
+        self.train()
+        if return_loss:
+            return whole_loss, predict_all, label_all
+        else:
+            print_num = 6
+            auc_score, f1score, prauc_score, precision, recall, accuracy, \
+            predict_1_ratio, label_1_ratio = self.evaluation(predict_all, label_all, threshold = best_threshold)
+            print("ROC AUC: " + str(auc_score)[:print_num] + "\nF1: " + str(f1score)[:print_num] \
+                 + "\nPR-AUC: " + str(prauc_score)[:print_num] \
+                 + "\nPrecision: " + str(precision)[:print_num] \
+                 + "\nrecall: "+str(recall)[:print_num] + "\naccuracy: "+str(accuracy)[:print_num] \
+                 + "\npredict 1 ratio: " + str(predict_1_ratio)[:print_num] \
+                 + "\nlabel 1 ratio: " + str(label_1_ratio)[:print_num])
+            return auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio
+    def learn(self, train_loader, valid_loader, test_loader):
+        opt = torch.optim.Adam(self.parameters(), lr = self.lr, weight_decay = self.weight_decay)
+        train_loss_record = []
+        valid_loss, valid_predict, valid_label = self.test(valid_loader, return_loss=True)
+        valid_loss_record = [valid_loss]
+        best_valid_loss = valid_loss
+        best_model = deepcopy(self)
+        train_output = []
+        valid_output = []
+        for ep in tqdm(range(self.epoch)):
+            for nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst in train_loader:
+                label_vec = label_vec.to(self.device)
+                output = self.forward(smiles_lst2, icdcode_lst3, criteria_lst).view(-1)  #### 32, 1 -> 32, ||  label_vec 32,
+                loss = self.loss(output, label_vec.float())
+                train_loss_record.append(loss.item())
+                train_output.append((loss.item(), output, label_vec))
+                opt.zero_grad()
+                loss.backward()
+                opt.step()
+            valid_loss, valid_predict, valid_label = self.test(valid_loader, return_loss=True)
+            valid_loss_record.append(valid_loss)
+            valid_output.append((valid_loss, valid_predict, valid_label))
+            print(f"valid_loss: {valid_loss}")
+            print(best_valid_loss)
+            if valid_loss < best_valid_loss:
+                best_valid_loss = valid_loss
+                best_model = deepcopy(self)
+        self.plot_learning_curve(train_loss_record, valid_loss_record)
+        self = deepcopy(best_model)
+        auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio = self.test(test_loader, return_loss = False, validloader = valid_loader)
+        return train_output, valid_output
+    def plot_learning_curve(self, train_loss_record, valid_loss_record):
+        plt.plot(train_loss_record)
+        plt.savefig("./figure/" + self.save_name + '_train_loss.jpg')
+        plt.clf()
+        plt.plot(valid_loss_record)
+        plt.savefig("./figure/" + self.save_name + '_valid_loss.jpg')
+        plt.clf()
+    def select_threshold_for_binary(self, validloader):
+        _, prediction, label_all, nctid_all = self.generate_predict(validloader)
+        best_f1 = 0
+        for threshold in prediction:
+            float2binary = lambda x:0 if x<threshold else 1
+            predict_all = list(map(float2binary, prediction))
+            f1score = precision_score(label_all, predict_all)
+            if f1score > best_f1:
+                best_f1 = f1score
+                best_threshold = threshold
+        return best_threshold
+class HINTModel_multi(Interaction):
+    def __init__(self, molecule_encoder, disease_encoder, protocol_encoder,
+                    device,
+                    global_embed_size,
+                    highway_num_layer,
+                    prefix_name,
+                    epoch = 20,
+                    lr = 3e-4,
+                    weight_decay = 0,
+                    ):
+        super(HINTModel_multi, self).__init__(molecule_encoder = molecule_encoder,
+                                   disease_encoder = disease_encoder,
+                                   protocol_encoder = protocol_encoder,
+                                   device = device,
+                                   prefix_name = prefix_name,
+                                   global_embed_size = global_embed_size,
+                                   highway_num_layer = highway_num_layer,
+                                   epoch = epoch,
+                                   lr = lr,
+                                   weight_decay = weight_decay)
+        self.pred_nn = nn.Linear(self.global_embed_size, 4)
+        self.loss = nn.CrossEntropyLoss()
+    def forward(self, smiles_lst2, icdcode_lst3, criteria_lst):
+        molecule_embed, icd_embed, protocol_embed = self.forward_get_three_encoders(smiles_lst2, icdcode_lst3, criteria_lst)
+        interaction_embedding = self.forward_encoder_2_interaction(molecule_embed, icd_embed, protocol_embed)
+        output = self.pred_nn(interaction_embedding)
+        return output ### 32, 4
+    def generate_predict(self, dataloader):
+        whole_loss = 0
+        label_all, predict_all = [], []
+        for nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst in dataloader:
+            label_vec = label_vec.to(self.device)
+            output = self.forward(smiles_lst2, icdcode_lst3, criteria_lst)
+            loss = self.loss(output, label_vec)
+            whole_loss += loss.item()
+            predict_all.extend(torch.argmax(output, 1).tolist())
+            # predict_all.extend([i.item() for i in torch.sigmoid(output)])
+            label_all.extend([i.item() for i in label_vec])
+        accuracy = len(list(filter(lambda x:x[0]==x[1], zip(predict_all, label_all)))) / len(label_all)
+        return whole_loss, predict_all, label_all, accuracy
+    def test(self, dataloader, return_loss = True, validloader=None):
+        # if validloader is not None:
+        #   best_threshold = self.select_threshold_for_binary(validloader)
+        self.eval()
+        whole_loss, predict_all, label_all, accuracy = self.generate_predict(dataloader)
+        self.train()
+        return whole_loss, predict_all, label_all, accuracy
+        # # from HINT.utils import plot_hist
+        # # plt.clf()
+        # # prefix_name = "./figure/" + self.save_name
+        # # plot_hist(prefix_name, predict_all, label_all)
+        # self.train()
+        # if return_loss:
+        #   return whole_loss
+        # else:
+        #   print_num = 5
+        #   auc_score, f1score, prauc_score, precision, recall, accuracy, \
+        #   predict_1_ratio, label_1_ratio = self.evaluation(predict_all, label_all, threshold = best_threshold)
+        #   print("ROC AUC: " + str(auc_score)[:print_num] + "\nF1: " + str(f1score)[:print_num] \
+        #        + "\nPR-AUC: " + str(prauc_score)[:print_num] \
+        #        + "\nPrecision: " + str(precision)[:print_num] \
+        #        + "\nrecall: "+str(recall)[:print_num] + "\naccuracy: "+str(accuracy)[:print_num] \
+        #        + "\npredict 1 ratio: " + str(predict_1_ratio)[:print_num] \
+        #        + "\nlabel 1 ratio: " + str(label_1_ratio)[:print_num])
+        #   return auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio
+    def learn(self, train_loader, valid_loader, test_loader):
+        opt = torch.optim.Adam(self.parameters(), lr = self.lr, weight_decay = self.weight_decay)
+        train_loss_record = []
+        valid_loss, predict_all, label_all, accuracy = self.test(valid_loader, return_loss=True)
+        print('accuracy', accuracy)
+        # valid_loss_record = [valid_loss]
+        # best_valid_loss = valid_loss
+        best_model = deepcopy(self)
+        for ep in tqdm(range(self.epoch)):
+            self.train()
+            for nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst in train_loader:
+                label_vec = label_vec.to(self.device)
+                output = self.forward(smiles_lst2, icdcode_lst3, criteria_lst)  #### 32, 1 -> 32, ||  label_vec 32,
+                # print(label_vec.shape, output.shape, label_vec, output)
+                loss = self.loss(output, label_vec)
+                train_loss_record.append(loss.item())
+                opt.zero_grad()
+                loss.backward()
+                opt.step()
+            valid_loss, predict_all, label_all, accuracy = self.test(valid_loader, return_loss=True)
+            print('accuracy', accuracy)
+        return predict_all, label_all
+        #   valid_loss_record.append(valid_loss)
+        #   if valid_loss < best_valid_loss:
+        #       best_valid_loss = valid_loss
+        #       best_model = deepcopy(self)
+        # self.plot_learning_curve(train_loss_record, valid_loss_record)
+        # self = deepcopy(best_model)
+        # auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio = self.test(test_loader, return_loss = False, validloader = valid_loader)
+class HINT_nograph(Interaction):
+    def __init__(self, molecule_encoder, disease_encoder, protocol_encoder, device,
+                    global_embed_size,
+                    highway_num_layer,
+                    prefix_name,
+                    epoch = 20,
+                    lr = 3e-4,
+                    weight_decay = 0, ):
+        super(HINT_nograph, self).__init__(molecule_encoder = molecule_encoder,
+                                   disease_encoder = disease_encoder,
+                                   protocol_encoder = protocol_encoder,
+                                   device = device,
+                                   global_embed_size = global_embed_size,
+                                   prefix_name = prefix_name,
+                                   highway_num_layer = highway_num_layer,
+                                   epoch = epoch,
+                                   lr = lr,
+                                   weight_decay = weight_decay,
+                                   )
+        self.save_name = prefix_name + '_HINT_nograph'
+        ''' ### interaction model
+        self.molecule_encoder = molecule_encoder
+        self.disease_encoder = disease_encoder
+        self.protocol_encoder = protocol_encoder
+        self.global_embed_size = global_embed_size
+        self.highway_num_layer = highway_num_layer
+        self.feature_dim = self.molecule_encoder.embedding_size + self.disease_encoder.embedding_size + self.protocol_encoder.embedding_size
+        self.epoch = epoch
+        self.lr = lr
+        self.weight_decay = weight_decay
+        self.save_name = save_name
+        self.f = F.relu
+        self.loss = nn.BCEWithLogitsLoss()
+        ##### NN
+        self.encoder2interaction_fc = nn.Linear(self.feature_dim, self.global_embed_size)
+        self.encoder2interaction_highway = Highway(self.global_embed_size, self.highway_num_layer)
+        self.pred_nn = nn.Linear(self.global_embed_size, 1)
+        '''
+        #### risk of disease
+        self.risk_disease_fc = nn.Linear(self.disease_encoder.embedding_size, self.global_embed_size)
+        self.risk_disease_higway = Highway(self.global_embed_size, self.highway_num_layer)
+        #### augment interaction
+        self.augment_interaction_fc = nn.Linear(self.global_embed_size*2, self.global_embed_size)
+        self.augment_interaction_highway = Highway(self.global_embed_size, self.highway_num_layer)
+        #### ADMET
+        self.admet_model = []
+        for i in range(5):
+            admet_fc = nn.Linear(self.molecule_encoder.embedding_size, self.global_embed_size).to(device)
+            admet_highway = Highway(self.global_embed_size, self.highway_num_layer).to(device)
+            self.admet_model.append(nn.ModuleList([admet_fc, admet_highway]))
+        self.admet_model = nn.ModuleList(self.admet_model)
+        #### PK
+        self.pk_fc = nn.Linear(self.global_embed_size*5, self.global_embed_size)
+        self.pk_highway = Highway(self.global_embed_size, self.highway_num_layer)
+        #### trial node
+        self.trial_fc = nn.Linear(self.global_embed_size*2, self.global_embed_size)
+        self.trial_highway = Highway(self.global_embed_size, self.highway_num_layer)
+        ## self.pred_nn = nn.Linear(self.global_embed_size, 1)
+        self.device = device
+        self = self.to(device)
+    def forward(self, smiles_lst2, icdcode_lst3, criteria_lst, if_gnn = False):
+        ### encoder for molecule, disease and protocol
+        molecule_embed, icd_embed, protocol_embed = self.forward_get_three_encoders(smiles_lst2, icdcode_lst3, criteria_lst)
+        ### interaction
+        interaction_embedding = self.forward_encoder_2_interaction(molecule_embed, icd_embed, protocol_embed)
+        ### risk of disease
+        risk_of_disease_embedding = self.feed_lst_of_module(input_feature = icd_embed,
+                                                            lst_of_module = [self.risk_disease_fc, self.risk_disease_higway])
+        ### augment interaction
+        augment_interaction_input = torch.cat([interaction_embedding, risk_of_disease_embedding], 1)
+        augment_interaction_embedding = self.feed_lst_of_module(input_feature = augment_interaction_input,
+                                                                lst_of_module = [self.augment_interaction_fc, self.augment_interaction_highway])
+        ### admet
+        admet_embedding_lst = []
+        for idx in range(5):
+            admet_embedding = self.feed_lst_of_module(input_feature = molecule_embed,
+                                                      lst_of_module = self.admet_model[idx])
+            admet_embedding_lst.append(admet_embedding)
+        ### pk
+        pk_input = torch.cat(admet_embedding_lst, 1)
+        pk_embedding = self.feed_lst_of_module(input_feature = pk_input,
+                                               lst_of_module = [self.pk_fc, self.pk_highway])
+        ### trial
+        trial_input = torch.cat([pk_embedding, augment_interaction_embedding], 1)
+        trial_embedding = self.feed_lst_of_module(input_feature = trial_input,
+                                                  lst_of_module = [self.trial_fc, self.trial_highway])
+        output = self.pred_nn(trial_embedding)
+        if if_gnn == False:
+            return output
+        else:
+            embedding_lst = [molecule_embed, icd_embed, protocol_embed, interaction_embedding, risk_of_disease_embedding, \
+                             augment_interaction_embedding] + admet_embedding_lst + [pk_embedding, trial_embedding]
+            return embedding_lst
+class HINTModel(HINT_nograph):
+    def __init__(self, molecule_encoder, disease_encoder, protocol_encoder,
+                    device,
+                    global_embed_size,
+                    highway_num_layer,
+                    prefix_name,
+                    gnn_hidden_size,
+                    epoch = 20,
+                    lr = 3e-4,
+                    weight_decay = 0,):
+        super(HINTModel, self).__init__(molecule_encoder = molecule_encoder,
+                                   disease_encoder = disease_encoder,
+                                   protocol_encoder = protocol_encoder,
+                                   device = device,
+                                   prefix_name = prefix_name,
+                                   global_embed_size = global_embed_size,
+                                   highway_num_layer = highway_num_layer,
+                                   epoch = epoch,
+                                   lr = lr,
+                                   weight_decay = weight_decay)
+        self.save_name = prefix_name
+        self.gnn_hidden_size = gnn_hidden_size
+        #### GNN
+        self.adj = self.generate_adj()
+        self.gnn = GCN(
+            nfeat = self.global_embed_size,
+            nhid = self.gnn_hidden_size,
+            nclass = 1,
+            dropout = 0.6,
+            init = 'uniform')
+        ### gnn's attention
+        self.node_size = self.adj.shape[0]
+        '''
+        self.graph_attention_model_mat = nn.ModuleList([nn.ModuleList([self.gnn_attention() \
+                                        if self.adj[i,j]==1 else None  \
+                                        for j in range(self.node_size)]) \
+                                        for i in range(self.node_size)])
+        '''
+        self.graph_attention_model_mat = nn.ModuleList([nn.ModuleList([self.gnn_attention() if self.adj[i,j]==1 else None for j in range(self.node_size)]) for i in range(self.node_size)])
+        # self.graph_attention_model_mat = nn.ModuleList([nn.ModuleList([self.gnn_attention() if self.adj[i,j]==1 else None for j in range(self.node_size)]) for i in range(self.node_size)])
+        '''
+nn.ModuleList([ nn.ModuleList([nn.Linear(3,2) for j in range(5)] + [None]) for i in range(3)])
+        '''
+        self.device = device
+        self = self.to(device)
+    def generate_adj(self):
+        ##### consistent with HINT_nograph.forward
+        lst = ["molecule", "disease", "criteria", 'INTERACTION', 'risk_disease', 'augment_interaction', 'A', 'D', 'M', 'E', 'T', 'PK', "final"]
+        edge_lst = [("disease", "molecule"), ("disease", "criteria"), ("molecule", "criteria"),
+                    ("disease", "INTERACTION"), ("molecule", "INTERACTION"),  ("criteria", "INTERACTION"),
+                    ("disease", "risk_disease"), ('risk_disease', 'augment_interaction'), ('INTERACTION', 'augment_interaction'),
+                    ("molecule", "A"), ("molecule", "D"), ("molecule", "M"), ("molecule", "E"), ("molecule", "T"),
+                    ('A', 'PK'), ('D', 'PK'), ('M', 'PK'), ('E', 'PK'), ('T', 'PK'),
+                    ('augment_interaction', 'final'), ('PK', 'final')]
+        adj = torch.zeros(len(lst), len(lst))
+        adj = torch.eye(len(lst)) * len(lst)
+        num2str = {k:v for k,v in enumerate(lst)}
+        str2num = {v:k for k,v in enumerate(lst)}
+        for i,j in edge_lst:
+            n1,n2 = str2num[i], str2num[j]
+            adj[n1,n2] = 1
+            adj[n2,n1] = 1
+        return adj.to(self.device)
+    def generate_attention_matrx(self, node_feature_mat):
+        attention_mat = torch.zeros(self.node_size, self.node_size).to(self.device)
+        for i in range(self.node_size):
+            for j in range(self.node_size):
+                if self.adj[i,j]!=1:
+                    continue
+                feature = torch.cat([node_feature_mat[i].view(1,-1), node_feature_mat[j].view(1,-1)], 1)
+                attention_model = self.graph_attention_model_mat[i][j]
+                attention_mat[i,j] = torch.sigmoid(self.feed_lst_of_module(input_feature=feature, lst_of_module=attention_model))
+        return attention_mat
+    ##### self.global_embed_size*2 -> 1
+    def gnn_attention(self):
+        highway_nn = Highway(size = self.global_embed_size*2, num_layers = self.highway_num_layer).to(self.device)
+        highway_fc = nn.Linear(self.global_embed_size*2, 1).to(self.device)
+        return nn.ModuleList([highway_nn, highway_fc])
+    def forward(self, smiles_lst2, icdcode_lst3, criteria_lst, return_attention_matrix = False):
+        embedding_lst = HINT_nograph.forward(self, smiles_lst2, icdcode_lst3, criteria_lst, if_gnn = True)
+        ### length is 13, each is 32,50
+        batch_size = embedding_lst[0].shape[0]
+        output_lst = []
+        if return_attention_matrix:
+            attention_mat_lst = []
+        for i in range(batch_size):
+            node_feature_lst = [embedding[i].view(1,-1) for embedding in embedding_lst]
+            node_feature_mat = torch.cat(node_feature_lst, 0) ### 13, 50
+            attention_mat = self.generate_attention_matrx(node_feature_mat)
+            output = self.gnn(node_feature_mat, self.adj * attention_mat)
+            output = output[-1].view(1,-1)
+            output_lst.append(output)
+            if return_attention_matrix:
+                attention_mat_lst.append(attention_mat)
+        output_mat = torch.cat(output_lst, 0)
+        if not return_attention_matrix:
+            return output_mat
+        else:
+            return output_mat, attention_mat_lst
+    def interpret(self, complete_dataloader):
+        from graph_visualize_interpret import data2graph
+        from HINT.utils import replace_strange_symbol
+        for nctid_lst, status_lst, why_stop_lst, label_vec, phase_lst, \
+            diseases_lst, icdcode_lst3, drugs_lst, smiles_lst2, criteria_lst in complete_dataloader:
+            output, attention_mat_lst = self.forward(smiles_lst2, icdcode_lst3, criteria_lst, return_attention_matrix=True)
+            output = output.view(-1)
+            batch_size = len(nctid_lst)
+            for i in range(batch_size):
+                name = '__'.join([nctid_lst[i], status_lst[i], why_stop_lst[i], \
+                                                        str(label_vec[i].item()), str(torch.sigmoid(output[i]).item())[:5], \
+                                                        phase_lst[i], diseases_lst[i], drugs_lst[i]])
+                if len(name) > 150:
+                    name = name[:250]
+                name = replace_strange_symbol(name)
+                name = name.replace('__', '_')
+                name = name.replace('  ', ' ')
+                name = 'interpret_result/' + name + '.png'
+                print(name)
+                data2graph(attention_matrix = attention_mat_lst[i], adj = self.adj, save_name = name)
+    def init_pretrain(self, admet_model):
+        self.molecule_encoder = admet_model.molecule_encoder
+    ### generate attention matrix
+class Only_Molecule(Interaction):
+    def __init__(self, molecule_encoder, disease_encoder, protocol_encoder,
+                    global_embed_size,
+                    highway_num_layer,
+                    prefix_name,
+                    epoch = 20,
+                    lr = 3e-4,
+                    weight_decay = 0):
+        super(Only_Molecule, self).__init__(molecule_encoder=molecule_encoder,
+                                            disease_encoder=disease_encoder,
+                                            protocol_encoder=protocol_encoder,
+                                            global_embed_size = global_embed_size,
+                                            highway_num_layer = highway_num_layer,
+                                            prefix_name = prefix_name,
+                                            epoch = epoch,
+                                            lr = lr,
+                                            weight_decay = weight_decay,)
+        self.molecule2out = nn.Linear(self.global_embed_size,1)
+    def forward(self, smiles_lst2, icdcode_lst3, criteria_lst):
+        molecule_embed = self.molecule_encoder.forward_smiles_lst_lst(smiles_lst2)
+        return self.molecule2out(molecule_embed)
+class Only_Disease(Only_Molecule):
+    def __init__(self, molecule_encoder, disease_encoder, protocol_encoder,
+                    global_embed_size,
+                    highway_num_layer,
+                    prefix_name,
+                    epoch = 20,
+                    lr = 3e-4,
+                    weight_decay = 0):
+        super(Only_Disease, self).__init__(molecule_encoder = molecule_encoder,
+                                            disease_encoder=disease_encoder,
+                                            protocol_encoder=protocol_encoder,
+                                            global_embed_size = global_embed_size,
+                                            highway_num_layer = highway_num_layer,
+                                            prefix_name = prefix_name,
+                                            epoch = epoch,
+                                            lr = lr,
+                                            weight_decay = weight_decay,)
+        self.disease2out = self.molecule2out
+    def forward(self, smiles_lst2, icdcode_lst3, criteria_lst):
+        icd_embed = self.disease_encoder.forward_code_lst3(icdcode_lst3)
+        return self.disease2out(icd_embed)
+def dataloader2Xy(nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst, global_icd):
+    ## label_vec: (n,)
+    y = label_vec
+    num_icd = len(global_icd)
+    from HINT.utils import smiles_lst2fp
+    fp_lst = [smiles_lst2fp(smiles_lst).reshape(1,-1) for smiles_lst in smiles_lst2]
+    fp_mat = np.concatenate(fp_lst, 0)
+    # fp_mat = torch.from_numpy(fp_mat)  ### (n,2048)
+    icdcode_lst = []
+    for lst2 in icdcode_lst3:
+        lst = list(reduce(lambda x,y:x+y, lst2))
+        lst = [i.split('.')[0] for i in lst]
+        lst = set(lst)
+        icd_feature = np.zeros((1,num_icd), np.int32)
+        for ele in lst:
+            if ele in global_icd:
+                idx = global_icd.index(ele)
+                icd_feature[0,idx] = 1
+        icdcode_lst.append(icd_feature)
+    icdcode_mat = np.concatenate(icdcode_lst, 0)
+    X = np.concatenate([fp_mat, icdcode_mat], 1)
+    X = torch.from_numpy(X)
+    X = X.float()
+    # icdcode_mat = torch.from_numpy(icdcode_mat)
+    # X = torch.cat([fp_mat, icdcode_mat], 1)
+    return X, y
+class FFNN(nn.Sequential):
+    def __init__(self, molecule_dim, diseasecode_dim,
+                    global_icd,
+                    protocol_dim = 0,
+                    prefix_name = 'FFNN',
+                    epoch = 10,
+                    lr = 3e-4,
+                    weight_decay = 0,
+                    ):
+        super(FFNN, self).__init__()
+        self.molecule_dim = molecule_dim
+        self.diseasecode_dim = diseasecode_dim
+        self.protocol_dim = protocol_dim
+        self.prefix_name = prefix_name
+        self.epoch = epoch
+        self.lr = lr
+        self.weight_decay = weight_decay
+        self.global_icd = global_icd
+        self.num_icd = len(global_icd)
+        self.fc_dims = [self.molecule_dim + self.diseasecode_dim + self.protocol_dim, 2000, 1000, 200, 50, 1]
+        self.fc_layers = nn.ModuleList([nn.Linear(v,self.fc_dims[i+1]) for i,v in enumerate(self.fc_dims[:-1])])
+        self.loss = nn.BCEWithLogitsLoss()
+        self.save_name = prefix_name
+    def forward(self, X):
+        for i in range(len(self.fc_layers) - 1):
+            fc_layer = self.fc_layers[i]
+            X = fc_layer(X)
+        last_layer = self.fc_layers[-1]
+        pred = F.sigmoid(last_layer(X))
+        return pred
+    def learn(self, train_loader, valid_loader, test_loader):
+        opt = torch.optim.Adam(self.parameters(), lr = self.lr, weight_decay = self.weight_decay)
+        train_loss_record = []
+        valid_loss = self.test(valid_loader, return_loss=True)
+        valid_loss_record = [valid_loss]
+        best_valid_loss = valid_loss
+        best_model = deepcopy(self)
+        for ep in tqdm(range(self.epoch)):
+            for nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst in train_loader:
+                X, _ = dataloader2Xy(nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst, self.global_icd)
+                output = self.forward(X).view(-1)  #### 32, 1 -> 32, ||  label_vec 32,
+                loss = self.loss(output, label_vec.float())
+                train_loss_record.append(loss.item())
+                opt.zero_grad()
+                loss.backward()
+                opt.step()
+            valid_loss = self.test(valid_loader, return_loss=True)
+            valid_loss_record.append(valid_loss)
+            if valid_loss < best_valid_loss:
+                best_valid_loss = valid_loss
+                best_model = deepcopy(self)
+        self.plot_learning_curve(train_loss_record, valid_loss_record)
+        self = deepcopy(best_model)
+        auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio = self.test(test_loader, return_loss = False, validloader = valid_loader)
+    def evaluation(self, predict_all, label_all, threshold = 0.5):
+        import pickle, os
+        from sklearn.metrics import roc_curve, precision_recall_curve
+        with open("predict_label.txt", 'w') as fout:
+            for i,j in zip(predict_all, label_all):
+                fout.write(str(i)[:4] + '\t' + str(j)[:4]+'\n')
+        auc_score = roc_auc_score(label_all, predict_all)
+        figure_folder = "figure"
+        #### ROC-curve
+        fpr, tpr, thresholds = roc_curve(label_all, predict_all, pos_label=1)
+        # roc_curve =plt.figure()
+        # plt.plot(fpr,tpr,'-',label=self.save_name + ' ROC Curve ')
+        # plt.legend(fontsize = 15)
+        #plt.savefig(os.path.join(figure_folder,name+"_roc_curve.png"))
+        #### PR-curve
+        precision, recall, thresholds = precision_recall_curve(label_all, predict_all)
+        # plt.plot(recall,precision, label = self.save_name + ' PR Curve')
+        # plt.legend(fontsize = 15)
+        # plt.savefig(os.path.join(figure_folder,self.save_name + "_pr_curve.png"))
+        label_all = [int(i) for i in label_all]
+        float2binary = lambda x:0 if x<threshold else 1
+        predict_all = list(map(float2binary, predict_all))
+        f1score = f1_score(label_all, predict_all)
+        prauc_score = average_precision_score(label_all, predict_all)
+        # print(predict_all)
+        precision = precision_score(label_all, predict_all)
+        recall = recall_score(label_all, predict_all)
+        accuracy = accuracy_score(label_all, predict_all)
+        predict_1_ratio = sum(predict_all) / len(predict_all)
+        label_1_ratio = sum(label_all) / len(label_all)
+        return auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio
+    def generate_predict(self, dataloader):
+        whole_loss = 0
+        label_all, predict_all = [], []
+        for nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst in dataloader:
+            X, _ = dataloader2Xy(nctid_lst, label_vec, smiles_lst2, icdcode_lst3, criteria_lst, self.global_icd)
+            output = self.forward(X).view(-1)
+            loss = self.loss(output, label_vec.float())
+            whole_loss += loss.item()
+            predict_all.extend([i.item() for i in torch.sigmoid(output)])
+            label_all.extend([i.item() for i in label_vec])
+        return whole_loss, predict_all, label_all
+    def bootstrap_test(self, dataloader, validloader = None, sample_num = 20):
+        best_threshold = 0.5
+        # if validloader is not None:
+        #   best_threshold = self.select_threshold_for_binary(validloader)
+        self.eval()
+        whole_loss, predict_all, label_all = self.generate_predict(dataloader)
+        from HINT.utils import plot_hist
+        plt.clf()
+        prefix_name = "./figure/" + self.save_name
+        plot_hist(prefix_name, predict_all, label_all)
+        def bootstrap(length, sample_num):
+            idx = [i for i in range(length)]
+            from random import choices
+            bootstrap_idx = [choices(idx, k = length) for i in range(sample_num)]
+            return bootstrap_idx
+        results_lst = []
+        bootstrap_idx_lst = bootstrap(len(predict_all), sample_num = sample_num)
+        for bootstrap_idx in bootstrap_idx_lst:
+            bootstrap_label = [label_all[idx] for idx in bootstrap_idx]
+            bootstrap_predict = [predict_all[idx] for idx in bootstrap_idx]
+            results = self.evaluation(bootstrap_predict, bootstrap_label, threshold = best_threshold)
+            results_lst.append(results)
+        self.train()
+        auc = [results[0] for results in results_lst]
+        f1score = [results[1] for results in results_lst]
+        prauc_score = [results[2] for results in results_lst]
+        print("PR-AUC   mean: "+str(np.mean(prauc_score))[:6], "std: "+str(np.std(prauc_score))[:6])
+        print("F1       mean: "+str(np.mean(f1score))[:6], "std: "+str(np.std(f1score))[:6])
+        print("ROC-AUC  mean: "+ str(np.mean(auc))[:6], "std: " + str(np.std(auc))[:6])
+    def test(self, dataloader, return_loss = True, validloader=None):
+        # if validloader is not None:
+        #   best_threshold = self.select_threshold_for_binary(validloader)
+        self.eval()
+        best_threshold = 0.5
+        whole_loss, predict_all, label_all = self.generate_predict(dataloader)
+        # from HINT.utils import plot_hist
+        # plt.clf()
+        # prefix_name = "./figure/" + self.save_name
+        # plot_hist(prefix_name, predict_all, label_all)
+        self.train()
+        if return_loss:
+            return whole_loss
+        else:
+            print_num = 5
+            auc_score, f1score, prauc_score, precision, recall, accuracy, \
+            predict_1_ratio, label_1_ratio = self.evaluation(predict_all, label_all, threshold = best_threshold)
+            print("ROC AUC: " + str(auc_score)[:print_num] + "\nF1: " + str(f1score)[:print_num] \
+                 + "\nPR-AUC: " + str(prauc_score)[:print_num] \
+                 + "\nPrecision: " + str(precision)[:print_num] \
+                 + "\nrecall: "+str(recall)[:print_num] + "\naccuracy: "+str(accuracy)[:print_num] \
+                 + "\npredict 1 ratio: " + str(predict_1_ratio)[:print_num] \
+                 + "\nlabel 1 ratio: " + str(label_1_ratio)[:print_num])
+            return auc_score, f1score, prauc_score, precision, recall, accuracy, predict_1_ratio, label_1_ratio
+    def plot_learning_curve(self, train_loss_record, valid_loss_record):
+        plt.plot(train_loss_record)
+        plt.savefig("./figure/" + self.save_name + '_train_loss.jpg')
+        plt.clf()
+        plt.plot(valid_loss_record)
+        plt.savefig("./figure/" + self.save_name + '_valid_loss.jpg')
+        plt.clf()
+class ADMET(nn.Sequential):
+    def __init__(self, mpnn_model, device):
+        super(ADMET, self).__init__()
+        self.num = 5
+        self.mpnn_model = mpnn_model
+        self.device = device
+        self.mpnn_dim = mpnn_model.mpnn_hidden_size
+        self.admet_model = []
+        self.global_embed_size = self.mpnn_dim
+        self.highway_num_layer = 2
+        for i in range(5):
+            admet_fc = nn.Linear(self.mpnn_model.mpnn_hidden_size, self.global_embed_size).to(device)
+            admet_highway = Highway(self.global_embed_size, self.highway_num_layer).to(device)
+            self.admet_model.append(nn.ModuleList([admet_fc, admet_highway]))
+        self.admet_model = nn.ModuleList(self.admet_model)
+        self.admet_pred = nn.ModuleList([nn.Linear(self.global_embed_size,1).to(device) for i in range(5)])
+        self.f = F.relu
+        self.device = device
+        self = self.to(device)
+    def feed_lst_of_module(self, input_feature, lst_of_module):
+        x = input_feature
+        for single_module in lst_of_module:
+            x = self.f(single_module(x))
+        return x
+    def forward(self, smiles_lst, idx):
+        assert idx in list(range(5))
+        '''
+            xxxxxxxxxxxx
+        '''
+        embeds = self.mpnn_model.forward_smiles_lst_lst(smiles_lst)
+        embeds = self.feed_lst_of_module(embeds, self.admet_model[idx])
+        output = self.admet_pred[idx](embeds)
+        return output
+    def test(self, valid_loader):
+        pass
+    def learn(self, train_loader, valid_loader, idx):
+        opt = torch.optim.Adam(self.parameters(), lr = self.lr, weight_decay = self.weight_decay)
+        train_loss_record = []
+        valid_loss = self.test(valid_loader, return_loss=True)
+        valid_loss_record = [valid_loss]
+        best_valid_loss = valid_loss
+        best_model = deepcopy(self)
+        for ep in tqdm(range(self.epoch)):
+            for smiles_lst in train_loader:
+                output = self.forward(smiles_lst).view(-1)  #### 32, 1 -> 32, ||  label_vec 32,
+                loss = self.loss(output, label_vec.float())
+                train_loss_record.append(loss.item())
+                opt.zero_grad()
+                loss.backward()
+                opt.step()
+            valid_loss = self.test(valid_loader, return_loss=True)
+            valid_loss_record.append(valid_loss)
+            if valid_loss < best_valid_loss:
+                best_valid_loss = valid_loss
+                best_model = deepcopy(self)
+        self = deepcopy(best_model)