SHEPHERD / Git / [bdbb47] /shepherd/task_heads/gp

Models:
MarcoTheBlack/
SHEPHERD
Downloads: 1
[bdbb47]: / shepherd / task_heads / gp_aligner.py
History
Download this file
163 lines (122 with data), 8.5 kB

import pytorch_lightning as pl
from pytorch_lightning.loggers import WandbLogger
import wandb

from torch import nn
import torch
import torch.nn.functional as F
from torch.nn import TransformerEncoderLayer

import numpy as np
from scipy.stats import rankdata

from allennlp.modules.attention import CosineAttention, BilinearAttention, AdditiveAttention, DotProductAttention


from utils.loss_utils import MultisimilarityCriterion, _construct_labels, unique, _construct_disease_labels
from utils.train_utils import masked_mean, masked_softmax, weighted_sum, plot_degree_vs_attention, mean_reciprocal_rank, top_k_acc

class GPAligner(pl.LightningModule):

    def __init__(self, hparams, embed_dim):
        super().__init__()
        self.hyperparameters = hparams
        print('GPAligner embedding dimension: ', embed_dim)

        # attention for collapsing set of phenotype embeddings
        self.attn_vector = nn.Parameter(torch.zeros((1, embed_dim), dtype=torch.float), requires_grad=True)   
        nn.init.xavier_uniform_(self.attn_vector)
        
        if self.hyperparameters['attention_type'] == 'bilinear':
            self.attention = BilinearAttention(embed_dim, embed_dim)
        elif self.hyperparameters['attention_type'] == 'additive':
            self.attention = AdditiveAttention(embed_dim, embed_dim)
        elif self.hyperparameters['attention_type'] == 'dotpdt':
            self.attention = DotProductAttention()
        
        if self.hyperparameters['decoder_type'] == "dotpdt": 
            self.decoder = DotProductAttention(normalize=False)
        elif self.hyperparameters['decoder_type'] == "bilinear": 
            self.decoder = BilinearAttention(embed_dim, embed_dim, activation=torch.tanh, normalize=False)
        else:
            raise NotImplementedError

        # projection layers
        self.phen_project = nn.Linear(embed_dim, embed_dim) 
        self.gene_project = nn.Linear(embed_dim, embed_dim)
        self.phen_project2 = nn.Linear(embed_dim, embed_dim)
        self.gene_project2 = nn.Linear(embed_dim, embed_dim)

        # optional disease projection layer
        if self.hyperparameters['use_diseases']:
            self.disease_project = nn.Linear(embed_dim, embed_dim)
            self.disease_project2 = nn.Linear(embed_dim, embed_dim)

        self.leaky_relu = nn.LeakyReLU(hparams['leaky_relu'])

        self.loss = MultisimilarityCriterion(hparams['pos_weight'], hparams['neg_weight'], 
                                hparams['margin'], hparams['thresh'], 
                                embed_dim, hparams['only_hard_distractors']) 

        if 'n_transformer_layers' in hparams and hparams['n_transformer_layers'] > 0:
            encoder_layer = TransformerEncoderLayer(d_model=embed_dim, nhead=hparams['n_transformer_heads'])
            self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=hparams['n_transformer_layers'])


    def forward(self, phenotype_embeddings, candidate_gene_embeddings, disease_embeddings=None, phenotype_mask=None, gene_mask=None, disease_mask=None): 
        assert phenotype_mask != None
        assert gene_mask != None
        if self.hyperparameters['use_diseases']: assert disease_mask != None

        if 'n_transformer_layers' in self.hyperparameters and self.hyperparameters['n_transformer_layers'] > 0:
            phenotype_embeddings = self.transformer_encoder(phenotype_embeddings.transpose(0, 1), src_key_padding_mask=~phenotype_mask).transpose(0, 1)

        # attention weighted average of phenotype embeddings
        batched_attn = self.attn_vector.repeat(phenotype_embeddings.shape[0],1)
        attn_weights = self.attention(batched_attn, phenotype_embeddings, phenotype_mask)
        phenotype_embedding = weighted_sum(phenotype_embeddings, attn_weights)

        # project embeddings
        phenotype_embedding = self.phen_project2(self.leaky_relu(self.phen_project(phenotype_embedding)))
        candidate_gene_embeddings = self.gene_project2(self.leaky_relu(self.gene_project(candidate_gene_embeddings)))
        

        if self.hyperparameters['use_diseases']: 
            disease_embeddings = self.disease_project2(self.leaky_relu(self.disease_project(disease_embeddings)))
        else:
            disease_embeddings = None
            disease_mask = None

        return phenotype_embedding, candidate_gene_embeddings, disease_embeddings, gene_mask, phenotype_mask, disease_mask, attn_weights 


    def _calc_similarity(self, phenotype_embeddings, candidate_gene_embeddings, disease_embeddings, batch_cand_gene_nid,  batch_corr_gene_nid, batch_disease_nid, one_hot_labels, gene_mask, phenotype_mask, disease_mask, use_candidate_list, cand_gene_to_phenotypes_spl, alpha): 
        # Normalize Embeddings (within each individual patient)
        phenotype_embeddings = F.normalize(phenotype_embeddings, p=2, dim=1) 
        batch_sz = phenotype_embeddings.shape[0]
        if disease_embeddings != None: disease_embeddings = F.normalize(disease_embeddings.squeeze(), p=2, dim=1) 
        if candidate_gene_embeddings != None:
            batch_sz, n_cand_genes, embed_dim = candidate_gene_embeddings.shape
            candidate_gene_embeddings = F.normalize(candidate_gene_embeddings.view(batch_sz*n_cand_genes,-1), p=2, dim=1).view(batch_sz, n_cand_genes, embed_dim)

        # Only use each patient's candidate genes/diseases
        if self.hyperparameters['only_hard_distractors'] or use_candidate_list:
            if disease_embeddings == None: # only use genes
                mask = gene_mask
                one_hot_labels = one_hot_labels
                raw_sims = self.decoder(phenotype_embeddings, candidate_gene_embeddings)
                if cand_gene_to_phenotypes_spl != None:
                    sims = alpha * raw_sims + (1 - alpha) * cand_gene_to_phenotypes_spl
                else: sims = raw_sims
            
            elif candidate_gene_embeddings == None: # only use diseases
                raise NotImplementedError
            
            else:
                raise NotImplementedError
        
        # Otherwise, use entire batch as candidate genes/diseases
        else:
            if disease_embeddings == None: #only use genes
                candidate_gene_idx, candidate_gene_embeddings, one_hot_labels = _construct_labels(candidate_gene_embeddings, batch_cand_gene_nid, batch_corr_gene_nid, gene_mask)
                raw_sims = self.decoder(phenotype_embeddings, candidate_gene_embeddings.unsqueeze(0).repeat(batch_sz,1,1))
                if cand_gene_to_phenotypes_spl != None:
                    sims = alpha * raw_sims + (1 - alpha) * cand_gene_to_phenotypes_spl
                else: sims = raw_sims
                mask = None
                
            elif candidate_gene_embeddings == None: #only use diseases
                candidate_embeddings, one_hot_labels = _construct_disease_labels(disease_embeddings, batch_disease_nid)
                raw_sims = self.decoder(phenotype_embeddings, candidate_embeddings.unsqueeze(0).repeat(batch_sz,1,1))
                if batch_disease_nid.shape[1] > 1:
                    raw_sims = raw_sims[batch_disease_nid[:,0].squeeze() != 0] # remove rows where the patient doesn't have 
                    one_hot_labels = one_hot_labels[batch_disease_nid[:,0].squeeze() != 0]
                else:
                    raw_sims = raw_sims[batch_disease_nid.squeeze() != 0] # remove rows where the patient doesn't have 
                    one_hot_labels = one_hot_labels[batch_disease_nid.squeeze() != 0]
                sims = raw_sims
                mask = None

            else: # use genes + diseases
                raise NotImplementedError

        return sims, raw_sims, mask, one_hot_labels


    def _rank_genes(self, phen_gene_sims, gene_mask, one_hot_labels):
        phen_gene_sims = phen_gene_sims * gene_mask
        padded_phen_gene_sims = phen_gene_sims + (~gene_mask * -100000) # we want to rank the padded values last
        gene_ranks = torch.tensor(np.apply_along_axis(lambda row: rankdata(row * -1, method='average'), axis=1, arr=padded_phen_gene_sims.detach().cpu().numpy()))
        if one_hot_labels is None: correct_gene_ranks = None
        else: 
            gene_ranks = gene_ranks.to(one_hot_labels.device)
            correct_gene_ranks = gene_ranks[one_hot_labels == 1]
        return correct_gene_ranks, padded_phen_gene_sims

    def calc_loss(self, sims, mask, one_hot_labels):
        return self.loss(sims, mask, one_hot_labels)