QMLOmics / Git / [b798eb] /src/main.py

Models:
AlyssaS/
QMLOmics
Downloads: 1
[b798eb]: / src / main.py
History
Download this file
442 lines (376 with data), 15.3 kB

""" Quantum machine learning on neural network embeddings

    Returns:
        Performance metrics on neural network, support vector classifier, and quantum support vector classifier 
"""
### Author: Aritra Bose <a.bose@ibm.com>
### MIT license


### --- base class imports --- ###
import pandas as pd
import numpy as np
import argparse
import os
import copy
from time import strftime, gmtime
#import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns 
sns.set_style('dark')

# ====== Torch imports ======
import torch
from torch.utils.data import DataLoader
from pytorch_lightning.callbacks import ModelCheckpoint
from pytorch_lightning.callbacks import EarlyStopping
from pytorch_lightning.loggers import TensorBoardLogger
import pytorch_lightning as pl 
from torchmetrics import ConfusionMatrix, F1Score
# ====== Scikit-learn imports ======

from sklearn.svm import SVC
from sklearn.metrics import (
    auc,
    roc_curve,
    ConfusionMatrixDisplay,
    f1_score,
    balanced_accuracy_score,
)
from sklearn.preprocessing import StandardScaler, LabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold


# ====== Qiskit imports ======

from qiskit.circuit.library import ZZFeatureMap, ZFeatureMap, PauliFeatureMap
from qiskit import QuantumCircuit
from qiskit_ibm_runtime import QiskitRuntimeService
from qiskit_algorithms.utils import algorithm_globals
from qiskit.primitives import Sampler
from qiskit_aer import AerSimulator
from qiskit_algorithms.state_fidelities import ComputeUncompute
from qiskit_machine_learning.kernels import FidelityQuantumKernel
from qiskit_machine_learning.algorithms import QSVC, PegasosQSVC

# ====== Local imports ======
from model import LModel
from dataset import OmicsData


def parse_args(): 
    """Parse the input command line args using argparse 

    Returns:
        Dictionary of parsed arguments.
    """
    parser = argparse.ArgumentParser(
        prog="quantum machine learning on multi-omics",
        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
    )
    parser.add_argument(
        "-f",
        "--file",
        type=str, 
        default=None, 
        help="Multi-omics data file"
    )
    parser.add_argument(
        "-cv",
        "--num_cv",
        type=int,
        default = 1, 
        help="Number of cross-validation folds"
    )
    parser.add_argument(
        "-e", "--epoch", 
        type=int, 
        default=100, 
        help="Number of training epochs"
    )
    parser.add_argument(
        "-b", 
        "--batch_size", 
        type=int, 
        default=20, 
        help="Train/test batch size"
    )
    parser.add_argument(
        "-lr",
        "--lr",
        type=float,
        default=1e-3,
        help="learning rate"
    )
    parser.add_argument(
        "-l2",
        "--weight_decay",
        type=float,
        default=1e-5,
        help="L2 regularization"
    )
    parser.add_argument(
        "-p",
        "--patience",
        type=int,
        default=3,
        help="Early stopping patience"
    )
    parser.add_argument(
        "-i",
        "--iter",
        type=int,
        default=1,
        help="Number of iterations"
    )
    parser.add_argument(
        "-d",
        "--dim",
        type=int,
        default=8,
        help="Number of dimensions for the neural network embedding"
    )
    parser.add_argument(
        "-c",
        "--C",
        type=int,
        default=1,
        help="Regularization parameter for SVC"
    )
    parser.add_argument(
        "-pq",
        "--pegasos",
        type=bool,
        default=False,
        help="Flag to use PegasosQSVC"
    )
    parser.add_argument(
        "-en",
        "--encoding",
        type=str, 
        default="ZZ", 
        choices=['ZZ', 'Z', 'P'],
        help="Econding for QML"
    )
    args = parser.parse_args()
    return args 

def validate_args(args):
    """Validate the arguments

    Args:
        args (dictionary): The argument dictionary as returned by parse_args(). 

    Raises:
        ValueError: Input file path error if incorrect path provided.
    """
    if args.file is None or os.path.exists(args.file) is None: 
        raise ValueError("Input file path error!")


def process_data(file):
    """Process the data file 

    Args:
        file (path): Path of the .csv file with the following column structure: 
                    [Sample ID, Genes..., label]
                    label should contain the header of y in the .csv file 

    Returns:
        numpy ndarrays pertaining to the splits of the training and held out test data. 
    """
    
    df = pd.read_csv(file)
    y = df['y'].values.astype(float)
    X = df[df.columns[1:-1]].values
    
    # held-out master split
    X_working, X_held_out, y_working, y_held_out = train_test_split(X,
                                                    y,
                                                    train_size=0.8,
                                                    shuffle=True)
    
    return X_working, y_working, X_held_out, y_held_out


# def compute_metrics(y_hat, y):
#     _, preds = torch.max(y_hat, 1)
#     f1_score = F1Score(y, preds, average='micro')
#     cm = ConfusionMatrix(y, preds)
    
#     return f1_score, cm       

def kfold_cross_validation(args, model, fname, X, y, k, early_stopping_patience, iter, **trainer_kwargs):
    """K Fold cross validation method to train the neural network model

    Args:
        args (dict): arguments dictionary with all the variables
        model (LModel): The model object of LModel class
        X (numpy ndarray): Training data 
        y (numpy array): Training labels
        k (int): Number of cross validation to be conducted
        early_stopping_patience (int): Patience for early stopping checks
        iter (int): number of iterations of the whole pipeline

    Returns:
        best_model_weights (numpy ndarray): best model weights after training and validation 
        best_train_index (list): train indices which led to best model  
    """
    kfold = KFold(n_splits=k, shuffle=True)
    best_model_weights = None
    best_train_index = None
    best_val_metric = float("-inf")  
    
    for fold, (train_index, val_index) in enumerate(kfold.split(X)): 
        print(f"Fold {fold+1}")
        print(len(train_index))
        print(len(val_index))
        X_train, X_val = X[train_index], X[val_index]
        y_train, y_val = y[train_index], y[val_index]
        
        #create dataloaders 
        train_data = OmicsData(X_train,y_train)
        val_data = OmicsData(X_val, y_val)
        train_dataloader = DataLoader(train_data)
        val_dataloader = DataLoader(val_data)
        #rint(val_dataloader)
        
        checkpoint_callback = ModelCheckpoint(
                                        dirpath=f"checkpoints/{fname}/fold_{fold}",
                                        save_top_k=1, 
                                        monitor="val_loss",
                                        mode="min",
                                        )
        early_stopping = EarlyStopping(
                                    monitor="val_loss", 
                                    patience=early_stopping_patience,
                                    mode="min"
                                    )
        
        logger = TensorBoardLogger(save_dir="logs", name=f"{fname}_fold_{fold}")
        
        trainer = pl.Trainer(
        accelerator="gpu",
        devices=1,
        max_epochs=args.epoch,
        callbacks=[early_stopping, checkpoint_callback],
        accumulate_grad_batches=len(train_dataloader),
        check_val_every_n_epoch=10,
        logger=logger
        )
        
        trainer.fit(model=model, 
            train_dataloaders=train_dataloader, 
            val_dataloaders= val_dataloader)
        
        val_metric = trainer.callback_metrics.get("val_acc")
        print(val_metric)
        if val_metric > best_val_metric:
            best_val_metric = val_metric
            best_model_weights = model.state_dict()
            best_train_index = train_index.tolist()
            
    return best_model_weights, best_train_index

    
def training(args, fname, X, y, iter): 
    """Training method which calls the kfold cross validation code

    Args:
        args (dict): dictionary of arguments from input 
        fname (str): file name for storing checkpoints and embeddings
        X (numpy ndarray): Training data
        y (numpy array): Training labels
        iter (int): number of iterations to conduct

    Returns:
        embedded_train (numpy ndarray): Embedded training data of size samples x output dimension
        train_index (array): training indices 
        model (LModel): LModel object 
        model_weights (numpy ndarray): learned weights of the model
        
    """
    num_feats = X.shape[1]
    model = LModel(
        dim=num_feats, 
        output_dim = args.dim,
        batch_size=args.batch_size, 
        weight_decay=args.weight_decay,
        lr=args.lr
    )
    model_weights, train_index = kfold_cross_validation(args, 
                                                        model,
                                                        fname, 
                                                        X, 
                                                        y, 
                                                        args.num_cv, 
                                                        args.patience,
                                                        iter
                                                        )
    model.load_state_dict(model_weights)
    embedded_train = model.embedder(torch.tensor(X[train_index], dtype=torch.float32)).detach().numpy()
    #print(embedded_train.shape)
    
    return embedded_train, train_index, model, model_weights

def testing(X,y, model, model_weights):
    
    test_data = OmicsData(X, y)
    test_dataloader = DataLoader(test_data)
    model.load_state_dict(model_weights)
    X = torch.tensor(X, dtype=torch.float32) 
    embedded_test = model.embedder(torch.tensor(X, dtype=torch.float32)).detach().numpy()
    print(embedded_test.shape)
    trainer = pl.Trainer()
    results = trainer.test(model=model, dataloaders=test_dataloader)
    
    return results, embedded_test

def compute_svc(X_train, y_train, X_test, y_test, c = 1):
    svc = SVC(C=c)
    # y_train = torch.argmax(torch.tensor(y_train, dtype=torch.float32),dim=1)
    # y_test = torch.argmax(torch.tensor(y_test, dtype=torch.float32),dim=1)
    svc_vanilla = svc.fit(X_train, y_train)
    labels_vanilla = svc_vanilla.predict(X_test)
    f1_svc = f1_score(y_test, labels_vanilla, average='micro')
    
    return f1_svc
    
def compute_QSVC(X_train, y_train, X_test, y_test, encoding='ZZ', c = 1, pegasos=False):
    
    service = QiskitRuntimeService(instance="accelerated-disc/internal/default") 
    backend = service.least_busy(simulator=False, operational=True)    
    # service = QiskitRuntimeService()    
    # backend = AerSimulator(method='statevector')
    algorithm_globals.random_seed = 12345

    feature_map = None

    if encoding == 'ZZ' :
        feature_map = ZZFeatureMap(feature_dimension=X_train.shape[1], 
                            reps=2, 
                            entanglement='linear')
    else: 
        if encoding == 'Z': 
            feature_map = ZFeatureMap(feature_dimension=X_train.shape[1], 
                            reps=2)
        if encoding == 'P': 
            feature_map = PauliFeatureMap(feature_dimension=X_train.shape[1], 
                            reps=2, entanglement='linear')

    sampler = Sampler(backend=backend, 
                    options={"shots": 1024}) 
    fidelity = ComputeUncompute(sampler=sampler)
    Qkernel = FidelityQuantumKernel(fidelity=fidelity, feature_map=feature_map)
    if pegasos == False: 
        qsvc = QSVC(quantum_kernel=Qkernel, C=c)
    else: 
        qsvc = PegasosQSVC(quantum_kernel=Qkernel, C=c)
    qsvc_model = qsvc.fit(X_train, y_train)
    labels_qsvc = qsvc_model.predict(X_test)
    f1_qsvc = f1_score(y_test, labels_qsvc, average='micro')

    return f1_qsvc

if __name__ == "__main__":
    args = parse_args()
    validate_args(args)
    file_name = os.path.basename(args.file).split('.')[0]
    results_iter = {}
    for i in range(args.iter):
        print("===== Iteration " + str(i+1) + " =====")
        #process data to obtain master split
        X_working,y_working,X_held_out,y_held_out = process_data(args.file)
        print("Training size: ", X_working.shape[0])
        print("Held out size: ", X_held_out.shape[0])
        
        fname = file_name + "_iter" + str(i)
        #get embedded training data and the best performing model weights using cross validation
        embedded_train, train_idx, model, model_weights = training(args,
                                                                fname,
                                                                X_working, 
                                                                y_working, 
                                                                i)
        fname_train = fname + "_train_embedding"
        np.save(f"checkpoints/{fname}/{fname_train}", embedded_train)
        fname_train_y = fname + "_train_target"
        np.save(f"checkpoints/{fname}/{fname_train_y}", y_working[train_idx])
        
        results_dict, embedded_test = testing(X_held_out, y_held_out, model, model_weights)
        results_nn = results_dict[0]
        print("NN results on held-out data:", results_nn['test_acc'])
        
        fname_test = fname + "_test_embedding"
        np.save(f"checkpoints/{fname}/{fname_test}", embedded_test)
        fname_test_y = fname + "_test_target"
        np.save(f"checkpoints/{fname}/{fname_test_y}", y_held_out)
        
        results_svc = compute_svc(
                                embedded_train, 
                                y_working[train_idx], 
                                embedded_test, 
                                y_held_out,
                                args.C
                                )

        print("SVC results on held-out data: " + str(results_svc))
        
        
        results_qsvc = compute_QSVC(
                                embedded_train, 
                                y_working[train_idx],
                                embedded_test,
                                y_held_out, 
                                args.encoding,
                                args.C
                                )     
        print("QSVC results on held-out data: " + str(results_qsvc))

        results_iter[i] = [results_nn['test_acc'], results_svc, results_qsvc]
    
    results_df = pd.DataFrame.from_dict(results_iter, orient='index')
    print(results_df)
    
    str_time = strftime("%Y-%m-%d-%H-%M", gmtime())
    of_name = file_name + "_" + str_time + "_Results.csv" 
    results_df.to_csv(of_name, index=False, header=['NN', 'SVC', 'QSVC'])
    max_memory_allocated = torch.cuda.max_memory_allocated()
    print(f"{max_memory_allocated/1024**3:.2f} GB of GPU memory allocated")