exSEEK / Git / [4c33d4] /exseek/scripts/call

Models:
DanielG/
exSEEK
Downloads: 1
[4c33d4]: / exseek / scripts / call_peak.py
History
Download this file
390 lines (349 with data), 15.3 kB

#! /usr/bin/env python
import argparse, sys, os, errno
import logging
logging.basicConfig(level=logging.INFO, format='[%(asctime)s] [%(levelname)s] %(name)s: %(message)s')

import numpy as np
'''
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
from matplotlib.backends.backend_pdf import PdfPages
import seaborn as sns
sns.set()
'''
import pandas as pd
from pandas import DataFrame, Series
from scipy.fftpack import fft
from scipy.signal import convolve
import numba

command_handlers = {}
def command_handler(f):
    command_handlers[f.__name__] = f
    return f

def read_coverage(filename):
    coverage = []
    gene_ids = []
    with open(filename, 'r') as f:
        for line in f:
            c = line.strip().split('\t')
            gene_id = c[0]
            values = np.array(c[1:]).astype(np.float64)
            gene_ids.append(gene_id)
            coverage.append(values)
    return gene_ids, coverage

@numba.jit('int64(int32[:], int32[:], float64, float64, float64)')
def icm_update(x, y, h=0.0, beta=1.0, eta=2.1):
    n_changes = 0
    N = x.shape[0]
    for i in range(N):
        dx = -2*x[i]
        dE = 0
        if i > 0:
            dE += h*dx - beta*dx*x[i - 1] - eta*dx*y[i]
        if i < (N - 1):
            dE += h*dx - beta*dx*x[i + 1] - eta*dx*y[i]
        if dE < 0:
            x[i] = -x[i]
            n_changes += 1
    return n_changes
        
def icm_smooth(x, h=0.0, beta=1.0, eta=2.1):
    '''Smooth signals using iterated conditional modes
    Args:
        x: 1D signal
    Returns:
        Smoothed signal of the same length of x
    '''
    x = x*2 - 1
    y = x.copy()
    #E = h*np.sum(x) - beta*x[:-1]*x[1:] - eta*x*y
    n_updates = icm_update(x, y, h=h, beta=beta, eta=eta)
    while n_updates > 0:
        n_updates = icm_update(x, y, h=h, beta=beta, eta=eta)
    x = (x > 0).astype(np.int32)
    return x

def call_peak_gene(sig, local_bg_width=3, local_bg_weight=0.5, bg_global=None, smooth=False):
    if bg_global is None:
        bg_global = np.mean(sig)

    filter = np.full(local_bg_width, 1.0/local_bg_width)
    bg_local = convolve(sig, filter, mode='same')
    bg = local_bg_weight*bg_local + (1.0 - local_bg_weight)*bg_global
    bg[np.isclose(bg, 0)] = 1
    snr = sig/bg
    peaks = (snr > 1.0).astype(np.int32)
    if smooth:
        peaks = icm_smooth(peaks, h=-2.0, beta=4.0, eta=2.0)
    x = np.zeros(len(peaks) + 2, dtype=np.int32)
    x[1:-1] = peaks
    starts = np.nonzero(x[1:] > x[:-1])[0]
    ends = np.nonzero(x[:-1] > x[1:])[0]
    peaks = np.column_stack([starts, ends])
    return peaks

def estimate_bg_global(signals):
    '''signals
    '''
    signals_mean = np.asarray([np.mean(s) for s in signals])
    bg = np.median(signals_mean)
    return bg

def call_peaks(signals, min_length=2):
    #bg_global = estimate_bg_global(signals)
    bg_global = None
    peaks = []
    for i, signal in enumerate(signals):
        peak_locations = call_peak_gene(signal, bg_global=bg_global, smooth=True)
        #print(signal)
        for start, end in peak_locations:
            #print(peak_locations)
            if (min_length is None) or ((end - start) >= min_length):
                peaks.append((i, start, end, signal[start:end].mean()))
    return peaks

@command_handler
def call_peak(args):
    from tqdm import trange

    logger.info('read input file: ' + args.input_file)
    gene_ids, signals = read_coverage(args.input_file)
    if args.use_log:
        signals = [np.log10(np.maximum(1e-3, a)) + 3 for a in signals]

    signals_mean = np.asarray([np.mean(a) for a in signals])
    bg_global = np.median(signals_mean)

    logger.info('create output plot file: ' + args.output_file)
    with open(args.output_file, 'w') as fout:
        for i in trange(len(signals), unit='gene'):
            peaks_locations = call_peak_gene(signals[i], bg_global=bg_global, local_bg_weight=args.local_bg_weight,
                local_bg_width=args.local_bg_width, smooth=args.smooth)
            for j in range(peaks_locations.shape[0]):
                fout.write('{}\t{}\t{}\n'.format(gene_ids[i], peaks_locations[j, 0], peaks_locations[j, 1]))

@command_handler
def refine_peaks(args):
    import pandas as pd
    import numpy as np
    from tqdm import tqdm
    import re
    import h5py
    #from bx.bbi.bigwig_file import BigWigFile
    import pyBigWig
    from ioutils import open_file_or_stdout

    logger.info('read input matrix file: ' + args.peaks)
    #matrix = pd.read_table(args.matrix, sep='\t', index_col=0)
    #feature_info = matrix.index.to_series().str.split('|', expand=True)
    #feature_info.columns = ['gene_id', 'gene_type', 'gene_name', 'domain_id', 'transcript_id', 'start', 'end']
    #feature_info['start'] = feature_info['start'].astype('int')
    #feature_info['end'] = feature_info['end'].astype('int')
    peaks = pd.read_table(args.peaks, sep='\t', header=None, dtype=str)
    if peaks.shape[1] < 6:
        raise ValueError('less than 6 columns in peak file')
    peaks.columns = ['chrom', 'start', 'end', 'name', 'score', 'strand'] + ['c%d'%i for i in range(6, peaks.shape[1])]
    peaks['start'] = peaks['start'].astype('int')
    peaks['end'] = peaks['end'].astype('int')

    logger.info('read chrom sizes: ' + args.chrom_sizes)
    chrom_sizes = pd.read_table(args.chrom_sizes, sep='\t', header=None, names=['chrom', 'size'])
    chrom_sizes = chrom_sizes.drop_duplicates('chrom')
    chrom_sizes = chrom_sizes.set_index('chrom').iloc[:, 0]

    logger.info('read input genomic bigwig file: ' + args.tbigwig)
    tbigwig = pyBigWig.open(args.tbigwig)
    #chrom_sizes.update(dict(tbigwig.get_chrom_sizes()))

    gbigwig = {}
    logger.info('read input genomic bigwig (+) file: ' + args.gbigwig_plus)
    gbigwig['+'] = pyBigWig.open(args.gbigwig_plus)
    logger.info('read input genomic bigwig (-) file: ' + args.gbigwig_minus)
    gbigwig['-'] = pyBigWig.open(args.gbigwig_minus)
    #chrom_sizes.update(dict(gbigwig['+'].get_chrom_sizes()))

    flanking = args.flanking
    signals = []
    signals_mean = []
    windows = []
    #pat_gene_id = re.compile('^(.*)_([0-9]+)_([0-9]+)_([+-])$')
    for _, peak in peaks.iterrows():
        if peak['chrom'].startswith('chr'):
        #if feature['gene_type'] == 'genomic':
            #chrom, start, end, strand = pat_gene_id.match(feature['gene_id']).groups()
            #start = int(start)
            #end = int(end)
            window_start = max(0, peak['start'] - flanking)
            window_end = min(peak['end'] + flanking, chrom_sizes[peak['chrom']])
            data = np.nan_to_num(gbigwig[peak['strand']].values(peak['chrom'], window_start, window_end))
        else:
            strand = '+'
            window_start = max(0, peak['start'] - flanking)
            window_end = min(peak['end'] + flanking, chrom_sizes[peak['chrom']])
            data = np.nan_to_num(tbigwig.values(peak['chrom'], window_start, window_end))
        if data is None:
            data = np.zeros((window_end - window_start))
            #logger.info('no coverage data found for peak: {}'.format(feature['domain_id']))
        if args.use_log:
            data = np.log2(np.maximum(data, 0.25)) + 2
        signals.append(data)
        signals_mean.append(np.mean(data))
        windows.append((peak['chrom'], window_start, window_end, peak['start'], peak['end'], peak['strand']))
    tbigwig.close()
    gbigwig['+'].close()
    gbigwig['-'].close()
    windows = pd.DataFrame.from_records(windows)
    windows.columns = ['chrom', 'window_start', 'window_end', 'start', 'end', 'strand']

    logger.info('call peaks')
    refined_peaks = call_peaks(signals, min_length=args.min_length)
    with open_file_or_stdout(args.output_file) as fout:
        for i, start, end, mean_signal in refined_peaks:
            # map peak coordinates from window to original
            peak = [windows['chrom'][i], 
                start + windows['start'][i],
                end + windows['start'][i],
                'peak_%d'%(i + 1),
                '%.4f'%mean_signal,
                strand
            ]
            # remove peaks not overlapping with the window
            if (peak[1] > windows['end'][i]) or (peak[2] < windows['start'][i]):
                continue
            fout.write('\t'.join(map(str, peak)) + '\n')
        #print('%s\t%d\t%d => %s\t%d\t%d'%(
        #    windows['chrom'][i], windows['start'][i], windows['end'][i],
        #    windows['chrom'][i], start, end))

def _call_peaks_localmax(x, min_peak_length=10, bin_width=10, min_cov=5, decay=0.5):
    '''Call peaks by extending from local maxima

    Parameters:
    ----------

    x: array-like, (length,)
        Input signal values
    
    min_peak_length: int
        Minimum length required for each peak
    
    bin_width: int
        Bin width for searching bins with mean coverage higher than min_cov
    
    min_cov: float
        Minimum coverage to define a peak
    
    decay: float
        Stops extending a peak after signal values fall below decay*peak_summit

    Returns:
    -----------

    peaks: list of list
        Peaks found
        Each element of the list is a list: [start, end, local_max]
    '''
    # average signal over bins with 50% overlap
    half_bin_width = bin_width//2
    length = x.shape[0]
    n_bins = max(1, length//half_bin_width)
    bin_cov = np.zeros(n_bins)
    for i in range(n_bins):
        bin_cov[i] = np.mean(x[(i*half_bin_width):min((i + 2)*half_bin_width, length)])
    cand_bins = np.nonzero(bin_cov > min_cov)[0]
    n_cand_bins = cand_bins.shape[0]
    cand_bin_index = 0
    left_bound = 0
    peaks = []
    while cand_bin_index < n_cand_bins:
        i = cand_bins[cand_bin_index]*half_bin_width
        start = i
        end = i
        # find local max
        while (start > left_bound) and (x[start - 1] >= x[start]) and (x[start - 1] >= min_cov):
            start -= 1
        while (end < (length - 1)) and (x[end + 1] >= x[end]) and (x[end + 1] >= min_cov):
            end += 1
        max_index = 0
        if x[start] >= x[end]:
            local_max = x[start]
            max_index = start
        else:
            local_max = x[end]
            max_index = end
        if local_max > min_cov:
            # find bounds when input signal drops below 0.5*local_max
            start = max_index
            while (start > left_bound) and (x[start - 1] >= decay*local_max):
                start -= 1
                local_max = max(local_max, x[start])
            end = max_index
            while (end < (len(x) - 1)) and (x[end + 1] >= decay*local_max):
                end += 1
                local_max = max(local_max, x[end])
            # add current peak to results
            if (end - start) >= min_peak_length:
                #print((start, end, local_max))
                peaks.append([start, end, local_max])
            # find next candidate bin
            left_bound = end
            next_cand_bin = end//half_bin_width
            while (cand_bin_index < n_cand_bins) and (cand_bins[cand_bin_index] < next_cand_bin):
                cand_bin_index += 1
        cand_bin_index += 1
    return peaks

@command_handler
def call_peaks_localmax(args):
    import pyBigWig
    import numpy as np

    logger.info('read input file: ' + args.input_file)
    bigwig = pyBigWig.open(args.input_file)
    logger.info('write output file: ' + args.output_file)
    bed = open(args.output_file, 'w')
    chroms = bigwig.chroms()
    n_peaks = 0
    for chrom, size in chroms.items():
        if chrom.startswith('chr'):
            continue
        x = np.nan_to_num(bigwig.values(chrom, 0, size))
        peaks_chrom = _call_peaks_localmax(x, 
            min_peak_length=args.min_peak_length, bin_width=args.bin_width,
            min_cov=args.min_cov, decay=args.decay)
        for peak in peaks_chrom:
            n_peaks += 1
            #peaks.append([chrom, peak[0], peak[1], 'peak_%d'%n_peaks, peak[2], '+'])
            bed.write('%s\t%d\t%d\tpeak_%d\t%d\t+\n'%(chrom, peak[0], peak[1], n_peaks, peak[2]))
    bigwig.close()
    bed.close()


if __name__ == '__main__':
    main_parser = argparse.ArgumentParser(description='Call peaks from exRNA signals')
    subparsers = main_parser.add_subparsers(dest='command')
    
    parser = subparsers.add_parser('call_peak')
    parser.add_argument('--input-file', '-i', type=str, required=True,
        help='input file of exRNA signals for each transcript')
    parser.add_argument('--use-log', action='store_true', 
        help='use log10 instead raw signals')
    parser.add_argument('--smooth', action='store_true',
        help='merge adjacent peaks')
    parser.add_argument('--local-bg-width', type=int, default=3,
        help='number of nearby bins for estimation of local background')
    parser.add_argument('--local-bg-weight', type=float, default=0.5, 
        help='weight for local background (0.0-1.0)')
    parser.add_argument('--output-file', '-o', type=str, required=True,
        help='output plot file BED format')

    parser = subparsers.add_parser('call_peaks_localmax')
    parser.add_argument('--input-file', '-i', type=str, required=True,
        help='input BigWig file of raw reads coverage')
    parser.add_argument('--min-peak-length', type=int, default=10,
        help='minimum length required for a peak')
    parser.add_argument('--decay', type=float, default=0.5,
        help='decay factor of peak summit to define peak boundary')
    parser.add_argument('--min-cov', type=float, default=5,
        help='minimum coverage required to define a peak')
    parser.add_argument('--bin-width', type=int, default=10,
        help='bin width to search enriched bins')
    parser.add_argument('--output-file', '-o', type=str, required=True,
        help='output peaks in BED format')

    
    parser = subparsers.add_parser('refine_peaks')
    parser.add_argument('--peaks', type=str, required=True,
        help='input count matrix with feature names as the first column')
    parser.add_argument('--tbigwig', type=str, required=True,
        help='transcript BigWig file')
    parser.add_argument('--gbigwig-plus', type=str, required=True,
        help='genomic BigWig (+) file')
    parser.add_argument('--gbigwig-minus', type=str, required=True,
        help='genomic BigWig (-) file')
    parser.add_argument('--chrom-sizes', type=str, required=True,
        help='chrom sizes')
    parser.add_argument('--output-file', '-o', type=str, default='-',
        help='output refined peaks')
    parser.add_argument('--use-log', action='store_true', 
        help='use log10 instead raw signals')
    parser.add_argument('--smooth', action='store_true',
        help='merge adjacent peaks')
    parser.add_argument('--local-bg-width', type=int, default=3,
        help='number of nearby bins for estimation of local background')
    parser.add_argument('--local-bg-weight', type=float, default=0.5, 
        help='weight for local background (0.0-1.0)')
    parser.add_argument('--flanking', type=int, default=20)
    parser.add_argument('--min-length', type=int, default=10)

    args = main_parser.parse_args()
    if args.command is None:
        raise ValueError('empty command')
    logger = logging.getLogger('call_peak.' + args.command)

    command_handlers.get(args.command)(args)