b/data.py
+import pandas as pd
+def process_raw_data(data_path):
+    full_data = pd.read_csv(data_path)
+    # drop None values from the relevant columns
+    full_data = full_data.dropna(subset=['description', 'transcription', 'medical_specialty']).reset_index(drop=True)
+    full_data['description'] = full_data['description'].str.lower() # convert text data to lower case
+    full_data['transcription'] = full_data['transcription'].str.lower() # convert text data to lower case
+    full_data["medical_specialty"] = full_data["medical_specialty"].str.strip() # delete leading / trailing whitespaces
+    #data["words"] =  data["description"].apply(lambda x: nltk.word_tokenize(x))  # description         transcription
+    #stop_words = set(stopwords.words('english'))
+    #data['words_without_stopwords'] = data["words"].apply(lambda x: [word for word in x if word not in (stop_words)])
+    # drop general categories (for example "Surgery" category is kind of superset as there can be surgeries belonging to specializations like cardiology,neurolrogy etc)
+    general_categories_rows = full_data["medical_specialty"].isin(["Surgery", 'SOAP / Chart / Progress Notes', 'Office Notes', 'Consult - History and Phy.', 'Emergency Room Reports', 'Discharge Summary', 'Pain Management', 'General Medicine'])
+    data = full_data.drop(full_data[general_categories_rows].index)
+    data = data.reset_index(drop=True)
+    # Combine similar categories
+    data["medical_specialty"] = data["medical_specialty"].str.replace("Neurosurgery", "Neurology")
+    # add "labels" column
+    data['medical_specialty'] = pd.Categorical(data['medical_specialty'])
+    data['labels'] = data['medical_specialty'].cat.codes
+    categories_mapping = dict(enumerate(data['medical_specialty'].cat.categories))
+    # Take only top 5 categories
+    top_categories_num = 5
+    cause_dist = data['medical_specialty'].value_counts()[0:top_categories_num]
+    cause_dist_unseen_cat = data['medical_specialty'].value_counts()[top_categories_num:]
+    test_unseen_categories = data[data["medical_specialty"].isin(cause_dist_unseen_cat.keys())]
+    test_unseen_categories = test_unseen_categories.reset_index(drop=True)
+    # take in unseen data only categories which have more than 50 samples
+    unseen_categories_groups  = test_unseen_categories.groupby(test_unseen_categories['medical_specialty'])
+    test_unseen_categories = unseen_categories_groups.filter(lambda x:x.shape[0] > 50)
+    unseen_categories_mapping = dict(enumerate(test_unseen_categories['medical_specialty'].cat.categories))
+    data = data[data["medical_specialty"].isin(cause_dist.keys())]
+    data = data.reset_index(drop=True)
+    return data, test_unseen_categories