b/model/model.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Stress Detection Using ML"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 45,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Reading the Dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 46,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>net_acc_mean</th>\n",
+       "      <th>net_acc_std</th>\n",
+       "      <th>net_acc_min</th>\n",
+       "      <th>net_acc_max</th>\n",
+       "      <th>ACC_x_mean</th>\n",
+       "      <th>ACC_x_std</th>\n",
+       "      <th>ACC_x_min</th>\n",
+       "      <th>ACC_x_max</th>\n",
+       "      <th>ACC_y_mean</th>\n",
+       "      <th>ACC_y_std</th>\n",
+       "      <th>...</th>\n",
+       "      <th>age</th>\n",
+       "      <th>height</th>\n",
+       "      <th>weight</th>\n",
+       "      <th>gender_ female</th>\n",
+       "      <th>gender_ male</th>\n",
+       "      <th>coffee_today_YES</th>\n",
+       "      <th>sport_today_YES</th>\n",
+       "      <th>smoker_NO</th>\n",
+       "      <th>smoker_YES</th>\n",
+       "      <th>feel_ill_today_YES</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>0.029937</td>\n",
+       "      <td>0.009942</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.087383</td>\n",
+       "      <td>0.029510</td>\n",
+       "      <td>0.011145</td>\n",
+       "      <td>-0.024082</td>\n",
+       "      <td>0.087383</td>\n",
+       "      <td>0.000020</td>\n",
+       "      <td>0.000008</td>\n",
+       "      <td>...</td>\n",
+       "      <td>27</td>\n",
+       "      <td>175</td>\n",
+       "      <td>80</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>0.021986</td>\n",
+       "      <td>0.015845</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td>0.071558</td>\n",
+       "      <td>0.017352</td>\n",
+       "      <td>0.020817</td>\n",
+       "      <td>-0.037843</td>\n",
+       "      <td>0.071558</td>\n",
+       "      <td>0.000012</td>\n",
+       "      <td>0.000014</td>\n",
+       "      <td>...</td>\n",
+       "      <td>27</td>\n",
+       "      <td>175</td>\n",
+       "      <td>80</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>0.020839</td>\n",
+       "      <td>0.011034</td>\n",
+       "      <td>0.002752</td>\n",
+       "      <td>0.054356</td>\n",
+       "      <td>0.020839</td>\n",
+       "      <td>0.011034</td>\n",
+       "      <td>0.002752</td>\n",
+       "      <td>0.054356</td>\n",
+       "      <td>0.000014</td>\n",
+       "      <td>0.000008</td>\n",
+       "      <td>...</td>\n",
+       "      <td>27</td>\n",
+       "      <td>175</td>\n",
+       "      <td>80</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>0.034449</td>\n",
+       "      <td>0.003185</td>\n",
+       "      <td>0.013761</td>\n",
+       "      <td>0.040595</td>\n",
+       "      <td>0.034449</td>\n",
+       "      <td>0.003185</td>\n",
+       "      <td>0.013761</td>\n",
+       "      <td>0.040595</td>\n",
+       "      <td>0.000024</td>\n",
+       "      <td>0.000002</td>\n",
+       "      <td>...</td>\n",
+       "      <td>27</td>\n",
+       "      <td>175</td>\n",
+       "      <td>80</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>4 rows × 58 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "   net_acc_mean  net_acc_std  net_acc_min  net_acc_max  ACC_x_mean  ACC_x_std  \\\n",
+       "0      0.029937     0.009942     0.000000     0.087383    0.029510   0.011145   \n",
+       "1      0.021986     0.015845     0.000000     0.071558    0.017352   0.020817   \n",
+       "2      0.020839     0.011034     0.002752     0.054356    0.020839   0.011034   \n",
+       "3      0.034449     0.003185     0.013761     0.040595    0.034449   0.003185   \n",
+       "\n",
+       "   ACC_x_min  ACC_x_max  ACC_y_mean  ACC_y_std  ...  age  height  weight  \\\n",
+       "0  -0.024082   0.087383    0.000020   0.000008  ...   27     175      80   \n",
+       "1  -0.037843   0.071558    0.000012   0.000014  ...   27     175      80   \n",
+       "2   0.002752   0.054356    0.000014   0.000008  ...   27     175      80   \n",
+       "3   0.013761   0.040595    0.000024   0.000002  ...   27     175      80   \n",
+       "\n",
+       "   gender_ female  gender_ male  coffee_today_YES  sport_today_YES  smoker_NO  \\\n",
+       "0               0             1                 0                0          1   \n",
+       "1               0             1                 0                0          1   \n",
+       "2               0             1                 0                0          1   \n",
+       "3               0             1                 0                0          1   \n",
+       "\n",
+       "   smoker_YES  feel_ill_today_YES  \n",
+       "0           0                   0  \n",
+       "1           0                   0  \n",
+       "2           0                   0  \n",
+       "3           0                   0  \n",
+       "\n",
+       "[4 rows x 58 columns]"
+      ]
+     },
+     "execution_count": 46,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df = pd.read_csv('data/merged.csv', index_col=0)\n",
+    "df.head(4)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 47,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Index(['net_acc_mean', 'net_acc_std', 'net_acc_min', 'net_acc_max',\n",
+       "       'ACC_x_mean', 'ACC_x_std', 'ACC_x_min', 'ACC_x_max', 'ACC_y_mean',\n",
+       "       'ACC_y_std', 'ACC_y_min', 'ACC_y_max', 'ACC_z_mean', 'ACC_z_std',\n",
+       "       'ACC_z_min', 'ACC_z_max', 'BVP_mean', 'BVP_std', 'BVP_min', 'BVP_max',\n",
+       "       'EDA_mean', 'EDA_std', 'EDA_min', 'EDA_max', 'EDA_phasic_mean',\n",
+       "       'EDA_phasic_std', 'EDA_phasic_min', 'EDA_phasic_max', 'EDA_smna_mean',\n",
+       "       'EDA_smna_std', 'EDA_smna_min', 'EDA_smna_max', 'EDA_tonic_mean',\n",
+       "       'EDA_tonic_std', 'EDA_tonic_min', 'EDA_tonic_max', 'Resp_mean',\n",
+       "       'Resp_std', 'Resp_min', 'Resp_max', 'TEMP_mean', 'TEMP_std', 'TEMP_min',\n",
+       "       'TEMP_max', 'BVP_peak_freq', 'TEMP_slope', 'subject', 'label', 'age',\n",
+       "       'height', 'weight', 'gender_ female', 'gender_ male',\n",
+       "       'coffee_today_YES', 'sport_today_YES', 'smoker_NO', 'smoker_YES',\n",
+       "       'feel_ill_today_YES'],\n",
+       "      dtype='object')"
+      ]
+     },
+     "execution_count": 47,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df.columns"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 48,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "array([0, 1, 2])"
+      ]
+     },
+     "execution_count": 48,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "np.unique(df['label'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 49,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "labels = {\n",
+    "    0: \"Amused\",\n",
+    "    1: \"Neutral\",\n",
+    "    2: \"Stressed\"\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Feature Selection"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "tags": [
+     "nbconvert_remove"
+    ]
+   },
+   "outputs": [],
+   "source": [
+    "# nbconvert_remove\n",
+    "\n",
+    "import matplotlib.pyplot as plt\n",
+    "import seaborn as sns\n",
+    "\n",
+    "plt.figure(figsize=(2,100))\n",
+    "cor = df.corr()\n",
+    "n_targets = len(df.columns)\n",
+    "cor_target = cor['label'].values.reshape(n_targets, 1)\n",
+    "cor_features = cor['label'].keys()\n",
+    "ax = sns.heatmap(cor_target, annot=True, cmap=plt.cm.Accent_r)\n",
+    "ax.set_yticklabels(cor_features)\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 51,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "((1178, 15), (1178,))"
+      ]
+     },
+     "execution_count": 51,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "selected_feats =   [\n",
+    "    'BVP_mean', 'BVP_std', 'EDA_phasic_mean', 'EDA_phasic_min', 'EDA_smna_min', \n",
+    "    'EDA_tonic_mean', 'Resp_mean', 'Resp_std', 'TEMP_mean', 'TEMP_std', 'TEMP_slope',\n",
+    "    'BVP_peak_freq', 'age', 'height', 'weight'\n",
+    "    ]\n",
+    "\n",
+    "X = df[selected_feats]\n",
+    "y = df['label']\n",
+    "\n",
+    "X.shape, y.shape"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## ML Model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 52,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.model_selection import train_test_split\n",
+    "from sklearn.ensemble import RandomForestClassifier"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 53,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "((1060, 15), (118, 15))"
+      ]
+     },
+     "execution_count": 53,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "X_train, X_test = train_test_split(X, test_size=0.1, random_state=0)\n",
+    "y_train, y_test = train_test_split(y, test_size=0.1, random_state=0)\n",
+    "\n",
+    "X_train.shape, X_test.shape"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model = RandomForestClassifier()\n",
+    "model.fit(X_train,y_train)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 65,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def accuracy(predicted, actual):\n",
+    "    n = 0\n",
+    "    for p, a in zip(predicted, actual):\n",
+    "        if p == a:\n",
+    "            n += 1\n",
+    "    return n/len(predicted) * 100"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 66,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def predict(arr):\n",
+    "    arr = np.array(arr)\n",
+    "\n",
+    "    global model\n",
+    "    result = model.predict(arr.reshape(1,-1)).flatten()\n",
+    "    # _prob = model.predict_proba(arr.reshape(1,-1)).flatten()\n",
+    "    return result"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 68,
+   "metadata": {
+    "tags": [
+     "nbconvert_remove"
+    ]
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "95.76271186440678"
+      ]
+     },
+     "execution_count": 68,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "predicted = []\n",
+    "for data in X_test.values:\n",
+    "    predicted.append(predict(data))\n",
+    "predicted\n",
+    "\n",
+    "accuracy(predicted, y_test.values)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Saving the trained model in a pickle file to be later used by the API function to predict"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 69,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pickle\n",
+    "\n",
+    "filename = 'trained_model.sav'\n",
+    "pickle.dump(model, open(filename, 'wb'))"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3.10.7 ('venv': venv)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.7"
+  },
+  "orig_nbformat": 4,
+  "vscode": {
+   "interpreter": {
+    "hash": "b56aae866cfdd3dd1993badfb61811822ff858e2a83b734b90ea6aa544e22f54"
+   }
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}