{
 "cells": [
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Cleaning scripts"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "years = list(range(1950, 2100+1, 5))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/var/folders/cv/xn1my8q111q1ngz5g62wkt_r0000gn/T/ipykernel_1127/1698792024.py:1: DtypeWarning: Columns (2,3,4) have mixed types. Specify dtype option on import or set low_memory=False.\n",
      "  popshare = pd.read_csv('raw/WPP2022_PopulationByAge5GroupSex_Percentage_Medium.csv')\n"
     ]
    }
   ],
   "source": [
    "popshare = pd.read_csv('raw/WPP2022_PopulationByAge5GroupSex_Percentage_Medium.csv')\n",
    "popshare = popshare.loc[popshare['Time'].isin(years)].reset_index(drop=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/var/folders/cv/xn1my8q111q1ngz5g62wkt_r0000gn/T/ipykernel_1127/1828745933.py:1: DtypeWarning: Columns (2,3,4) have mixed types. Specify dtype option on import or set low_memory=False.\n",
      "  pop = pd.read_csv('raw/WPP2022_PopulationByAge5GroupSex_Medium.csv')\n"
     ]
    }
   ],
   "source": [
    "pop = pd.read_csv('raw/WPP2022_PopulationByAge5GroupSex_Medium.csv')\n",
    "pop = pop.loc[pop['Time'].isin(years)].reset_index(drop=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/var/folders/cv/xn1my8q111q1ngz5g62wkt_r0000gn/T/ipykernel_1127/1733417568.py:1: DtypeWarning: Columns (2) have mixed types. Specify dtype option on import or set low_memory=False.\n",
      "  median_age = pd.read_csv('raw/WPP2022_Demographic_Indicators_Medium.csv')\n"
     ]
    }
   ],
   "source": [
    "median_age = pd.read_csv('raw/WPP2022_Demographic_Indicators_Medium.csv')\n",
    "median_age = median_age.loc[median_age['Time'].isin(years)].reset_index(drop=True)\n",
    "median_age = median_age[(median_age['LocTypeID'] == 1) | (median_age['LocTypeID'] == 4)]\n",
    "median_age = median_age[['LocID', 'Location', 'Time', 'MedianAgePop']]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "median_age.to_csv('median_age.csv', index=False)"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Wrangle into relational database"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "age_groups = popshare[['AgeGrp']]\n",
    "age_groups = age_groups.drop_duplicates(ignore_index=True)\n",
    "age_groups.to_csv('age_groups.csv', index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>AgeGrp</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0-4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>5-9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>10-14</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>15-19</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>20-24</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>25-29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>30-34</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>35-39</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>40-44</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>45-49</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>50-54</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>55-59</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>60-64</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>65-69</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>70-74</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>75-79</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>80-84</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>85-89</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>90-94</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>95-99</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>100+</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   AgeGrp\n",
       "0     0-4\n",
       "1     5-9\n",
       "2   10-14\n",
       "3   15-19\n",
       "4   20-24\n",
       "5   25-29\n",
       "6   30-34\n",
       "7   35-39\n",
       "8   40-44\n",
       "9   45-49\n",
       "10  50-54\n",
       "11  55-59\n",
       "12  60-64\n",
       "13  65-69\n",
       "14  70-74\n",
       "15  75-79\n",
       "16  80-84\n",
       "17  85-89\n",
       "18  90-94\n",
       "19  95-99\n",
       "20   100+"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "age_groups"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>LocID</th>\n",
       "      <th>ParentID</th>\n",
       "      <th>Location</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>900</td>\n",
       "      <td>0</td>\n",
       "      <td>World</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>108</td>\n",
       "      <td>910</td>\n",
       "      <td>Burundi</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>174</td>\n",
       "      <td>910</td>\n",
       "      <td>Comoros</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>262</td>\n",
       "      <td>910</td>\n",
       "      <td>Djibouti</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>232</td>\n",
       "      <td>910</td>\n",
       "      <td>Eritrea</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>232</th>\n",
       "      <td>882</td>\n",
       "      <td>957</td>\n",
       "      <td>Samoa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>233</th>\n",
       "      <td>772</td>\n",
       "      <td>957</td>\n",
       "      <td>Tokelau</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>234</th>\n",
       "      <td>776</td>\n",
       "      <td>957</td>\n",
       "      <td>Tonga</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>235</th>\n",
       "      <td>798</td>\n",
       "      <td>957</td>\n",
       "      <td>Tuvalu</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>236</th>\n",
       "      <td>876</td>\n",
       "      <td>957</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>237 rows × 3 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "     LocID  ParentID                   Location\n",
       "0      900         0                      World\n",
       "1      108       910                    Burundi\n",
       "2      174       910                    Comoros\n",
       "3      262       910                   Djibouti\n",
       "4      232       910                    Eritrea\n",
       "..     ...       ...                        ...\n",
       "232    882       957                      Samoa\n",
       "233    772       957                    Tokelau\n",
       "234    776       957                      Tonga\n",
       "235    798       957                     Tuvalu\n",
       "236    876       957  Wallis and Futuna Islands\n",
       "\n",
       "[237 rows x 3 columns]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "countries = popshare[(popshare['LocTypeID'] == 1) | (popshare['LocTypeID'] == 4)]\n",
    "countries = countries[['LocID', 'ParentID', 'Location']]\n",
    "countries = countries.drop_duplicates(subset=['LocID'], ignore_index=True)\n",
    "countries = countries.dropna(ignore_index=True)\n",
    "countries"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "countries.to_csv('countries.csv', index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>LocID</th>\n",
       "      <th>Location</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>903</td>\n",
       "      <td>Africa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>935</td>\n",
       "      <td>Asia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>908</td>\n",
       "      <td>Europe</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>904</td>\n",
       "      <td>Latin America and the Caribbean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>905</td>\n",
       "      <td>Northern America</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>909</td>\n",
       "      <td>Oceania</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   LocID                         Location\n",
       "0    903                           Africa\n",
       "1    935                             Asia\n",
       "2    908                           Europe\n",
       "3    904  Latin America and the Caribbean\n",
       "4    905                 Northern America\n",
       "5    909                          Oceania"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "continents = popshare[popshare['LocTypeID'] == 2]\n",
    "continents = continents[['LocID', 'Location']]\n",
    "continents = continents.drop_duplicates(subset=['LocID'], ignore_index=True)\n",
    "continents = continents.dropna(ignore_index=True)\n",
    "continents"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>LocID</th>\n",
       "      <th>ParentID</th>\n",
       "      <th>Location</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>910</td>\n",
       "      <td>903</td>\n",
       "      <td>Eastern Africa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>911</td>\n",
       "      <td>903</td>\n",
       "      <td>Middle Africa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>912</td>\n",
       "      <td>903</td>\n",
       "      <td>Northern Africa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>913</td>\n",
       "      <td>903</td>\n",
       "      <td>Southern Africa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>914</td>\n",
       "      <td>903</td>\n",
       "      <td>Western Africa</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>5500</td>\n",
       "      <td>935</td>\n",
       "      <td>Central Asia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>906</td>\n",
       "      <td>935</td>\n",
       "      <td>Eastern Asia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>5501</td>\n",
       "      <td>935</td>\n",
       "      <td>Southern Asia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>920</td>\n",
       "      <td>935</td>\n",
       "      <td>South-Eastern Asia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>922</td>\n",
       "      <td>935</td>\n",
       "      <td>Western Asia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>923</td>\n",
       "      <td>908</td>\n",
       "      <td>Eastern Europe</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>924</td>\n",
       "      <td>908</td>\n",
       "      <td>Northern Europe</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>925</td>\n",
       "      <td>908</td>\n",
       "      <td>Southern Europe</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>926</td>\n",
       "      <td>908</td>\n",
       "      <td>Western Europe</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>915</td>\n",
       "      <td>904</td>\n",
       "      <td>Caribbean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>916</td>\n",
       "      <td>904</td>\n",
       "      <td>Central America</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>931</td>\n",
       "      <td>904</td>\n",
       "      <td>South America</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>927</td>\n",
       "      <td>909</td>\n",
       "      <td>Australia/New Zealand</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>928</td>\n",
       "      <td>909</td>\n",
       "      <td>Melanesia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>954</td>\n",
       "      <td>909</td>\n",
       "      <td>Micronesia</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>957</td>\n",
       "      <td>909</td>\n",
       "      <td>Polynesia</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "    LocID  ParentID               Location\n",
       "0     910       903         Eastern Africa\n",
       "1     911       903          Middle Africa\n",
       "2     912       903        Northern Africa\n",
       "3     913       903        Southern Africa\n",
       "4     914       903         Western Africa\n",
       "5    5500       935           Central Asia\n",
       "6     906       935           Eastern Asia\n",
       "7    5501       935          Southern Asia\n",
       "8     920       935     South-Eastern Asia\n",
       "9     922       935           Western Asia\n",
       "10    923       908         Eastern Europe\n",
       "11    924       908        Northern Europe\n",
       "12    925       908        Southern Europe\n",
       "13    926       908         Western Europe\n",
       "14    915       904              Caribbean\n",
       "15    916       904        Central America\n",
       "16    931       904          South America\n",
       "17    927       909  Australia/New Zealand\n",
       "18    928       909              Melanesia\n",
       "19    954       909             Micronesia\n",
       "20    957       909              Polynesia"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "regions = popshare[popshare['LocTypeID'] == 3]\n",
    "regions = regions[['LocID', 'ParentID', 'Location']]\n",
    "regions = regions.drop_duplicates(subset=['LocID'], ignore_index=True)\n",
    "regions = regions.dropna(ignore_index=True)\n",
    "regions"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Consolidate and export"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "pop_world = pop[pop['Location'] == 'World']\n",
    "pop_world = pop_world[\n",
    "    ['LocID', 'Time', 'AgeGrp', 'PopMale', 'PopFemale']\n",
    "].reset_index(drop=True)\n",
    "\n",
    "popshare_world = popshare[popshare['Location'] == 'World']\n",
    "popshare_world = popshare_world[\n",
    "    ['LocID', 'Location', 'ParentID', 'Time', 'AgeGrp', 'PopMale', 'PopFemale']\n",
    "].reset_index(drop=True)\n",
    "popshare_world = popshare_world.rename(columns={'PopMale': 'PopShareMale', 'PopFemale': 'PopShareFemale'})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "pop_countries = pop[pop['LocTypeID'] == 4]\n",
    "pop_countries = pop_countries[\n",
    "    ['LocID', 'Time', 'AgeGrp', 'PopMale', 'PopFemale']\n",
    "].reset_index(drop=True)\n",
    "\n",
    "popshare_countries = popshare[popshare['LocTypeID'] == 4]\n",
    "popshare_countries = popshare_countries[\n",
    "    ['LocID', 'Location', 'ParentID', 'Time', 'AgeGrp', 'PopMale', 'PopFemale']\n",
    "].reset_index(drop=True)\n",
    "popshare_countries = popshare_countries.rename(columns={'PopMale': 'PopShareMale', 'PopFemale': 'PopShareFemale'})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "pop_countries = pd.concat([pop_world, pop_countries], ignore_index=True)\n",
    "popshare_countries = pd.concat([popshare_world, popshare_countries], ignore_index=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>LocID</th>\n",
       "      <th>Location</th>\n",
       "      <th>ParentID</th>\n",
       "      <th>Time</th>\n",
       "      <th>AgeGrp</th>\n",
       "      <th>PopShareMale</th>\n",
       "      <th>PopShareFemale</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>0-4</td>\n",
       "      <td>6.988</td>\n",
       "      <td>6.691</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>5-9</td>\n",
       "      <td>5.478</td>\n",
       "      <td>5.234</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>10-14</td>\n",
       "      <td>5.286</td>\n",
       "      <td>5.040</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>15-19</td>\n",
       "      <td>4.822</td>\n",
       "      <td>4.668</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>20-24</td>\n",
       "      <td>4.442</td>\n",
       "      <td>4.365</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154282</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>80-84</td>\n",
       "      <td>2.628</td>\n",
       "      <td>2.689</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154283</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>85-89</td>\n",
       "      <td>2.426</td>\n",
       "      <td>2.729</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154284</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>90-94</td>\n",
       "      <td>1.728</td>\n",
       "      <td>2.012</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154285</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>95-99</td>\n",
       "      <td>0.728</td>\n",
       "      <td>1.071</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154286</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>100+</td>\n",
       "      <td>0.152</td>\n",
       "      <td>0.354</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>154287 rows × 7 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        LocID                   Location  ParentID  Time AgeGrp  PopShareMale   \n",
       "0         900                      World         0  1950    0-4         6.988  \\\n",
       "1         900                      World         0  1950    5-9         5.478   \n",
       "2         900                      World         0  1950  10-14         5.286   \n",
       "3         900                      World         0  1950  15-19         4.822   \n",
       "4         900                      World         0  1950  20-24         4.442   \n",
       "...       ...                        ...       ...   ...    ...           ...   \n",
       "154282    876  Wallis and Futuna Islands       957  2100  80-84         2.628   \n",
       "154283    876  Wallis and Futuna Islands       957  2100  85-89         2.426   \n",
       "154284    876  Wallis and Futuna Islands       957  2100  90-94         1.728   \n",
       "154285    876  Wallis and Futuna Islands       957  2100  95-99         0.728   \n",
       "154286    876  Wallis and Futuna Islands       957  2100   100+         0.152   \n",
       "\n",
       "        PopShareFemale  \n",
       "0                6.691  \n",
       "1                5.234  \n",
       "2                5.040  \n",
       "3                4.668  \n",
       "4                4.365  \n",
       "...                ...  \n",
       "154282           2.689  \n",
       "154283           2.729  \n",
       "154284           2.012  \n",
       "154285           1.071  \n",
       "154286           0.354  \n",
       "\n",
       "[154287 rows x 7 columns]"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "popshare_countries"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "pyramid = pd.merge(\n",
    "    popshare_countries, \n",
    "    pop_countries, \n",
    "    on=['LocID', 'Time', 'AgeGrp'], \n",
    "    how='left'\n",
    ").reset_index(drop=True)"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Add columns to show Male/Female surplus."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>LocID</th>\n",
       "      <th>Location</th>\n",
       "      <th>ParentID</th>\n",
       "      <th>Time</th>\n",
       "      <th>AgeGrp</th>\n",
       "      <th>PopShareMale</th>\n",
       "      <th>PopShareFemale</th>\n",
       "      <th>PopMale</th>\n",
       "      <th>PopFemale</th>\n",
       "      <th>SurplusShareMale</th>\n",
       "      <th>SurplusShareFemale</th>\n",
       "      <th>SurplusMale</th>\n",
       "      <th>SurplusFemale</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>0-4</td>\n",
       "      <td>6.988</td>\n",
       "      <td>6.691</td>\n",
       "      <td>174647.391</td>\n",
       "      <td>167229.405</td>\n",
       "      <td>0.297</td>\n",
       "      <td>0.000</td>\n",
       "      <td>7417.986</td>\n",
       "      <td>0.000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>5-9</td>\n",
       "      <td>5.478</td>\n",
       "      <td>5.234</td>\n",
       "      <td>136914.008</td>\n",
       "      <td>130816.575</td>\n",
       "      <td>0.244</td>\n",
       "      <td>0.000</td>\n",
       "      <td>6097.433</td>\n",
       "      <td>0.000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>10-14</td>\n",
       "      <td>5.286</td>\n",
       "      <td>5.040</td>\n",
       "      <td>132112.875</td>\n",
       "      <td>125967.993</td>\n",
       "      <td>0.246</td>\n",
       "      <td>0.000</td>\n",
       "      <td>6144.882</td>\n",
       "      <td>0.000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>15-19</td>\n",
       "      <td>4.822</td>\n",
       "      <td>4.668</td>\n",
       "      <td>120512.860</td>\n",
       "      <td>116660.508</td>\n",
       "      <td>0.154</td>\n",
       "      <td>0.000</td>\n",
       "      <td>3852.352</td>\n",
       "      <td>0.000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>900</td>\n",
       "      <td>World</td>\n",
       "      <td>0</td>\n",
       "      <td>1950</td>\n",
       "      <td>20-24</td>\n",
       "      <td>4.442</td>\n",
       "      <td>4.365</td>\n",
       "      <td>111019.768</td>\n",
       "      <td>109095.897</td>\n",
       "      <td>0.077</td>\n",
       "      <td>0.000</td>\n",
       "      <td>1923.871</td>\n",
       "      <td>0.000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154282</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>80-84</td>\n",
       "      <td>2.628</td>\n",
       "      <td>2.689</td>\n",
       "      <td>0.260</td>\n",
       "      <td>0.266</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.061</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.006</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154283</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>85-89</td>\n",
       "      <td>2.426</td>\n",
       "      <td>2.729</td>\n",
       "      <td>0.240</td>\n",
       "      <td>0.270</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.303</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.030</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154284</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>90-94</td>\n",
       "      <td>1.728</td>\n",
       "      <td>2.012</td>\n",
       "      <td>0.171</td>\n",
       "      <td>0.199</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.284</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.028</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154285</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>95-99</td>\n",
       "      <td>0.728</td>\n",
       "      <td>1.071</td>\n",
       "      <td>0.072</td>\n",
       "      <td>0.106</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.343</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.034</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>154286</th>\n",
       "      <td>876</td>\n",
       "      <td>Wallis and Futuna Islands</td>\n",
       "      <td>957</td>\n",
       "      <td>2100</td>\n",
       "      <td>100+</td>\n",
       "      <td>0.152</td>\n",
       "      <td>0.354</td>\n",
       "      <td>0.015</td>\n",
       "      <td>0.035</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.202</td>\n",
       "      <td>0.000</td>\n",
       "      <td>0.020</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>154287 rows × 13 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        LocID                   Location  ParentID  Time AgeGrp  PopShareMale   \n",
       "0         900                      World         0  1950    0-4         6.988  \\\n",
       "1         900                      World         0  1950    5-9         5.478   \n",
       "2         900                      World         0  1950  10-14         5.286   \n",
       "3         900                      World         0  1950  15-19         4.822   \n",
       "4         900                      World         0  1950  20-24         4.442   \n",
       "...       ...                        ...       ...   ...    ...           ...   \n",
       "154282    876  Wallis and Futuna Islands       957  2100  80-84         2.628   \n",
       "154283    876  Wallis and Futuna Islands       957  2100  85-89         2.426   \n",
       "154284    876  Wallis and Futuna Islands       957  2100  90-94         1.728   \n",
       "154285    876  Wallis and Futuna Islands       957  2100  95-99         0.728   \n",
       "154286    876  Wallis and Futuna Islands       957  2100   100+         0.152   \n",
       "\n",
       "        PopShareFemale     PopMale   PopFemale  SurplusShareMale   \n",
       "0                6.691  174647.391  167229.405             0.297  \\\n",
       "1                5.234  136914.008  130816.575             0.244   \n",
       "2                5.040  132112.875  125967.993             0.246   \n",
       "3                4.668  120512.860  116660.508             0.154   \n",
       "4                4.365  111019.768  109095.897             0.077   \n",
       "...                ...         ...         ...               ...   \n",
       "154282           2.689       0.260       0.266             0.000   \n",
       "154283           2.729       0.240       0.270             0.000   \n",
       "154284           2.012       0.171       0.199             0.000   \n",
       "154285           1.071       0.072       0.106             0.000   \n",
       "154286           0.354       0.015       0.035             0.000   \n",
       "\n",
       "        SurplusShareFemale  SurplusMale  SurplusFemale  \n",
       "0                    0.000     7417.986          0.000  \n",
       "1                    0.000     6097.433          0.000  \n",
       "2                    0.000     6144.882          0.000  \n",
       "3                    0.000     3852.352          0.000  \n",
       "4                    0.000     1923.871          0.000  \n",
       "...                    ...          ...            ...  \n",
       "154282               0.061        0.000          0.006  \n",
       "154283               0.303        0.000          0.030  \n",
       "154284               0.284        0.000          0.028  \n",
       "154285               0.343        0.000          0.034  \n",
       "154286               0.202        0.000          0.020  \n",
       "\n",
       "[154287 rows x 13 columns]"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pyramid[['SurplusShareMale', 'SurplusShareFemale', 'SurplusMale', 'SurplusFemale']] = pyramid.apply(\n",
    "    lambda row: [\n",
    "        row['PopShareMale'] - row['PopShareFemale'] if row['PopShareMale'] > row['PopShareFemale'] else 0, \n",
    "        row['PopShareFemale'] - row['PopShareMale'] if row['PopShareFemale'] > row['PopShareMale'] else 0,\n",
    "        row['PopMale'] - row['PopFemale'] if row['PopMale'] > row['PopFemale'] else 0, \n",
    "        row['PopFemale'] - row['PopMale'] if row['PopFemale'] > row['PopMale'] else 0\n",
    "    ], \n",
    "    axis=1, \n",
    "    result_type='expand'\n",
    ")\n",
    "pyramid"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "pyramid.to_csv('pyramid.csv', index=False)"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Fertility"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/var/folders/cv/xn1my8q111q1ngz5g62wkt_r0000gn/T/ipykernel_1127/3541316337.py:1: DtypeWarning: Columns (2) have mixed types. Specify dtype option on import or set low_memory=False.\n",
      "  fertility = pd.read_csv('raw/WPP2022_Demographic_Indicators_Medium.csv')\n"
     ]
    }
   ],
   "source": [
    "fertility = pd.read_csv('raw/WPP2022_Demographic_Indicators_Medium.csv')\n",
    "fertility = fertility.loc[fertility['Time'].isin(list(range(1950, 2022+1)))].reset_index(drop=True)\n",
    "\n",
    "fertility_regions = fertility[(fertility['LocTypeID'] == 1) | (fertility['LocTypeID'] == 2)]\n",
    "fertility_countries = fertility[fertility['LocTypeID'] == 4]\n",
    "\n",
    "fertility_regions = fertility_regions[['LocID', 'Location', 'Time', 'TFR']]\n",
    "fertility_countries = fertility_countries[['LocID', 'Location', 'Time', 'TFR']]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [],
   "source": [
    "fertility_regions.to_csv('fertility_regions.csv', index=False)\n",
    "fertility_countries.to_csv('fertility_countries.csv', index=False)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "twopoints-venv",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.9"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
}