5 years ago · d4e459128d
--- a/py/agg.py
+++ b/py/agg.py
@@ -1,24 +1,49 @@
 
				 # Aggregrate given clusters
			
 
				+from argparse import ArgumentParser
			
 
				 import pandas as p
			
 
				+from tqdm import tqdm
			
 
				 
			
 
				 def aggregator(widedf, clusdf):
			
 
				+    """Aggregate a (wide-form) dataframe by the cluster mappings in a second dataframe
			
 
				+    """
			
 
				     clusters = clusdf['cluster'].unique()
			
 
				     clusters.sort()
			
 
				-    aggv = {}
			
 
				+    dflis = []
			
 
				     qlow  = lambda x: x.quantile(0.250)
			
 
				     qhigh = lambda x: x.quantile(0.750)
			
 
				-    for c in clusters:
			
 
				-        icps = clusdf[clusdf.cluster == c].icp_id.values
			
 
				+    for c in tqdm(clusters):
			
 
				+        icps = clusdf[clusdf.cluster == c].icp_id.unique()
			
 
				         subdf = widedf[icps]
			
 
				-        agged = subdf.agg(func = 'median', axis = 1)
			
 
				-        print(agged)
			
 
				+        aggmed = subdf.agg(func = 'median', axis = 1)
			
 
				+        aggmen = subdf.agg(func = 'mean', axis = 1)
			
 
				+        aggupq = subdf.agg(func = qlow, axis = 1)
			
 
				+        aggdwq = subdf.agg(func = qhigh, axis = 1)
			
 
				+        agged = p.DataFrame(data = {
			
 
				+            "cluster":         c,
			
 
				+            "kwh_tot_median":  aggmed,
			
 
				+            "kwh_tot_mean":    aggmen,
			
 
				+            "kwh_tot_CI_low":  aggupq,
			
 
				+            "kwh_tot_CI_high": aggdwq,
			
 
				+            }).reset_index()
			
 
				+        dflis.append(agged)
			
 
				+    adf = p.concat(dflis, axis = 0, ignore_index = True)
			
 
				+    return adf
			
 
				 
			
 
				 
			
 
				 def main():
			
 
				-    wd = p.read_pickle("../data/2017-5k-wide.pkl")
			
 
				-    cd = p.read_pickle("../data/5kclustable.pkl")
			
 
				-    aggregator(wd, cd)
			
 
				+    parser = ArgumentParser(description='Aggregate dataframe by specified clusters')
			
 
				+    parser.add_argument("-i", "--input",  dest="input",      help = "input pickle path; default: ../data/2017-5k-wide.pkl",  metavar="[PATH]", default = "../data/2017-5k-wide.pkl")
			
 
				+    parser.add_argument("-c", "--clusters", dest="clusfile", help = "cluster pickle path; default: ../data/5kclustable.pkl", metavar="[PATH]", default = "../data/5kclustable.pkl")
			
 
				+    parser.add_argument("-o", "--output", dest="output",     help = "output pickle path; default: ../data/5k-ag.pkl", metavar="[PATH]", default = "../data/5k-ag.pkl")
			
 
				+    parser.add_argument("-p", "--pivot", dest = "istall",    help = "input dataframe is in tall format and must be pivoted", action ="store_true")
			
 
				+    args = parser.parse_args()
			
 
				+    wd = p.read_pickle(args.input)
			
 
				+    cd = p.read_pickle(args.clusfile)
			
 
				+    if (args.istall):
			
 
				+        wd = wd.pivot(index = 'read_time', columns = 'icp_id', values = 'kwh_tot')
			
 
				 
			
 
				+    agged = aggregator(wd, cd)
			
 
				+    agged.to_pickle(args.output)
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
--- a/py/clustering.py
+++ b/py/clustering.py
@@ -14,23 +14,6 @@ from itertools import combinations
 
				 from math import factorial as f
			
 
				 
			
 
				 
			
 
				-
			
 
				-
			
 
				-numclusts = 9
			
 
				-Sourcedata =   '../data/2017-5k-wide.pkl'
			
 
				-Sourcecorr =   '../data/5kdcorrmatrix.pkl'
			
 
				-lableddata =   '../data/9-clusters-5k.pkl'
			
 
				-aggdata =      '../data/9-clusters-5k-agg.pkl'
			
 
				-clustertable = '../data/9-clusters-5k-table.pkl'
			
 
				-
			
 
				-# sourcep = p.read_pickle(Sourcecorr)
			
 
				-
			
 
				-# lmat = squareform(sourcep)
			
 
				-
			
 
				-# lobj = linkage(lmat, method = 'ward')
			
 
				-# print(lobj)
			
 
				-# print(cophenet(lobj, lmat))
			
 
				-
			
 
				 def cluster(dcmat, method, nclusters):
			
 
				     """Cluster provided correlation dataframe
			
 
				     """
			
@@ -41,6 +24,7 @@ def cluster(dcmat, method, nclusters):
 
				     clustdf = p.DataFrame({'icp_id' : dcmat.index.values, 'cluster' : clusts})
			
 
				     return lobj, clustdf
			
 
				 
			
 
				+
			
 
				 def dendro(lobj, clustdf, numclusts, icps, fname):
			
 
				     clabs = [x + 1 for x in range(numclusts)]
			
 
				     cpal = dict(zip(clabs, sns.color_palette("colorblind", numclusts).as_hex()))
			
@@ -90,75 +74,5 @@ def main():
 
				         dendro(l, c, args.numclusters, icps, args.treepath)
			
 
				 
			
 
				 
			
 
				-
			
 
				-
			
 
				-# clabs = [x + 1 for x in range(numclusts)]
			
 
				-# cpal = dict(zip(clabs, sns.color_palette("colorblind", numclusts).as_hex()))
			
 
				-
			
 
				-# clusts = fcluster(lobj, numclusts, criterion='maxclust')
			
 
				-# print(clusts)
			
 
				-# print(cmat.index.values)
			
 
				-# clustdf = p.DataFrame({'icp_id' : cmat.index.values, 'cluster' : clusts})
			
 
				-# print(clustdf)
			
 
				-# clustdf.to_pickle(clustertable)
			
 
				-# mdf = p.merge(clustdf, dforig, on = 'icp_id', how = 'left')
			
 
				-# print(mdf)
			
 
				-# print(mdf.info())
			
 
				-# qlow  = lambda x: x.quantile(0.250)
			
 
				-# qhigh = lambda x: x.quantile(0.750)
			
 
				-# print(mdf.cluster.describe())
			
 
				-# mdagg = mdf.groupby(['read_time', 'cluster']).agg({
			
 
				-#         'kwh_tot': ['median', 'mean', ('CI_low', qlow), ('CI_high', qhigh)]
			
 
				-# }, q = 0.025)
			
 
				-# mdagg.columns = ['_'.join(x) for x in mdagg.columns.ravel()]
			
 
				-# mdagg = mdagg.reset_index()
			
 
				-# print(mdagg)
			
 
				-# print(mdagg.info())
			
 
				-# print(mdagg.describe())
			
 
				-# # mdf.to_csv('~/windows/Documents/clusters-ward.csv')
			
 
				-# print("Saving")
			
 
				-# mdf.to_pickle(lableddata)
			
 
				-# mdagg.to_pickle(aggdata)
			
 
				-# print("saved")
			
 
				-
			
 
				-# # Algorithm via 
			
 
				-# # <https://stackoverflow.com/questions/38153829/custom-cluster-colors-of-scipy-dendrogram-in-python-link-color-func>
			
 
				-# ldict = {icp_id:cpal[cluster] for icp_id, cluster in zip(clustdf.icp_id, clustdf.cluster)}
			
 
				-# link_cols = {}
			
 
				-# for i, i12 in enumerate(lobj[:,:2].astype(int)):
			
 
				-#   c1, c2 = (link_cols[x] if x > len(lobj) else ldict[clustdf.icp_id[x]]
			
 
				-#     for x in i12)
			
 
				-#   link_cols[i+1+len(lobj)] = c1 if c1 == c2 else '#000000'
			
 
				-
			
 
				-# plt.figure(figsize = (25, 10))
			
 
				-# plt.title('ICP Clustering Dendrogram')
			
 
				-# plt.xlabel('ICP ID/(Number of ICPs)')
			
 
				-# plt.ylabel('distance')
			
 
				-# dendrogram(
			
 
				-#     lobj,
			
 
				-#     labels = cmat.index.values,
			
 
				-#     leaf_rotation=90,
			
 
				-#     leaf_font_size=8,
			
 
				-#     # show_leaf_counts = True,
			
 
				-#     # truncate_mode = 'lastp',
			
 
				-#     # p = 50,
			
 
				-#     # show_contracted = True,
			
 
				-#     link_color_func = lambda x: link_cols[x],
			
 
				-#     color_threshold = None
			
 
				-# )
			
 
				-# # plt.show()
			
 
				-# plt.savefig("../img/sample-9-dendro.png")
			
 
				-
			
 
				-# sns.set()
			
 
				-
			
 
				-# f, axes = plt.subplots(3,3)
			
 
				-
			
 
				-# for i, c in enumerate(clabs):
			
 
				-#     fds = mdagg[mdagg.cluster == c]
			
 
				-#     sns.lineplot(x = 'read_time', y = 'kwh_tot_mean', color = cpal[c], ax = axes[i//3][i%3], data = fds)
			
 
				-#     axes[i//3][i%3].fill_between(fds.read_time.dt.to_pydatetime(), fds.kwh_tot_CI_low, fds.kwh_tot_CI_high, alpha = 0.1, color = cpal[c])
			
 
				-# # plt.show()
			
 
				-# plt.savefig("../img/sample-9-panedtrends.png")
			
 
				-
			
 
				 if __name__ == "__main__":
			
 
				     main()
			
--- a/py/collate.py
+++ b/py/collate.py
@@ -1,4 +1,5 @@
 
				 # Collate 12 dataframes into one (wide) combined dataframe
			
 
				+# Made redundant by downkwh.py
			
 
				 import pandas as p
			
 
				 import gc
			
 
				 from tqdm import tqdm
			
--- a/py/dcorr.py
+++ b/py/dcorr.py
@@ -12,10 +12,8 @@ def tqcorr(df):
 
				     cols = df.columns
			
 
				     ncols = len(cols)
			
 
				     cdf = p.DataFrame(index = cols, columns = cols, dtype = np.float16)
			
 
				-    print(cdf.info())
			
 
				     for c in tqdm(cols):
			
 
				         cdf.loc[c, c] = 0
			
 
				-    print(cdf.info())
			
 
				     comb = combinations(cols, 2)
			
 
				     ncomb = f(ncols) // f(2) // f(ncols - 2)
			
 
				     for c1, c2 in tqdm(comb, total = ncomb):
			
@@ -26,10 +24,12 @@ def tqcorr(df):
 
				     return cdf
			
 
				 
			
 
				 
			
 
				-def createCorr(source, output):
			
 
				+def createCorr(source, output, piv):
			
 
				     """Load a pkl in wide form from source, process, run tqcorr() and save response to output
			
 
				     """
			
 
				     df = p.read_pickle(source)
			
 
				+    if piv:
			
 
				+        df = df.pivot(index = 'read_time', columns = 'icp_id', values = 'kwh_tot')
			
 
				     df = df[df.columns[df.max() != df.min()]]
			
 
				     cmat = tqcorr(df)
			
 
				     cmat.to_pickle(output)
			
@@ -37,7 +37,8 @@ def createCorr(source, output):
 
				 
			
 
				 if __name__ == "__main__":
			
 
				     parser = ArgumentParser(description='Create distance correlation matrix from pickled wideform pandas dataframe')
			
 
				-    parser.add_argument("-i", "--input",  dest="input",  help = "input pickle path; default: ../data/2017-5k-wide.pkl",  metavar="[PATH]", default = "../data/2017-5k-wide.pkl")
			
 
				-    parser.add_argument("-o", "--output", dest="output", help = "output pickle path; default: ../data/5kdcorrmatrix.pkl", metavar="[PATH]", default = "../data/5kdcorrmatrix.pkl")
			
 
				+    parser.add_argument("-i", "--input",  dest="input",   help = "input pickle path; default: ../data/2017-5k-wide.pkl",  metavar="[PATH]", default = "../data/2017-5k-wide.pkl")
			
 
				+    parser.add_argument("-o", "--output", dest="output",  help = "output pickle path; default: ../data/5kdcorrmatrix.pkl", metavar="[PATH]", default = "../data/5kdcorrmatrix.pkl")
			
 
				+    parser.add_argument("-p", "--pivot", dest = "istall", help = "input dataframe is in tall format and must be pivoted", action ="store_true")
			
 
				     args = parser.parse_args()
			
 
				-    createCorr(args.input, args.output)
			
 
				+    createCorr(args.input, args.output, args.istall)
			
--- a/py/downkwh.py
+++ b/py/downkwh.py
@@ -1,33 +1,131 @@
 
				-from util import getQuery, pickleQuery, getkwh
			
 
				+from argparse import ArgumentParser
			
 
				+# from psycopg2 import sql
			
 
				+import gc
			
 
				+from util import getQuery, datevalid
			
 
				 import pandas as p
			
 
				 import gc
			
 
				 from datetime import datetime
			
 
				-from tqdm import tqdm
			
 
				-
			
 
				-months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']
			
 
				-mstarts = list(range(1, 13))
			
 
				-mends = mstarts[1:13]
			
 
				-mends.append(1)
			
 
				-yends = [2017] * 11
			
 
				-yends.append(2018)
			
 
				-
			
 
				-for i, m in tqdm(enumerate(months)):
			
 
				-    # if i < 11:
			
 
				-    #     continue
			
 
				-    print(m)
			
 
				-    print(datetime.now().time())
			
 
				-    kwhdata = getkwh('2017-{:02d}-01'.format(mstarts[i]), 
			
 
				-                     '{}-{:02d}-01'.format(yends[i], mends[i]), 
			
 
				-                     '2017-{:02d}-01 00:30:00'.format(mstarts[i]), 
			
 
				-                     '{}-{:02d}-01 00:00:00'.format(yends[i], mends[i]), 
			
 
				-                     '%%1')
			
 
				-    print("Pivoting")
			
 
				-    kwhpiv = kwhdata.pivot(index = 'read_time', columns = 'icp_id', values = 'kwh_tot')
			
 
				-    print("Pickling")
			
 
				-    kwhpiv.to_pickle('../data/2017-{}-5k.pkl'.format(m))
			
 
				-    del kwhdata
			
 
				-    del kwhpiv
			
 
				-    gc.collect()
			
 
				-
			
 
				-print('Done')
			
 
				+from tqdm import tqdm, trange
			
 
				+from pprint import pprint
			
 
				+from tempfile import TemporaryDirectory
			
 
				+import numpy as np
			
 
				+
			
 
				+tables = [
			
 
				+    'public.best_icp', # All icps with at least 360 days of data in 2017
			
 
				+    'public.best_icp_1618', # All icps with at least 720 days of data in 2 years from 1 April 2016
			
 
				+    'public.best_icp_18m', # All icps with at least 540 days of data from July 2016 to end of 2017
			
 
				+    'public.icp_sample', # A pre-generated 1k sample from best_icp
			
 
				+    'public.icp_sample_5k', # A pre-generated 5k sample from best_icp
			
 
				+    'public.icp_sample_1618', # A pre-generated 1k sample from best_icp_1618
			
 
				+    'public.icp_sample_18m' # A pre-generated 1k sample from best_icp_18m
			
 
				+]
			
 
				+
			
 
				+
			
 
				+def getkwh(datestart, dateend, timestart, timeend, icp_tab, verbose = True):
			
 
				+    """Get kwh data from database
			
 
				+    """
			
 
				+    query = """
			
 
				+    SELECT SUBSTRING(comb.icp_id FROM 2 FOR 6)::int AS icp_id, comb.read_time, COALESCE(kwh_tot, 0) AS kwh_tot
			
 
				+    FROM
			
 
				+    (
			
 
				+        SELECT read_time, icp_id
			
 
				+        FROM
			
 
				+        (
			
 
				+            SELECT read_time 
			
 
				+            FROM GENERATE_SERIES(%(tsstart)s::timestamp, %(tsend)s::timestamp, 
			
 
				+                '30 minutes'::interval) read_time
			
 
				+        ) AS tsdata CROSS JOIN {}
			
 
				+    ) AS comb
			
 
				+    LEFT JOIN
			
 
				+    (
			
 
				+        SELECT *, read_date + CONCAT(period / 2, ':', period %% 2 * 30, ':00')::time AS read_time
			
 
				+        FROM (
			
 
				+            SELECT  a.icp_id
			
 
				+                 , a.read_date
			
 
				+                 , c.period
			
 
				+                 , sum(c.read_kwh) as kwh_tot
			
 
				+                 , sum(case when a.content_code = 'UN' then c.read_kwh else 0 end) as kwh_un
			
 
				+                 , sum(case when a.content_code in ('CN','EG') then c.read_kwh else 0 end) as kwh_cn
			
 
				+            FROM    coup_prd.coupdatamaster a,
			
 
				+                unnest(a.read_array) WITH ORDINALITY c(read_kwh, period)
			
 
				+            WHERE   a.read_date >= to_date(%(datestart)s,'yyyy-mm-dd')
			
 
				+             and   a.read_date <  to_date(%(dateend)s,'yyyy-mm-dd')
			
 
				+             and   a.content_code  ~ ('UN|CN|EG')
			
 
				+             AND   a.icp_id IN (
			
 
				+                SELECT icp_id FROM {}
			
 
				+             )
			
 
				+            GROUP BY 1, 2, 3
			
 
				+        ) AS coup_tall
			
 
				+    ) AS tall_timestamp 
			
 
				+    ON comb.read_time = tall_timestamp.read_time AND comb.icp_id = tall_timestamp.icp_id;
			
 
				+    """
			
 
				+    query = query.format(icp_tab, icp_tab)
			
 
				+    pdict = {
			
 
				+        'datestart': datestart,
			
 
				+        'dateend': dateend,
			
 
				+        'tsstart': timestart,
			
 
				+        'tsend': timeend
			
 
				+        # 'subset': subset
			
 
				+    }
			
 
				+
			
 
				+    if verbose:
			
 
				+        print("Getting data with parameters:")
			
 
				+        pprint(pdict)
			
 
				+    qdf = getQuery(query, pdict, verbose)
			
 
				+    if verbose:
			
 
				+        print("Optimising")
			
 
				+    qdf['icp_id'] = qdf['icp_id'].astype(np.int32)
			
 
				+    qdf['kwh_tot'] = qdf['kwh_tot'].astype(np.float16)
			
 
				+    # print("Done")
			
 
				+    return(qdf)
			
 
				+
			
 
				+
			
 
				+def collateddownload(startd, endd, numdivis, icp_tab, pivot, verbose):
			
 
				+    """
			
 
				+    Download dataset in pieces, then combine
			
 
				+    """
			
 
				+    with TemporaryDirectory() as tempdir:
			
 
				+        divset = p.date_range(startd, endd, periods = numdivis + 1).strftime("%Y-%m-%d")
			
 
				+        divlow = divset[:-1]
			
 
				+        divhig = divset[1:]
			
 
				+        for i in trange(numdivis):
			
 
				+            datestart = divlow[i]
			
 
				+            dateend   = divhig[i]
			
 
				+            datetimeend = dateend + " 00:00:00"
			
 
				+            datetimestart = datestart + " 00:30:00"
			
 
				+            filename = "{}/{}temp.pkl".format(tempdir, i)
			
 
				+            tdf = getkwh(datestart, dateend, datetimestart, datetimeend, icp_tab, verbose)
			
 
				+            if pivot:
			
 
				+                if verbose:
			
 
				+                    print("Pivoting")
			
 
				+                tdf = tdf.pivot(index = 'read_time', columns = 'icp_id', values = 'kwh_tot')
			
 
				+            tdf.to_pickle(filename)
			
 
				+            del tdf
			
 
				+        coldf = p.read_pickle("{}/{}temp.pkl".format(tempdir, 0))
			
 
				+        for i in trange(1, numdivis):
			
 
				+            filename = "{}/{}temp.pkl".format(tempdir, i)
			
 
				+            tdf = p.read_pickle(filename) 
			
 
				+            coldf = p.concat([coldf, tdf])
			
 
				+            del tdf
			
 
				+            gc.collect()
			
 
				+        return coldf
			
 
				+
			
 
				+
			
 
				+def main():
			
 
				+    parser = ArgumentParser(description='Download kwh data from dataframe')
			
 
				+    parser.add_argument("-o", "--output", dest="output",     help = "output pickle path; default: ../data/2017-5k-wide.pkl", metavar="[PATH]", default = "../data/2017-5k-wide.pkl")
			
 
				+    parser.add_argument("-s", "--start-date", dest = "startdate", help = "start date for download; format: YYYY-MM-DD; default: 2017-01-01", metavar="[DATE]", default = "2017-01-01", type = datevalid)
			
 
				+    parser.add_argument("-e", "--end-date", dest = "enddate", help = "end date for download; format: YYYY-MM-DD; default: 2018-01-01", metavar="[DATE]", default = "2018-01-01", type = datevalid)
			
 
				+    parser.add_argument("-t", "--table", dest = "table", help = "table for download (constrained to specific values in source); default: public.icp_sample", metavar="[TABLE]", default = "public.icp_sample", choices = tables)
			
 
				+    parser.add_argument("-n", "--num-div",  dest="numdiv",  help = "number of segments to divide download into", metavar = "[NUM]", default = 12, type = int)
			
 
				+    parser.add_argument("--no-pivot", dest = "pivot",    help = "output dataframe in tall (non-pivoted) format", action ="store_false")
			
 
				+    parser.add_argument("-v", "--verbose", dest = "verbose", action ="store_true")
			
 
				+    args = parser.parse_args()
			
 
				+    cdata = collateddownload(args.startdate, args.enddate, args.numdiv, args.table, args.pivot, args.verbose)
			
 
				+    cdata.to_pickle(args.output)
			
 
				+
			
 
				+
			
 
				+
			
 
				 
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
--- a/py/downweather.py
+++ b/py/downweather.py
@@ -1,10 +1,18 @@
 
				-from util import gettemp
			
 
				+from argparse import ArgumentParser
			
 
				+from util import gettemp, datevalid
			
 
				 import pandas as p
			
 
				 
			
 
				-tempdata = gettemp('2016-04-01', '2019-01-01', 2006)
			
 
				 
			
 
				-print(tempdata.info())
			
 
				-print(tempdata.describe())
			
 
				+def main():
			
 
				+    parser = ArgumentParser(description='Download kwh data from dataframe')
			
 
				+    parser.add_argument("-o", "--output", dest="output",     help = "output pickle path; default: ../data/2016-18-weather.pkl", metavar="[PATH]", default = "../data/2016-18-weather.pkl")
			
 
				+    parser.add_argument("-s", "--start-date", dest = "startdate", help = "start date for download; format: YYYY-MM-DD; default: 2016-04-01", metavar="[DATE]", default = "2016-04-01", type = datevalid)
			
 
				+    parser.add_argument("-e", "--end-date", dest = "enddate", help = "end date for download; format: YYYY-MM-DD; default: 2019-01-01", metavar="[DATE]", default = "2019-01-01", type = datevalid)
			
 
				+    parser.add_argument("--station", dest = "station", help = "weather station to get data from; default: 2006", metavar="[STATION]", default = "2006")
			
 
				+    parser.add_argument("-v", "--verbose", dest = "verbose", action ="store_true")
			
 
				+    args = parser.parse_args()
			
 
				+    tempdata = gettemp(args.startdate.strftime("%Y-%m-%d"), args.enddate.strftime("%Y-%m-%d"), args.station, args.verbose)
			
 
				+    tempdata.to_pickle(args.output)
			
 
				 
			
 
				-print("Pickling")
			
 
				-tempdata.to_pickle("../data/2016-18-weather.pkl")
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
--- a/py/projprocess.py
+++ b/py/projprocess.py
@@ -1,5 +1,7 @@
 
				 # This file simply takes future kwh data for the thousand previously 
			
 
				 # sampled ICPs and calculates new aggregated measures for each cluster
			
 
				+# 
			
 
				+# Note: This is now redundant with agg.py
			
 
				 
			
 
				 import pandas as p
			
 
				 
			
--- a/py/util.py
+++ b/py/util.py
@@ -1,3 +1,4 @@
 
				+from argparse import ArgumentTypeError
			
 
				 import psycopg2 as pg
			
 
				 from configparser import ConfigParser
			
 
				 import pandas.io.sql as psql
			
@@ -6,6 +7,12 @@ import datetime as dt
 
				 import numpy as np
			
 
				 from pprint import pprint
			
 
				 
			
 
				+def datevalid(d):
			
 
				+    try:
			
 
				+        return dt.datetime.strptime(d, "%Y-%m-%d")
			
 
				+    except ValueError:
			
 
				+        raise ArgumentTypeError("Invaid date: {}".format(d))
			
 
				+
			
 
				 
			
 
				 def config(filename='database.ini', section='postgresql'):
			
 
				     """Config parser from
			
@@ -28,7 +35,7 @@ def config(filename='database.ini', section='postgresql'):
 
				     return db
			
 
				 
			
 
				 
			
 
				-def getQuery(query, qparams=[]):
			
 
				+def getQuery(query, qparams=[], verbose = True):
			
 
				     """
			
 
				     Get single query
			
 
				     """
			
@@ -37,29 +44,33 @@ def getQuery(query, qparams=[]):
 
				     try:
			
 
				         params = config()
			
 
				 
			
 
				-        print("Connecting to database")
			
 
				+        if verbose:
			
 
				+            print("Connecting to database")
			
 
				 
			
 
				         conn = pg.connect(**params)
			
 
				         cur = conn.cursor()
			
 
				 
			
 
				         # Get table
			
 
				-        print("Retrieving table")
			
 
				+        if verbose:
			
 
				+            print("Retrieving table")
			
 
				+
			
 
				         dataframe = psql.read_sql(query, conn, params=qparams)
			
 
				 
			
 
				         cur.close()
			
 
				 
			
 
				-        print("Table recieved")
			
 
				+        if verbose:
			
 
				+            print("Table recieved")
			
 
				 
			
 
				         return dataframe
			
 
				 
			
 
				     except (Exception, pg.DatabaseError) as error:
			
 
				-        print(error)
			
 
				-        return None
			
 
				+        raise error
			
 
				 
			
 
				     finally:
			
 
				         if conn is not False:
			
 
				             conn.close()
			
 
				-            print('Database connection closed')
			
 
				+            if verbose:
			
 
				+                print('Database connection closed')
			
 
				 
			
 
				 
			
 
				 def pickleQuery(query, path, qparams=[]):
			
@@ -68,60 +79,7 @@ def pickleQuery(query, path, qparams=[]):
 
				     print("Table pickled")
			
 
				 
			
 
				 
			
 
				-def getkwh(datestart, dateend, timestart, timeend, subset):
			
 
				-    query = """
			
 
				-    SELECT SUBSTRING(comb.icp_id FROM 2 FOR 6)::int AS icp_id, comb.read_time, COALESCE(kwh_tot, 0) AS kwh_tot
			
 
				-    FROM
			
 
				-    (
			
 
				-        SELECT read_time, icp_id
			
 
				-        FROM
			
 
				-        (
			
 
				-            SELECT read_time 
			
 
				-            FROM GENERATE_SERIES(%(tsstart)s::timestamp, %(tsend)s::timestamp, 
			
 
				-                '30 minutes'::interval) read_time
			
 
				-        ) AS tsdata CROSS JOIN public.icp_sample_5k
			
 
				-    ) AS comb
			
 
				-    LEFT JOIN
			
 
				-    (
			
 
				-        SELECT *, read_date + CONCAT(period / 2, ':', period %% 2 * 30, ':00')::time AS read_time
			
 
				-        FROM (
			
 
				-            SELECT  a.icp_id
			
 
				-                 , a.read_date
			
 
				-                 , c.period
			
 
				-                 , sum(c.read_kwh) as kwh_tot
			
 
				-                 , sum(case when a.content_code = 'UN' then c.read_kwh else 0 end) as kwh_un
			
 
				-                 , sum(case when a.content_code in ('CN','EG') then c.read_kwh else 0 end) as kwh_cn
			
 
				-            FROM    coup_prd.coupdatamaster a,
			
 
				-                unnest(a.read_array) WITH ORDINALITY c(read_kwh, period)
			
 
				-            WHERE   a.read_date >= to_date(%(datestart)s,'yyyy-mm-dd')
			
 
				-             and   a.read_date <  to_date(%(dateend)s,'yyyy-mm-dd')
			
 
				-             and   a.content_code  ~ ('UN|CN|EG')
			
 
				-             AND   a.icp_id IN (
			
 
				-                SELECT icp_id FROM public.icp_sample_5k
			
 
				-             )
			
 
				-            GROUP BY 1, 2, 3
			
 
				-        ) AS coup_tall
			
 
				-    ) AS tall_timestamp 
			
 
				-    ON comb.read_time = tall_timestamp.read_time AND comb.icp_id = tall_timestamp.icp_id;
			
 
				-    """
			
 
				-    pdict = {
			
 
				-        'datestart': datestart,
			
 
				-        'dateend': dateend,
			
 
				-        'tsstart': timestart,
			
 
				-        'tsend': timeend
			
 
				-        # 'subset': subset
			
 
				-    }
			
 
				-    print("Getting data with parameters:")
			
 
				-    pprint(pdict)
			
 
				-    qdf = getQuery(query, pdict)
			
 
				-    print("Optimising")
			
 
				-    qdf['icp_id'] = qdf['icp_id'].astype(np.int32)
			
 
				-    qdf['kwh_tot'] = qdf['kwh_tot'].astype(np.float16)
			
 
				-    print("Done")
			
 
				-    return(qdf)
			
 
				-
			
 
				-
			
 
				-def gettemp(datestart, dateend, station):
			
 
				+def gettemp(datestart, dateend, station, verbose = True):
			
 
				     query = """
			
 
				     SELECT record_no, station, temp_date, temp_date + temp_time AS temp_timestamp, tmax_c, tmin_c,
			
 
				         tgmin, tmean, rhmean
			
@@ -136,19 +94,18 @@ def gettemp(datestart, dateend, station):
 
				         'dateend':   dateend,
			
 
				         'station':   station
			
 
				     }
			
 
				-    print("Getting data with parameters:")
			
 
				-    pprint(pdict)
			
 
				-    qdf = getQuery(query, pdict)
			
 
				-    print("converting")
			
 
				+    if verbose:
			
 
				+        print("Getting data with parameters:")
			
 
				+        pprint(pdict)
			
 
				+    qdf = getQuery(query, pdict, verbose)
			
 
				+    if verbose:
			
 
				+        print("converting")
			
 
				     qdf.temp_date = p.to_datetime(qdf.temp_date)
			
 
				-    # qdf.temp_time = qdf.temp_time.to_timestamp()
			
 
				-    print('Done')
			
 
				+    if verbose:
			
 
				+        print('Done')
			
 
				     return qdf
			
 
				 
			
 
				 
			
 
				-
			
 
				-
			
 
				-
			
 
				 if __name__ == "__main__":
			
 
				     dv = getQuery('SELECT version()').version[0]
			
 
				     print('PostgreSQL database version:')