Unfortunately, it would take approximately a week on an r5.large, so I'm going to work with a large sample instead

5 years ago · 4c3c2ff9d0
--- a/py/clustering.py
+++ b/py/clustering.py
 
															     print(cdf.info())
														
 
															     comb = combinations(cols, 2)
														
 
															     for c1, c2 in tqdm(comb):
														
 
															-        cdf.loc[c1, c2] = 1 - df[c1].corr(df[c2])
														
 
															+        dv = 1 - df[c1].corr(df[c2])
														
 
															+        cdf.loc[c1, c2] = dv
														
 
															+        cdf.loc[c2, c1] = dv
														
 
															     print(cdf.info())
														
 
															     return cdf
														
 
															 tqdm.pandas()
														
 
															 Sourcedata =   '../data/2017-all-wide.pkl'
														
 
															-lableddata =   '../data/9-clusters.pkl'
														
 
															-aggdata =      '../data/9-clusters.agg.pkl'
														
 
															-clustertable = '../data/9-clusters-sample-table.pkl'
														
 
															+lableddata =   '../data/9-clusters-all.pkl'
														
 
															+aggdata =      '../data/9-clusters-all-agg.pkl'
														
 
															+clustertable = '../data/9-clusters-all-table.pkl'
														
 
															 numclusts = 9
														
 
															 df = p.read_pickle(Sourcedata)