Selaa lähdekoodia

Adding EDA tutorial

Marc Garcia 6 vuotta sitten
vanhempi
commit
eb104453c2
2 muutettua tiedostoa jossa 174 lisäystä ja 0 poistoa
  1. 157 0
      05_Page_views_eda.ipynb
  2. 17 0
      solutions/page_view_eda.py

Tiedoston diff-näkymää rajattu, sillä se on liian suuri
+ 157 - 0
05_Page_views_eda.ipynb


+ 17 - 0
solutions/page_view_eda.py

@@ -0,0 +1,17 @@
+import operator
+import urllib.parse
+import pandas
+
+
+page_views = pandas.read_parquet(PAGE_VIEWS_FNAME)
+page_views.index = (page_views.index
+                              .to_series()
+                              .apply(urllib.parse.urlparse)
+                              .apply(operator.attrgetter('path'))
+                              .str.split('/')
+                              .str[-1]
+                              .str.rstrip('.html'))
+
+
+docstring_errors = (pandas.read_hdf(DOCSTRING_ERRORS_FNAME)
+                          .join(page_views.groupby('Page')['Pageviews'].sum()))