浏览代码

Adding EDA tutorial

Marc Garcia 6 年之前
父节点
当前提交
eb104453c2
共有 2 个文件被更改,包括 174 次插入0 次删除
  1. 157 0
      05_Page_views_eda.ipynb
  2. 17 0
      solutions/page_view_eda.py

文件差异内容过多而无法显示
+ 157 - 0
05_Page_views_eda.ipynb


+ 17 - 0
solutions/page_view_eda.py

@@ -0,0 +1,17 @@
+import operator
+import urllib.parse
+import pandas
+
+
+page_views = pandas.read_parquet(PAGE_VIEWS_FNAME)
+page_views.index = (page_views.index
+                              .to_series()
+                              .apply(urllib.parse.urlparse)
+                              .apply(operator.attrgetter('path'))
+                              .str.split('/')
+                              .str[-1]
+                              .str.rstrip('.html'))
+
+
+docstring_errors = (pandas.read_hdf(DOCSTRING_ERRORS_FNAME)
+                          .join(page_views.groupby('Page')['Pageviews'].sum()))