以话题关键词采集推特

使用自动化测试工具 Selenium 实现自动访问推文检索页面并滚动到页面最底，等待网页动态加载完成之后保存成 .html 文件，来收集对应月份对应 hashtag 的推文。

存储格式是新建 crawl 文件夹，其中包含以每个 hashtag 命名的子文件夹，子文件夹中存放推文的 html 数据，命名为 201601、201602 等，六位字符串。如下。

└─crawl
├─#hashtag1
│ 201601
│ 201602
│ 201603
│
└─#hashtag2
201601
201602
201603

Selenium 的运行需要浏览器驱动的支持，在这里使用了 Chrome 驱动来加载，并且设置禁止所有 Flash、声音、图片等内容，加快进度。

需要抓取的 hashtag 放在一个文件中，程序每次读取一个 hashtag，然后遍历需要收集的月份，每次新的请求 URL 都通过字符串拼接的方式完成。一个请求的 URL 格式如下：

每次只需更改 q= 关键字，since 和 until 起止时间。