以话题关键词采集推特

使用自动化测试工具 Selenium 实现自动访问推文检索页面并滚动到页面最底,等待网页动态加载完成之后保存成 .html 文件,来收集对应月份对应 hashtag 的推文。

存储格式是新建 crawl 文件夹,其中包含以每个 hashtag 命名的子文件夹,子文件夹中存放推文的 html 数据,命名为 201601、201602 等,六位字符串。如下。

└─crawl
├─#hashtag1
│ 201601
│ 201602
│ 201603

└─#hashtag2
201601
201602
201603

Selenium 的运行需要浏览器驱动的支持,在这里使用了 Chrome 驱动来加载,并且设置禁止所有 Flash、声音、图片等内容,加快进度。

需要抓取的 hashtag 放在一个文件中,程序每次读取一个 hashtag,然后遍历需要收集的月份,每次新的请求 URL 都通过字符串拼接的方式完成。一个请求的 URL 格式如下:

https://twitter.com/search?l=en&q=%23brexit%20since%3A2016-01-01%20until%3A2016-01-31&src=typd

每次只需更改 q= 关键字,since 和 until 起止时间。