采集脱欧相关的新闻文章

BrexitNews 收集

利用 scrapy 框架爬取英国和其他国家主要媒体 DailyMailDailyStarEconomistExpressFTiNewsMirrorThe GuardianThe Sun 等,在 2016 年 6 月 16 日—2016 年 6 月 24 日期间(公投前一周)的有关脱欧话题的新闻稿。

所记录的域包含新闻标题、发表日期、正文内容、发表媒体等。

得到总共 2000 多篇新闻稿。(最终结果中仅使用300余篇)

标记新闻

选取一些新闻语料进行人工标记判断,是留欧还是脱欧派的新闻。有一些倾向性模糊的语料废弃,不加入训练。一些文章可按段落拆解,一部分段落是留欧倾向,一部分则相反。

新闻分类

可使用 FastText 或按照 hashtag 中所述的 SVM 的方法对新闻进行二分类。

然后对每家媒体的每一篇新闻稿做出预测,可以估计出一家媒体的观点倾向。从结果来看,留欧倾向比较明显的媒体是 theguardian,脱欧倾向比较明显的是 dailymail,其余介于两者之间。

关键词提取

同 hashtag 中倾向性的刻画。不同的是 hashtag 中需要做分析的特征是我们指定的若干 hashtag,而在此处需要分析的特征是出现在这些新闻中的所有单词。