利用爬虫搜集数据

训练数据对于机器学习来说是必不可少的，因此在每个机器学习任务之前都会有一个搜集数据的过程，这个搜集过程通常来说是枯燥且费时的。不像很多公司本身就是数据的生产者，对于我们普通学习者来说，能使用的大部分数据均来自于网络。我们可以从网页上手动获取所需的数据，复制粘贴到本地，然而这是相当麻烦的。通过python我们可以模拟浏览器对网页进行抓取，并自动筛选出所需要的数据，大大提高搜集