先把地址贴一下 https://gitee.com/kuaizhaoren/swallow, 给自己挖了个坑可能填不上了。现在的感觉是只有需求驱动才有动力搞下去。有共同学习兴趣的可以看下。

先说下如何运行

需要安装那些必须组件

  • mysql, 用来保存爬取的内容数据。

    • 安装好mysql之后,新建一个数据库swallow,导入数据表。
    • 数据库模式定义在swallow/project_files/swallow.sql
    • 数据库配置swallow/pipelines.py
  • redis,用于数据去重

    • Redis配置swallow/pipelines.py
  • python & scrapy

运行:

scrapy crawl [学校域名]
exp. scrapy crawl sdu

说明:

  • 实现了部分学校学术活动抓取
  • 未详细处理内部的内容,有需要可以自行清晰过滤相关数据
  • 图片存储storage/images目录,按学校名归类
  • 去重以标题为基准
  • 全量爬取

后面的计划如何

想针对某一范围内高校做针对性的优化,通过数据清洗、整理、挖掘提供有价值数据。

Fork

Fork me on Gitee

联系方式

http://www.evenvi.com/index.php/start-page.html

Tags: none

Related Posts:
  • [尚无相关文章]

Leave a Comment