2008-03-08

发布自已写的一个简单的爬虫项目xspider2

关键字: python, mysql
这个项目主要是分析一个页面的深度链接值,然后进行相应的抓取.目前已经完成了单页面抓取操作方法的封装
(import graspContent.py)
以及MySQL数据库连接
(import link_db.py)
.

Python操作MySQL的库是MySQLdb:
MySQLdb is the Python DB API-2.0 interface. _mysql is a low-level API similiar to the MySQL C API. ZMySQLDA is a Database Adapter for Zope2.

这里可以找到更多信息和下载.

高效的协议分析可以参考curl,PyCurl是其一个python封装.

项目放置在上,采用MIT协议分发.如果有兴趣加入,可以发邮件至myctrls@gmail.com和我联系.
项目地址http://code.ibd.ac.cn
SVN checkout:https://xspider2.googlecode.com/svn/trunk/

最后感谢很多在我学习和实践python道路上帮忙的很多朋友们.
附图是xspider2的结构图.
  • Eb02639d-0772-3f3e-b03c-1d43eeb5a516-thumb
  • 描述: 红色的部分是四个基础方法
  • 大小: 4.6 KB
评论
发表评论

提醒: 该博客已发表在公共论坛,博客所有留言会成为论坛回贴,留言请注意遵守论坛发贴规则

您还没有登录,请登录后发表评论

Jarymin
搜索本博客
存档
最新评论