Xspider2的前期已经完成,目前的版本是0.1.1b可以实现 Single page的抓取; 页面深度的返回与存储 现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释 TPDA: The Page/Point Depth Algorithm. 争取实现:页面深度和路径无分词文本空间高频词语提取路径最优算法核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
2008-03-15

起点小说下载工具 代码汇

关键字: open source
起点现在的双域名分别是不同的页面架构技术: cmfu是原来老的ASP,对于公开章节,起点采用的是js调用一个txt,相对原来直接页面显示,确实是一个明智的选择(对抓取的来说也方便:p). qidian采用的是新的.Net技术,这个里面就需要采用正则去匹配了. 结合上一篇文章我的小程序,这里将社区内相关的代码全部show一下. 首先是我的: #!/usr/bin/python #filename:simpleCMFU import re import urllib def alaynsis_id(url_given): name=url_given[-11:-1]+u ...
使用方法: 进入程序目录,输入123.exe 按照提示 输入需要的章节url,程序即会自动下载该章节的text文本存储到程序目录下,以章节id为名. 由于源代码很简单,就不献丑了,欢迎各位和我多多赐教,我也会完善后续版本. 经兜兜提醒发现,原来起点改版了,新的网站采用.net架构,目前程序只能分析cmfu.com即asp的老版本架构起点页面,这个问题我会在下一个版本解决
2008-03-11

Python数据库连接池DBUtils

关键字: 数据库连接池
DBUtils 是一套允许线程化 Python 程序可以安全和有效的访问数据库的模块。DBUtils已经作为 Webware for Python 一部分用来结合 PyGreSQL 访问 PostgreSQL 数据库,当然他也可以用在其他Python应用程序中来访问 DB-API 2 兼容的数据库接口。 模块 DBUtils实际上是一个包含两个子模块的Python包,一个用于连接DB-API 2模块,另一个用于连接典型的PyGreSQL模块。 全局的DB-API 2变量 SteadyDB.py 用于稳定数据库连接 PooledDB.py 连接池 PersistentDB.py 维持持 ...
2008-03-10

Python环境编码与MySQL中文编码操作

关键字: mysql, python, utf-8
经过30个小时的coding,终于解决了编码问题.现在把过程和体会记录下来:P</br> MySQL 数据库方面:</br> 数据库的创建支持UTF8: CREATE DATABASE db_name DEFAULT CHARACTER SET utf8 COLLATE utf8_bin; 很多时候,默认的会选择COLLATE utf8_general_ci,这个对中文支持不好.我就是错在这里了。 Python 编码方面: 1指定文件编码是必须的:#-*-coding:utf-8-*-</br> 2某些环境下可以使用这个:</br> reload(sys);sys.s ...
2008-03-10

代码第十次错误

关键字: 。。。。。
娘你的,代码又错了. fk,mysqldb fk,utf8 fk,mysql to be continued!
今天接到一个任务,实现一个Spider,来方便团队的资讯和内容编辑人员,提高团队的开发效率.说实话,这个东西经常看见别人提起,但是实际动手发现一个问题是,简单的功能好做但是普遍的适应性就很差:比如可以在Sina体育版的新闻实现我的需求可是在时政版就不行-_-! 还有一些专题带了Video的,这个就得做一大堆的条件预判断,OMG,网易和Sohu偶还没有考虑呢! 不过我也发现Google的爬虫也是Python的,呵呵,貌似做的好的爬虫至少需要考虑 1.频繁的小文件读取 2.网站的普遍适应性(采集的命中率) 3.高可靠性 暂时就这么多了,经过昨天12小时的coding大概除了一个单页面的alpha版 ...
Jarymin
搜索本博客
存档
最新评论