Xspider2的前期已经完成,目前的版本是0.1.1b可以实现 Single page的抓取; 页面深度的返回与存储 现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释 TPDA: The Page/Point Depth Algorithm. 争取实现:页面深度和路径无分词文本空间高频词语提取路径最优算法核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
这一周是忙碌的,高压的.终于在昨天下班前完成了leader交给我的练手项目,公司是用Zend框架开发的,但是之前leader考虑到我对php不是很熟悉,就让我先去做一个爬虫的项目(Python),这个project完成之后,几乎没有时间再来学习php了,好在我的好友Bluker及时加盟公司,在他的帮助下,我渐渐的对Zend/php有了点感觉.项目很简单,实现一个投票的前台功能,后台已经开发好了,基本的lib也做好了.我与要做的就是完成一个front的voteController,和voteView以及扩展Common_Vote。 基本上,通过这个项目使我对MVC加深了认识,也使我对OO有了新的 ...
哇哈哈,访问量过1100了!今天去买了一套Microsoft Wired Desktop 500,感觉好不错 很有手感.
起点现在的双域名分别是不同的页面架构技术:
cmfu是原来老的ASP,对于公开章节,起点采用的是js调用一个txt,相对原来直接页面显示,确实是一个明智的选择(对抓取的来说也方便:p).
qidian采用的是新的.Net技术,这个里面就需要采用正则去匹配了.
结合上一篇文章我的小程序,这里将社区内相关的代码全部show一下.
首先是我的:
#!/usr/bin/python
#filename:simpleCMFU
import re
import urllib
def alaynsis_id(url_given):
name=url_given[-11:-1]+u ...
使用方法:
进入程序目录,输入123.exe 按照提示 输入需要的章节url,程序即会自动下载该章节的text文本存储到程序目录下,以章节id为名.
由于源代码很简单,就不献丑了,欢迎各位和我多多赐教,我也会完善后续版本.
经兜兜提醒发现,原来起点改版了,新的网站采用.net架构,目前程序只能分析cmfu.com即asp的老版本架构起点页面,这个问题我会在下一个版本解决
DBUtils 是一套允许线程化 Python 程序可以安全和有效的访问数据库的模块。DBUtils已经作为 Webware for Python 一部分用来结合 PyGreSQL 访问 PostgreSQL 数据库,当然他也可以用在其他Python应用程序中来访问 DB-API 2 兼容的数据库接口。
模块
DBUtils实际上是一个包含两个子模块的Python包,一个用于连接DB-API 2模块,另一个用于连接典型的PyGreSQL模块。
全局的DB-API 2变量
SteadyDB.py 用于稳定数据库连接
PooledDB.py 连接池
PersistentDB.py 维持持 ...
线程(thread, 台湾称 执行绪)是"进程"中某个单一顺序的控制流。也被称为轻量进程(lightweight processes)。计算机科学术语,指运行中的程序的调度单位。
线程是进程中的实体,一个进程可以拥有多个线程,一个线程必须有一个父进程。线程不拥有系统资源,只有运行必须的一些数据结构;它与父进程的其它线程共享该进程所拥有的全部资源。线程可以创建和撤消线程,从而实现程序的并发执行。一般,线程具有就绪、阻塞和运行三种基本状态。
在多中央处理器的系统里,不同线程可以同时在不同的中央处理器上运行,甚至当它们属于同一个进程时也是如此。大多数支持多处理器的操作 ...
近日,把玩Google Pisaca API的时候发现返回一个这样的时间格式:
2008-02-13T14:15:44.000Z ,问人未果.
窃以为T,z应该是和时区有关,经过google果然这个就是传说中的UTC 通用标准时以z来标识
其它的时区显示的时间与通用协调时间不同,因此例如你能使用太平洋标准时间2007-12-25T06:00:00:000-8:00来显示2007年12月25日的早上6:00(它比UTC时间滞后8小时)。
这个没法使用,得转换下.
public class TimeZoneTest
{
public static void main (S ...
经过30个小时的coding,终于解决了编码问题.现在把过程和体会记录下来:P</br>
MySQL 数据库方面:</br>
数据库的创建支持UTF8:
CREATE DATABASE db_name DEFAULT CHARACTER SET utf8 COLLATE utf8_bin;
很多时候,默认的会选择COLLATE utf8_general_ci,这个对中文支持不好.我就是错在这里了。
Python 编码方面:
1指定文件编码是必须的:#-*-coding:utf-8-*-</br>
2某些环境下可以使用这个:</br>
reload(sys);sys.s ...
娘你的,代码又错了.
fk,mysqldb
fk,utf8
fk,mysql
to be continued!
- 浏览: 2935 次
- 性别:

- 来自: Mars

- 详细资料
搜索本博客
我的相册
我的MSN
共 1 张
共 1 张
最近加入圈子
链接
最新评论
-
吼吼 偶也双屏了~~
双宽转脖子太累了,我是20宽+17普。 推个软件untramon,可以在副屏加t ...
-- by heimu -
吼吼 偶也双屏了~~
我现在也双屏,21寸ViewSonic。。。有时候白白的两个屏幕眼会花。。。
-- by lordhong -
吼吼 偶也双屏了~~
问一下,眼睛会不会花?
-- by ray_linn -
吼吼 偶也双屏了~~
原来是人品阿...哈哈哈很难见到噢
-- by chengren -
吼吼 偶也双屏了~~
我的也是Dell,不过是19'单屏显示
-- by arust






评论排行榜