只显示主题贴
Xspider2的前期已经完成,目前的版本是0.1.1b可以实现 Single page的抓取; 页面深度的返回与存储 现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释 TPDA: The Page/Point Depth Algorithm. 争取实现:页面深度和路径无分词文本空间高频词语提取路径最优算法核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
- 进入论坛 综合技术 版
哇哈哈,访问量过1100了!今天去买了一套Microsoft Wired Desktop 500,感觉好不错 很有手感.
- 进入论坛 海阔天空 版
使用方法:
进入程序目录,输入123.exe 按照提示 输入需要的章节url,程序即会自动下载该章节的text文本存储到程序目录下,以章节id为名.
由于源代码很简单,就不献丑了,欢迎各位和我多多赐教,我也会完善后续版本.
经兜兜提醒发现,原来起点改版了,新的网站采用.net架构,目前程序只能分析cmfu.com即asp的老版本架构起点页面,这个问题我会在下一个版本解决
- 进入论坛 综合技术 版
线程(thread, 台湾称 执行绪)是"进程"中某个单一顺序的控制流。也被称为轻量进程(lightweight processes)。计算机科学术语,指运行中的程序的调度单位。
线程是进程中的实体,一个进程可以拥有多个线程,一个线程必须有一个父进程。线程不拥有系统资源,只有运行必须的一些数据结构;它与父进程的其它线程共享该进程所拥有的全部资源。线程可以创建和撤消线程,从而实现程序的并发执行。一般,线程具有就绪、阻塞和运行三种基本状态。
在多中央处理器的系统里,不同线程可以同时在不同的中央处理器上运行,甚至当它们属于同一个进程时也是如此。大多数支持多处理器的操作 ...
- 进入论坛 综合技术 版
近日,把玩Google Pisaca API的时候发现返回一个这样的时间格式:
2008-02-13T14:15:44.000Z ,问人未果.
窃以为T,z应该是和时区有关,经过google果然这个就是传说中的UTC 通用标准时以z来标识
其它的时区显示的时间与通用协调时间不同,因此例如你能使用太平洋标准时间2007-12-25T06:00:00:000-8:00来显示2007年12月25日的早上6:00(它比UTC时间滞后8小时)。
这个没法使用,得转换下.
public class TimeZoneTest
{
public static void main (S ...
- 进入论坛 Java 版
wainwen 写道wwg775 写道感谢楼上的
fdisk /mbr 解决了
菜鸟初学LINUX
太郁闷了
太能折磨人
我又回到WINDOWS上了
搞IT,没折腾过Linux都不好意思和人打招呼,坚持2个月,就会觉得Linux很有意思
装好Windows,再装Linux,并将grub装到mbr上,刚开始不要在windows中去动linux分区,就没任何问题
cool!
- 进入论坛 综合技术 版
经过30个小时的coding,终于解决了编码问题.现在把过程和体会记录下来:P</br>
MySQL 数据库方面:</br>
数据库的创建支持UTF8:
CREATE DATABASE db_name DEFAULT CHARACTER SET utf8 COLLATE utf8_bin;
很多时候,默认的会选择COLLATE utf8_general_ci,这个对中文支持不好.我就是错在这里了。
Python 编码方面:
1指定文件编码是必须的:#-*-coding:utf-8-*-</br>
2某些环境下可以使用这个:</br>
reload(sys);sys.s ...
- 进入论坛 综合技术 版
- 浏览: 4291 次
- 性别:

- 来自: Mars

- 详细资料
搜索本博客
最近加入圈子
链接
最新评论
-
吼吼 偶也双屏了~~
双宽转脖子太累了,我是20宽+17普。 推个软件untramon,可以在副屏加t ...
-- by heimu -
吼吼 偶也双屏了~~
我现在也双屏,21寸ViewSonic。。。有时候白白的两个屏幕眼会花。。。
-- by lordhong -
吼吼 偶也双屏了~~
问一下,眼睛会不会花?
-- by ray_linn -
吼吼 偶也双屏了~~
原来是人品阿...哈哈哈很难见到噢
-- by chengren -
吼吼 偶也双屏了~~
我的也是Dell,不过是19'单屏显示
-- by arust






评论排行榜