larbin 安装配置注意事项

Larbin是国外的一个开源的高效的搜索引擎爬虫工具(crawler)

larbin官方地址: http://larbin.sourceforge.net/

在fedora或者centos编译安装时,总是出现错误。网上说是要把adns文件夹下internal.h文件568-571注释掉,其实把:adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
vbuf *vb, parsedomain_flags flags,
const byte *dgram, int dglen, int *cbyte_io, int max);

更正为:adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
vbuf *vb, adns_queryflags flags,
const byte *dgram, int dglen, int *cbyte_io, int max);就不会出错了。

安装过程:./configure
make
./larbin
不过在运行larbin之前需要更改一下配置。

主要该两个文件:larbin.conf和options.h
一般在larbin.conf文件里改:
StartUrl :http://www.hfut.edu.cn //爬虫开始爬的起始网址
limitToDomain: .edu .com .cn .net .com.cn //限制爬虫抓取的网址域名后缀。

在options.h里修改:(我的配置是:)//#define DEFAULT_OUTPUT // do nothing…
#define SIMPLE_SAVE // save in files named save/dxxxxxx/fyyyyyy 简单输出一个目录两千个文件,包含索引。//这个很重要,默认是do nothing ,不会有任何结果输出的。

//#define MIRROR_SAVE // save in files (respect sites hierarchy)镜像方式保存
#define STATS_OUTPUT // do some stats on pages输出统计
#define FOLLOW_LINKS // do you want to follow links in pages
#define LINKS_INFO //是不是得到该页面的子连接
#define NO_DUP  //不允许重复
#define EXIT_AT_END //完成时退出
#define COOKIES
#define CGILEVEL 0 处理服务器端程序,也就是但url中包含? & = 之类的querString时也处理。
#define DEPTHBYSITE
#define THREAD_OUTPUT
#define RELOAD
#define GRAPH
#define STATS
#define BIGSTATS
编辑完成后,需要注意的是如果只修改larbin.conf文件,不需要重新编译,如果修改了options.h文件,需要运行 gmake 重新进行编译。

另外,types.h中有些项也可以自行设置,如 maxUrlsBySite ,maxPageSize

Tags:

Leave a Comment