首页 首页 产品 版本介绍 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
任务管理-任务

本功能说明:定义任务的基本设置。

任务名称:任务的唯一标识,可以随便输入任意名称,但最好与任务的内容相匹配。

任务分类:可以在下拉列表中选择已有的任务分类,或者任意填写分类名称。保存后可以在采集软件主界面左边的任务类别里找到这个任务。

线程数:和下载软件的线程数是同样的概念,线程多则采集速度快,不过也不是越多越好,多了后会加载采集目标服务器和采集电脑的负担。一般建议线程设置为3-6个最佳。

任务描述:任务的备注功能,你可以用来描述这个任务的目的和需要注意的事项,该设置不影响采集的最后结果,仅仅起一个记事功能。

采集起始地址:采集起始地址是一个网址,采集软件从这个网址起开始采集,并将采集网页中存在的链接提取出来继续访问,如果网页中存在需要提取的信息则提取之。所以一个好的采集起始地址对采集来说是一个好的开始。一般常用网站的首页地址,或栏目的首页地址,或分类信息的首页再或者某个信息搜索的地址来作为起始地址。将起始地址输入“采集起始地址”文本框后,可以按回车键或者点击下方的“添加地址”按钮将这个采集地址加入到起始地址列表,起始地址列表中可以有多个起始地址。

添加地址:将采集起始地址加入起始地址列表。

替换地址:将采集起始地址替换起始地址列表中选中的那个起始地址。

移出地址:将起始地址列表中选中的那个地址移出列表。

批量添加:可以根据某个规则批量添加大量的相似地址到起始地址列表中。
举例:月帝珠宝网的商品介绍的地址是这样的,http://www.yeedee.net/spdetail_ii.asp?id=1,http://www.yeedee.net/spdetail_ii.asp?id=2……http://www.yeedee.net/spdetail_ii.asp?id=9999,可以看到这样的网址是由规律的,也就是网址后端的id参数是数字递增的,我们就可以用这个规律通过一次操作来添加大量的同类地址。
备注:1、关于批量添加的具体操作请参考“批量添加起始地址”。
2、添加了大量的批量 地址时,在起始地址列表中仍然只会出现一条起始地址,这个现象是正常的,这一个地址已经能代表大量的批量地址。

导入地址:如果在某个文本文件中存放了若干网址,则可以用这个功能将这些网址导入到起始地址列表中。

本地文件:可以提取本地网页文件中出现的网址。
备注:“导入地址”和“本地文件”按钮的功能差别在:“导入地址”使用的文本文件中必须只有网址,并且这些网址以换行间隔;而“本地文件”使用的则是某个网页文件,里面的内容都是htm代码,也就是说是从htm代码中提取网址。

下一步制定任务的访问规则

贵阳论坛  天天住宿网  贵阳爱城网  测试  Firefox's中文之家