本功能说明:定义任务的基本设置。
任务名称:任务的唯一标识,可以随便输入任意名称,但最好与任务的内容相匹配。
任务分类:可以在下拉列表中选择已有的任务分类,或者任意填写分类名称。保存后可以在采集软件主界面左边的任务类别里找到这个任务。
线程数:和下载软件的线程数是同样的概念,线程多则采集速度快,不过也不是越多越好,多了后会加载采集目标服务器和采集电脑的负担。一般建议线程设置为3-6个最佳。
任务描述:任务的备注功能,你可以用来描述这个任务的目的和需要注意的事项,该设置不影响采集的最后结果,仅仅起一个记事功能。
采集起始地址:采集起始地址是一个网址,采集软件从这个网址起开始采集,并将采集网页中存在的链接提取出来继续访问,如果网页中存在需要提取的信息则提取之。所以一个好的采集起始地址对采集来说是一个好的开始。一般常用网站的首页地址,或栏目的首页地址,或分类信息的首页再或者某个信息搜索的地址来作为起始地址。将起始地址输入“采集起始地址”文本框后,可以按回车键或者点击下方的“添加地址”按钮将这个采集地址加入到起始地址列表,起始地址列表中可以有多个起始地址。
添加地址:将采集起始地址加入起始地址列表。
替换地址:将采集起始地址替换起始地址列表中选中的那个起始地址。
移出地址:将起始地址列表中选中的那个地址移出列表。
批量添加:可以根据某个规则批量添加大量的相似地址到起始地址列表中。
举例:月帝珠宝网的商品介绍的地址是这样的,http://www.yeedee.net/spdetail_ii.asp?id=1,http://www.yeedee.net/spdetail_ii.asp?id=2……http://www.yeedee.net/spdetail_ii.asp?id=9999,可以看到这样的网址是由规律的,也就是网址后端的id参数是数字递增的,我们就可以用这个规律通过一次操作来添加大量的同类地址。
备注:1、关于批量添加的具体操作请参考“批量添加起始地址”。
2、添加了大量的批量 地址时,在起始地址列表中仍然只会出现一条起始地址,这个现象是正常的,这一个地址已经能代表大量的批量地址。
导入地址:如果在某个文本文件中存放了若干网址,则可以用这个功能将这些网址导入到起始地址列表中。
本地文件:可以提取本地网页文件中出现的网址。
备注:“导入地址”和“本地文件”按钮的功能差别在:“导入地址”使用的文本文件中必须只有网址,并且这些网址以换行间隔;而“本地文件”使用的则是某个网页文件,里面的内容都是htm代码,也就是说是从htm代码中提取网址。
下一步制定任务的访问规则。