功能说明:对网络信息采集专家软件的一些控制选项进行设置。
失败重试次数:在采集访问某个网页时,很有可能因为网络或其它方面的原因,造成访问失败,这个选项就告诉软件,如果访问某个网页失败后再重试多少次,超过重试次数仍然不能成功访问的话,就丢弃该网页。
最多执行任务数:采集软件最多同时执行几个任务,该选项类似于下载软件中的最多下载数。
连接超时:因为网速慢的原因,可能在访问某个网页时会长时间连接不上,该选项告诉软件,如果超过好多毫秒连接不上该网页,则视为失败。
读取超时:因为网速慢的原因,可能在访问某个网页时会长时间读取不完,该选项告诉软件,如果超过好多毫秒读取不完该网页,则视为失败。
多信息分隔符:在信息抓取规则中使用信息类型时,可能某个信息类型在一段网页代码里会提取到多个符合信息类型定义的信息,在提取到的多个信息中使用什么字符来进行分隔。
举例:如使用信息类型中Network大类中的Email小类在一段网页代码里提取到多个Email地址,多个Email地址中间就用“多信息分隔符”分隔开。
自动清空信息列表间隔:在采集结果中,采集的结果、已访问的网页信息等会不断出现在软件界面的相应列表中,时间久了会,会在软件界面上积累大量的显示信息,导致系统运行缓慢,通过启用该选项可以控制当这些信息累计到多少条后,软件就自动清空列表。
爬虫名称:该名称是采集软件访问目标网站时,在对方的网站日志中留下的“大名”,提供的名称中包括有采集专家自己的爬虫名称,也有常见到的一些搜索引擎或网络浏览器的爬虫名称。
举例:比如你可以采用百度搜索引擎爬虫的名称,这样采集对方网站时,留下的记录会让网站管理员误认为是百度的爬虫来爬过,并不会认为是有人用采集软件来自己的网站进行采集。
缺省网页编码:在采集某网页时,如果该网页没有明确的告诉你该网页所使用的编码,则软件就用“缺省网页编码”来辨别内容。
自动生成数据库唯一标识:在保存信息时,是否在数据库表中启用一个id标识来唯一标识保存的这条记录。
id名称:如果启用“自动生成数据库唯一标识”选项,则在这里输入该标识的字段名称。
在执行计划任务时,是否中断当前正在执行的任务重新开始:当到达某一指定时间,计划任务开始运行时,如果该任务正在执行,则中断正在执行的该任务,然后重新开始采集。
关联任务文件(*.wtp):让采集软件和任务包文件*.wtp进行关联,关联后,双击任务包文件即可直接启动采集软件并将该任务包导入采集软件中。
拷贝任务基本信息到结果数据库中:在采集开始时,是否将一些任务设置的基本信息(如:名称、采集起始地址等内容)导入结果数据中。导入后的数据将存放在结果数据库的TaskInfo表中。
任务完成时关闭电脑:如果采集任务顺利完成,则自动关闭电脑。
发送错误报告:发生错误时,是否将错误报告发送到采集专家的官方服务器中,以待我们的工程师对错误进行详尽分析后,改善采集软件的质量。
将信息中的可下载地址转换成绝对路径:在采集的内容中,有些图片、音乐文件等的链接,但这些链接可能是个相对链接,如:<a href=”Temp.mp3”>Mp3</a>,采集下来如果还是这样的相对链接的话,在其它环境下点击不会访问到正确的文件,如果启动该选项,把这个相对链接转换为绝对链接的话,如:http://www.xxx.com/Temp.mp3,则就可以正常访问。