首页 首页 产品 版本介绍 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
系统设置-控制

功能说明:对网络信息采集专家软件的一些控制选项进行设置。

失败重试次数:在采集访问某个网页时,很有可能因为网络或其它方面的原因,造成访问失败,这个选项就告诉软件,如果访问某个网页失败后再重试多少次,超过重试次数仍然不能成功访问的话,就丢弃该网页。

最多执行任务数:采集软件最多同时执行几个任务,该选项类似于下载软件中的最多下载数。

连接超时:因为网速慢的原因,可能在访问某个网页时会长时间连接不上,该选项告诉软件,如果超过好多毫秒连接不上该网页,则视为失败。

读取超时:因为网速慢的原因,可能在访问某个网页时会长时间读取不完,该选项告诉软件,如果超过好多毫秒读取不完该网页,则视为失败。

多信息分隔符:在信息抓取规则中使用信息类型时,可能某个信息类型在一段网页代码里会提取到多个符合信息类型定义的信息,在提取到的多个信息中使用什么字符来进行分隔。
举例:如使用信息类型中Network大类中的Email小类在一段网页代码里提取到多个Email地址,多个Email地址中间就用“多信息分隔符”分隔开。

自动清空信息列表间隔:在采集结果中,采集的结果、已访问的网页信息等会不断出现在软件界面的相应列表中,时间久了会,会在软件界面上积累大量的显示信息,导致系统运行缓慢,通过启用该选项可以控制当这些信息累计到多少条后,软件就自动清空列表。

爬虫名称:该名称是采集软件访问目标网站时,在对方的网站日志中留下的“大名”,提供的名称中包括有采集专家自己的爬虫名称,也有常见到的一些搜索引擎或网络浏览器的爬虫名称。
举例:比如你可以采用百度搜索引擎爬虫的名称,这样采集对方网站时,留下的记录会让网站管理员误认为是百度的爬虫来爬过,并不会认为是有人用采集软件来自己的网站进行采集。

缺省网页编码:在采集某网页时,如果该网页没有明确的告诉你该网页所使用的编码,则软件就用“缺省网页编码”来辨别内容。

自动生成数据库唯一标识:在保存信息时,是否在数据库表中启用一个id标识来唯一标识保存的这条记录。
id名称:如果启用“自动生成数据库唯一标识”选项,则在这里输入该标识的字段名称。

在执行计划任务时,是否中断当前正在执行的任务重新开始:当到达某一指定时间,计划任务开始运行时,如果该任务正在执行,则中断正在执行的该任务,然后重新开始采集。

关联任务文件(*.wtp):让采集软件和任务包文件*.wtp进行关联,关联后,双击任务包文件即可直接启动采集软件并将该任务包导入采集软件中。

拷贝任务基本信息到结果数据库中:在采集开始时,是否将一些任务设置的基本信息(如:名称、采集起始地址等内容)导入结果数据中。导入后的数据将存放在结果数据库的TaskInfo表中。

任务完成时关闭电脑:如果采集任务顺利完成,则自动关闭电脑。

发送错误报告:发生错误时,是否将错误报告发送到采集专家的官方服务器中,以待我们的工程师对错误进行详尽分析后,改善采集软件的质量。

将信息中的可下载地址转换成绝对路径:在采集的内容中,有些图片、音乐文件等的链接,但这些链接可能是个相对链接,如:<a href=”Temp.mp3”>Mp3</a>,采集下来如果还是这样的相对链接的话,在其它环境下点击不会访问到正确的文件,如果启动该选项,把这个相对链接转换为绝对链接的话,如:http://www.xxx.com/Temp.mp3,则就可以正常访问。

贵阳论坛  天天住宿网  贵阳爱城网  测试  Firefox's中文之家