首页 版本介绍 功能 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
快速上手

本章节将告诉你采集软件运行的基本原理,以及最快上手采集一个网站的必须步骤。

原理:网络信息采集的原理类似于搜索引擎的爬虫技术,在给定采集软件一个采集的起始地址后,采集软件便放出一定数量的爬虫沿着这个地址开始不断的向其它它能发现的网址爬行过去,并把爬行中发现新的符合要求的链接记录在案,以便后续访问。当爬虫发现某个网页存在着需要提取的信息后,便按照用户设置的信息抓取规则将所要的信息在网页中定位,然后提取并保存到数据库中。当最后爬虫不再发现需要爬行的网址后,整个采集结束。

想要采集一个网站就必须针对该网站的情况建立一个采集任务。
建立一个采集任务必须的基本步骤:
1、确立一个采集的起始地址,一般来说可以是一个网站的首页、或网站某栏目的首页、某个搜索结果的首页等。

2、制定访问规则,在“采集时接受页面的网址标识”设置中告诉软件什么样的页面需要爬虫去访问;在“采集对象所在页面的网址标识”设置中告诉软件什么样的页面需要提取信息。

3、设置信息抓取规则,一般一个信息,如:“电话号码”,在所在网页的源代码中,你可以在这个“电话号码”的信息的前后找到一些固定的标识,通过这些固定的标识就可以定位“电话号码”这个信息在网页源代码中的位置。出现在“电话号码”前的标识就是前标识符,出现在“电话号码”后的标识就是后标识符,换而言之就是爬虫会将前标识符和后标识符中间的信息提取出来作为我们要提取的内容。
举例:网页源代码中有段内容如下:<td class=”p”>电话号码:12345678:</td> ,我们想将12345678提取出来,就可以设置前标识符为:<td class=”p”>电话号码:后标识符为:</td>,这样就可以将我们要的12345678提取出来了。

只要按照这三个步骤就可以建立一个基本的采集任务了,接着你就可以开始运行这个采集任务,运行片刻后便会有信息源源不断的被采集出来了。

如果你要详细查看关于任务基本设置的介绍,请浏览任务管理的相关章节。
如果你要详细查看关于任务高级设置的介绍,请浏览任务高级设置的相关章节。