本章节将告诉你采集软件运行的基本原理,以及最快上手采集一个网站的必须步骤。
原理:网络信息采集的原理类似于搜索引擎的爬虫技术,在给定采集软件一个采集的起始地址后,采集软件便放出一定数量的爬虫沿着这个地址开始不断的向其它它能发现的网址爬行过去,并把爬行中发现新的符合要求的链接记录在案,以便后续访问。当爬虫发现某个网页存在着需要提取的信息后,便按照用户设置的信息抓取规则将所要的信息在网页中定位,然后提取并保存到数据库中。当最后爬虫不再发现需要爬行的网址后,整个采集结束。
想要采集一个网站就必须针对该网站的情况建立一个采集任务。
建立一个采集任务必须的基本步骤:
1、确立一个采集的起始地址,一般来说可以是一个网站的首页、或网站某栏目的首页、某个搜索结果的首页等。
2、制定访问规则,在“采集时接受页面的网址标识”设置中告诉软件什么样的页面需要爬虫去访问;在“采集对象所在页面的网址标识”设置中告诉软件什么样的页面需要提取信息。
3、设置信息抓取规则,一般一个信息,如:“电话号码”,在所在网页的源代码中,你可以在这个“电话号码”的信息的前后找到一些固定的标识,通过这些固定的标识就可以定位“电话号码”这个信息在网页源代码中的位置。出现在“电话号码”前的标识就是前标识符,出现在“电话号码”后的标识就是后标识符,换而言之就是爬虫会将前标识符和后标识符中间的信息提取出来作为我们要提取的内容。
举例:网页源代码中有段内容如下:<td class=”p”>电话号码:12345678:</td>
,我们想将12345678提取出来,就可以设置前标识符为:<td class=”p”>电话号码:后标识符为:</td>,这样就可以将我们要的12345678提取出来了。
只要按照这三个步骤就可以建立一个基本的采集任务了,接着你就可以开始运行这个采集任务,运行片刻后便会有信息源源不断的被采集出来了。
如果你要详细查看关于任务基本设置的介绍,请浏览任务管理的相关章节。
如果你要详细查看关于任务高级设置的介绍,请浏览任务高级设置的相关章节。