首页 版本介绍 功能 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
任务管理-访问规则

本功能说明:由于网站中的网页成千上万,而信息往往只分布在其中的某些网页中,很多网站真正拥有内容的网页可能只占全部网页的5%到50%左右,所以在采集的时候如果只挑有内容的网页或者重要的网页去访问,避免访问不必要的垃圾网址,就会大大提高采集效率。任务管理第二页---访问规则所要设置的内容就是告诉采集软件那些网址需要去访问,那些不需访问。

采集时接受页面的网址标识:本标识告诉采集软件符合什么样标识的网址需要去访问,一般来说一个网站需要访问的网页有:详细信息所在的网页和信息的列表页。如果该标识不填写,软件则默认为所有的网页均需要访问。
举例:比如月帝珠宝网的“集时接受页面的网址标识”可以用/search_detail_ii.asp?和spdetail。

采集对象所在页面网址标识:本标识告诉采集软件符合什么样标识的网址里有信息,要去提取。这个标识就是指详细信息所在的网页的网址标识。可以注意到该标识同时也符合“接受页面的网址标识”,区别在于需要访问的网页不一定是有信息的网页,但是有信息的网页一定是需要访问的网页。如果该标识不填,软件则默认所有访问的网页都有信息需要提取。
举例:比如月帝珠宝网的“集对象所在页面网址标识” 可以用spdetail。
说明:因为“采集对象所在页面网址标识”肯定也是“采集时接受页面的网址标识”,所以spdetail在“采集对象所在页面网址标识”中设置了即可,不需要也在“采集时接受页面的网址标识”中设置。

采集时拒绝页面的网址标识:和“采集时接受页面的网址标识”的作用相反,符合这个标识的网址一定会被采集软件拒绝访问。


网页标识说明:1、这里所谓的网址标识是指网址Url中的某段字符串,比如http://www.yeedee.net/spdetail_ii.asp?id=4807中的spdetail可以做为一个标识来代表所有含有spdetail字符串的网址。
2、网址标识除了使用普通的字符串以外,还可以使用正则表达式来代表一类网址。比如:\d+.htm$,这个正则表达式就代表所以以“数字.htm”结尾的网址。具体正则表达式的使用和说明请参考本软件附带的正则表达式帮助文档。(为了区别正则表达式和普通字符串,正则表达式前需要加#*,例如上例中的\d+.htm$在填到采集软件的标识设置中时,就应该填写#*\d+.htm$。)

详细信息所在页举例:比如网址http://www.yeedee.net/spdetail_ii.asp?id=4807就列出了一个珠宝产品的详细介绍。
信息列表页举例:比如网址http://www.yeedee.net/splist_ii.asp?id=15就是一个钻石商品的列表页,里面列出了很多钻石类的商品,从中点进去就可以进入到商品的详细介绍页面。

下一步制定任务的信息抓取规则