本功能说明:由于网站中的网页成千上万,而信息往往只分布在其中的某些网页中,很多网站真正拥有内容的网页可能只占全部网页的5%到50%左右,所以在采集的时候如果只挑有内容的网页或者重要的网页去访问,避免访问不必要的垃圾网址,就会大大提高采集效率。任务管理第二页---访问规则所要设置的内容就是告诉采集软件那些网址需要去访问,那些不需访问。
采集时接受页面的网址标识:本标识告诉采集软件符合什么样标识的网址需要去访问,一般来说一个网站需要访问的网页有:详细信息所在的网页和信息的列表页。如果该标识不填写,软件则默认为所有的网页均需要访问。
举例:比如月帝珠宝网的“集时接受页面的网址标识”可以用/search_detail_ii.asp?和spdetail。
采集对象所在页面网址标识:本标识告诉采集软件符合什么样标识的网址里有信息,要去提取。这个标识就是指详细信息所在的网页的网址标识。可以注意到该标识同时也符合“接受页面的网址标识”,区别在于需要访问的网页不一定是有信息的网页,但是有信息的网页一定是需要访问的网页。如果该标识不填,软件则默认所有访问的网页都有信息需要提取。
举例:比如月帝珠宝网的“集对象所在页面网址标识” 可以用spdetail。
说明:因为“采集对象所在页面网址标识”肯定也是“采集时接受页面的网址标识”,所以spdetail在“采集对象所在页面网址标识”中设置了即可,不需要也在“采集时接受页面的网址标识”中设置。
采集时拒绝页面的网址标识:和“采集时接受页面的网址标识”的作用相反,符合这个标识的网址一定会被采集软件拒绝访问。
网页标识说明:1、这里所谓的网址标识是指网址Url中的某段字符串,比如http://www.yeedee.net/spdetail_ii.asp?id=4807中的spdetail可以做为一个标识来代表所有含有spdetail字符串的网址。
2、网址标识除了使用普通的字符串以外,还可以使用正则表达式来代表一类网址。比如:\d+.htm$,这个正则表达式就代表所以以“数字.htm”结尾的网址。具体正则表达式的使用和说明请参考本软件附带的正则表达式帮助文档。(为了区别正则表达式和普通字符串,正则表达式前需要加#*,例如上例中的\d+.htm$在填到采集软件的标识设置中时,就应该填写#*\d+.htm$。)
详细信息所在页举例:比如网址http://www.yeedee.net/spdetail_ii.asp?id=4807就列出了一个珠宝产品的详细介绍。
信息列表页举例:比如网址http://www.yeedee.net/splist_ii.asp?id=15就是一个钻石商品的列表页,里面列出了很多钻石类的商品,从中点进去就可以进入到商品的详细介绍页面。
下一步制定任务的信息抓取规则。