1、如果在采集信息的时,同时能把信息所在的网址也保存下来?
答:新建一个信息项,前后标保持为空,在信息类型的大类里选择Variable,小类里选择Visiting Url。如下图:

2、我采集过来的内容中包含了很多Htm代码,我只想要正文内容,请问怎样才能去除掉这些垃圾的Htm代码呢?
答:信息抓取规则中每个信息项都有个“是否删除Htm”选项,选中该选项,采集软件就会自动过滤掉Htm代码,或者有条件性的过滤Htm代码。如下图:

具体的Htm过滤条件,你可以通过任务高级设置中的“删除Htm设置”来控制。
3、请问采集软件怎样采集那些需要用户登录才能看到的网站内容。
答:采集任务的高级设置中有个“网站登录”选项,进入这个选项后将出现一个仿IE的窗口,在这种窗口先输入网站登录入口的地址,然后输入用户名和密码进行模拟登录,登录成后仿IE窗口的下方将会出现登录后的Cookie,然后直接关闭仿IE窗口就可将这个Cookie保存下来,你在采集的时候就已经是已登录状态,就可以采集那些需要登录才能看到的内容。
备注:但是你要是没有该网站的用户帐号,就没有办法让你可以采集到这些需授权才能访问的内容。
4、有的情况同一个信息在同一网站上的不同页面中,前后标会不一致,请问出现这种情况怎么采集?
举例如下:某一件商品的库存有15件的话,商品名称后面会跟着该数量,在页面上显示:
某某商品(15件),代码里是<font class="h6">某某商品(15件)</font>,而有些商品的库存是"若干",商品名称后面就没有跟数量,某某商品代码是<font class="h6">某某商品</font>,我只想取商品的名称,不希望后面跟着数量。
答:解决方法是这样,设置两个同名的信息规则,比如都叫“商品名称”,然后第一个规则的前标是<font class="h6">,后标是(,第二个规则的前标是<font class="h6">,后标是</font>,这样在提取商品名称的时候会先根据第一规则来提取,如果第一个规则的后标(没有找到的话,就会启用第二个同名的规则,这样的话,就可以解决你的问题。
5、要采集的某网页列表有30页,我仅仅需要前10页,怎么设置?
答:如果你只需要10页,可以在起始地址的那里通过批量输入地址范围来让软件只采集10页。
6、我有个任务是用来采集一个需要登录才能看到内容的网站的,为什么刚开始几次的时候能正常采集到内容,后面就采集不到了呢?
答:有很多网站登录是有时效的,所以你的这个情况很有可能是登录已经过期了,你知需要用采集软件的网站登录功能再重新登录一次就可以了。
7、我采集了很多信息,有些信息里的email信息项采集到了内容,有些没有,我想只保留有email信息的记录,没有的就过滤掉不保存,请问怎么实现?
答:你可以使用任务高级设置菜单中的“条件保存”设置,在“源信息”处选择Email,在“操作符”处选择<>,就代表只有Email信息项不等于空的信息才会保存。
8、我有Pic信息项是用来提取网页上的图片地址的,但是提取出来是类似于“Images/abc.jpg”这样的相对地址,有没有办法提取到该图片的绝对地址呢?
答:你可以在Pic信息项的设置上使用信息类型里Process类型中的Url,这个信息类型可以将一个相对地址根据情况转换为类似http://www.xxx.com/Images/abc.jpg这样的绝对地址。