首页 首页 产品 版本介绍 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
常见问题-任务规则问题

1、如果在采集信息的时,同时能把信息所在的网址也保存下来?
答:新建一个信息项,前后标保持为空,在信息类型的大类里选择Variable,小类里选择Visiting Url。如下图:

2、我采集过来的内容中包含了很多Htm代码,我只想要正文内容,请问怎样才能去除掉这些垃圾的Htm代码呢?
答:信息抓取规则中每个信息项都有个“是否删除Htm”选项,选中该选项,采集软件就会自动过滤掉Htm代码,或者有条件性的过滤Htm代码。如下图:

具体的Htm过滤条件,你可以通过任务高级设置中的“删除Htm设置”来控制。

3、请问采集软件怎样采集那些需要用户登录才能看到的网站内容。
答:采集任务的高级设置中有个“网站登录”选项,进入这个选项后将出现一个仿IE的窗口,在这种窗口先输入网站登录入口的地址,然后输入用户名和密码进行模拟登录,登录成后仿IE窗口的下方将会出现登录后的Cookie,然后直接关闭仿IE窗口就可将这个Cookie保存下来,你在采集的时候就已经是已登录状态,就可以采集那些需要登录才能看到的内容。
备注:但是你要是没有该网站的用户帐号,就没有办法让你可以采集到这些需授权才能访问的内容。

4、有的情况同一个信息在同一网站上的不同页面中,前后标会不一致,请问出现这种情况怎么采集?
举例如下:某一件商品的库存有15件的话,商品名称后面会跟着该数量,在页面上显示:
某某商品(15件),代码里是<font class="h6">某某商品(15件)</font>,而有些商品的库存是"若干",商品名称后面就没有跟数量,某某商品代码是<font class="h6">某某商品</font>,我只想取商品的名称,不希望后面跟着数量。
答:解决方法是这样,设置两个同名的信息规则,比如都叫“商品名称”,然后第一个规则的前标是<font class="h6">,后标是(,第二个规则的前标是<font class="h6">,后标是</font>,这样在提取商品名称的时候会先根据第一规则来提取,如果第一个规则的后标(没有找到的话,就会启用第二个同名的规则,这样的话,就可以解决你的问题。

5、要采集的某网页列表有30页,我仅仅需要前10页,怎么设置?
答:如果你只需要10页,可以在起始地址的那里通过批量输入地址范围来让软件只采集10页。

6、我有个任务是用来采集一个需要登录才能看到内容的网站的,为什么刚开始几次的时候能正常采集到内容,后面就采集不到了呢?
答:有很多网站登录是有时效的,所以你的这个情况很有可能是登录已经过期了,你知需要用采集软件的网站登录功能再重新登录一次就可以了。

7、我采集了很多信息,有些信息里的email信息项采集到了内容,有些没有,我想只保留有email信息的记录,没有的就过滤掉不保存,请问怎么实现?
答:你可以使用任务高级设置菜单中的“条件保存”设置,在“源信息”处选择Email,在“操作符”处选择<>,就代表只有Email信息项不等于空的信息才会保存。

8、我有Pic信息项是用来提取网页上的图片地址的,但是提取出来是类似于“Images/abc.jpg”这样的相对地址,有没有办法提取到该图片的绝对地址呢?
答:你可以在Pic信息项的设置上使用信息类型里Process类型中的Url,这个信息类型可以将一个相对地址根据情况转换为类似http://www.xxx.com/Images/abc.jpg这样的绝对地址。

贵阳论坛  天天住宿网  贵阳爱城网  测试  Firefox's中文之家