首页 版本介绍 功能 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
任务管理-信息抓取规则(高级设置)

信息类型:信息类型可以帮助用户更简单的获取某些不易获得的信息。左边的下拉框是信息大类,选中信息大类中的某个信息大类,右边的下拉框中会出现相应的信息小类。
信息类型中有以下几种情况的类型:
1、变量型:可以将采集软件运行时的某个环境变量作为采集结果,这样的采集结果只需要设置信息类型为某个类型即可获得结果,不需要设置信息项的前后标。
举例:Variable信息大类中的Visiting url,设置这个信息类型,得到的采集结果将是当前采集软件提取信息所访问的那个网页的Url地址。选择Variable中的Date,得到的采集结果将是提取信息是的系统日期。
2、常量型:选中Constant信息大类,旁边的信息小类下拉框将会变成空白框,在这个空白框中输入某个字符串,这个字符串就将作为采集结果保存到数据库中。比如某用户采集某类新闻的时候,已经明确知道采集的这些新闻分类属于体育新闻,那他就可以不用再设置前后标来提取这个新闻分类信息,直接用Constant信息大类,然后在旁边的小类中输入“体育新闻”即可达到目的。
3、规则提取型:某些网站的网页可能是无规律的,比如要提取这些网页里的email地址,但是因为无规则的关系,可能在这些网页代码中找不到合适的前后标识符。那就可以使用信息大类中的Network中的Email,采集软件就会根据Email地址的字符串特征来在整个网页代码中自动提取Email地址。
4、格式处理型:典型的如DateTime大类,选中DateTime大类,旁边的信息小类框出现空白,你可以在这个空白框中输入某个日期格式字符串,如:hh:mm:ss,就可以将采集结果中的日期进一步格式化为你指定的日期格式。
5、智能处理型:Process中的Text,这个信息类型可以将一个网页中的正文内容智能抽取出来。
更详细的信息类型介绍请参考:信息提取规则-信息类型

出现在第几个标识符后:默认情况下,采集软件是从发现第一个前标识符的地方往后来查找后标识符,在找到后标识符后,就将夹在前后标中间的内容作为采集结果返回。但是有些情况下,要提取的内容可能不在前标识符第一次出现的地方,有可能出现在第三、第四、第n次出现的地方。出现这种情况,你就可以设置该参数让采集软件从前标识符出现的第X位置处来提取信息。

是否反方向查找:默认情况下,采集软件是从发现第一个前标识符的地方往后来查找后标识符,在找到后标识符后,就将夹在前后标中间的内容作为采集结果返回。但是有些情况,前标识符不唯一,不太好利用前标识符来定位信息,我们这时可以看看后标识符是不是在网页中是唯一的,如果是,那么就可以将“是否反方向查找”这个参数选中,采集的时候就会先定位后标,然后根据后标定位前标,再将其中的内容作为结果提取出来。

是否下载:如果你的采集结果是一个可下载的二进制文件的网址,比如:http:://www.boneb.com/setup.zip这样的内容,那选中“是否下载”即可在采集的时候将采集结果中的二进制文件下载下来,保存在本地磁盘中,同时在数据库中相应字段的内容修改为该文件的相对地址。
举例:一个名字叫“月帝珠宝网”的任务,有个“商品图片”这个信息项,采集时下载了一个http://www.yeedee.net/ProductPic/001.jpg,采集软件将会把这个文件下载到“网络信息采集专家安装目录\Data\月底珠宝网\Download\ProductPic\001.jpg”,同时数据库中“商品图片”这个字段保存的内容为:“Download/ProductPic/001.jpg”。
关于下载参数的具体设置可以参考:系统设置-下载

该信息不允许重复:选中该选项后,如果数据库中该信息项所关联的字段中已存在与采集结果相同的值,那这个采集结果将会被整条的丢弃掉,不做保存,以避免数据库中该信息出现重复。
备注:该设置选中后,进行数据库比较非常消耗计算机资源,所以建议用户一般情况下不要开启该设置。

点这里可以查看:信息抓取规则(基础设置)