信息类型:信息类型可以帮助用户更简单的获取某些不易获得的信息。左边的下拉框是信息大类,选中信息大类中的某个信息大类,右边的下拉框中会出现相应的信息小类。
信息类型中有以下几种情况的类型:
1、变量型:可以将采集软件运行时的某个环境变量作为采集结果,这样的采集结果只需要设置信息类型为某个类型即可获得结果,不需要设置信息项的前后标。
举例:Variable信息大类中的Visiting url,设置这个信息类型,得到的采集结果将是当前采集软件提取信息所访问的那个网页的Url地址。选择Variable中的Date,得到的采集结果将是提取信息是的系统日期。
2、常量型:选中Constant信息大类,旁边的信息小类下拉框将会变成空白框,在这个空白框中输入某个字符串,这个字符串就将作为采集结果保存到数据库中。比如某用户采集某类新闻的时候,已经明确知道采集的这些新闻分类属于体育新闻,那他就可以不用再设置前后标来提取这个新闻分类信息,直接用Constant信息大类,然后在旁边的小类中输入“体育新闻”即可达到目的。
3、规则提取型:某些网站的网页可能是无规律的,比如要提取这些网页里的email地址,但是因为无规则的关系,可能在这些网页代码中找不到合适的前后标识符。那就可以使用信息大类中的Network中的Email,采集软件就会根据Email地址的字符串特征来在整个网页代码中自动提取Email地址。
4、格式处理型:典型的如DateTime大类,选中DateTime大类,旁边的信息小类框出现空白,你可以在这个空白框中输入某个日期格式字符串,如:hh:mm:ss,就可以将采集结果中的日期进一步格式化为你指定的日期格式。
5、智能处理型:Process中的Text,这个信息类型可以将一个网页中的正文内容智能抽取出来。
更详细的信息类型介绍请参考:信息提取规则-信息类型
出现在第几个标识符后:默认情况下,采集软件是从发现第一个前标识符的地方往后来查找后标识符,在找到后标识符后,就将夹在前后标中间的内容作为采集结果返回。但是有些情况下,要提取的内容可能不在前标识符第一次出现的地方,有可能出现在第三、第四、第n次出现的地方。出现这种情况,你就可以设置该参数让采集软件从前标识符出现的第X位置处来提取信息。
是否反方向查找:默认情况下,采集软件是从发现第一个前标识符的地方往后来查找后标识符,在找到后标识符后,就将夹在前后标中间的内容作为采集结果返回。但是有些情况,前标识符不唯一,不太好利用前标识符来定位信息,我们这时可以看看后标识符是不是在网页中是唯一的,如果是,那么就可以将“是否反方向查找”这个参数选中,采集的时候就会先定位后标,然后根据后标定位前标,再将其中的内容作为结果提取出来。
是否下载:如果你的采集结果是一个可下载的二进制文件的网址,比如:http:://www.boneb.com/setup.zip这样的内容,那选中“是否下载”即可在采集的时候将采集结果中的二进制文件下载下来,保存在本地磁盘中,同时在数据库中相应字段的内容修改为该文件的相对地址。
举例:一个名字叫“月帝珠宝网”的任务,有个“商品图片”这个信息项,采集时下载了一个http://www.yeedee.net/ProductPic/001.jpg,采集软件将会把这个文件下载到“网络信息采集专家安装目录\Data\月底珠宝网\Download\ProductPic\001.jpg”,同时数据库中“商品图片”这个字段保存的内容为:“Download/ProductPic/001.jpg”。
关于下载参数的具体设置可以参考:系统设置-下载
该信息不允许重复:选中该选项后,如果数据库中该信息项所关联的字段中已存在与采集结果相同的值,那这个采集结果将会被整条的丢弃掉,不做保存,以避免数据库中该信息出现重复。
备注:该设置选中后,进行数据库比较非常消耗计算机资源,所以建议用户一般情况下不要开启该设置。
点这里可以查看:信息抓取规则(基础设置)