首页 版本介绍 功能 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
任务管理-信息抓取规则(基础设置)

本功能说明:采集软件在访问到有信息的网页时,会用信息抓取规则里的设置来定位信息在网页代码中的位置,并将之提取出来保存到数据库中。

信息抓取规则设置页的上方,即上图红框部分是信息项列表。该列表用来存放所有已经设置好的信息项参数,你可以在列表中选择某条信息项来进行编辑。

信息名称:用来标识某个信息,比如你采集的信息是个电话号码,那你就可以用Telephone来作为信息名称,信息名称中英文均支持,你可以随意选取一个词语来作为信息的名称。
备注:网络信息采集专家直接将采集到的信息存入数据库中,所以这里的信息名称会和数据库的字段名称对应起来,比如信息名称为“Telephone”的信息项,采集到的内容就会保存到数据库中名为“Telephone”的字段中,如果数据库中不存在这个字段,采集软件将会自动在保存的表中新建一个名叫“Telephone”的文本字段。

是否删除htm:可以将采集结果中的htm代码删除掉,比如采集下来的结果为“<font size=8>网络信息采集专家</font>”,删除htm代码后结果为“网络信息采集专家”。

前标识符:所要采集的信息前方出现的内容。
后标识符:所要采集的信息后方出现的内容。
说明:由于一个网站绝大部分的网页内容都是用动态网页或者模板动态生成的,所以多个网页中某个相同的信息也是在网页代码中规律出现的。也就是说同一个信息在不同的网页里会有一段相同的前标识符和后标识符。采集软件的原理就是通过前后标识符的定位,将夹在两个标识符中间的内容作为需要提取的信息给采集出来。
举例:在某商品网页,我们提取商品的名称,在这个网页中商品的名称叫:“豪华款多宝手链”,我们在浏览器中打开该网页的htm源代码,通过查找“豪华款多宝手链”字符串的查找,发现在商品名称附近出现的htm代码如下:
<TABLE cellSpacing=0 cellPadding=0 width=90% align=center border=0>
<TR>
<TD width=131><B>豪华款多宝手链</B></TD>
<TD width=251></TD>
</TR>
<TR>
这样我们就可以用<TD width=131><B>作为商品名称这个信息项的前标识符,用</B>作为后标识符。这样就可以把夹在中间的“豪华款多宝手链”这个信息提取出来。同样你可以检查一下月底珠宝网上其他的类似商品网页,你可以在这些网页的源代码中发现所有的商品名称前后都有这样的标识符出现。
经验:
1、往往在一个网页中不止一对前后标识符可以提取到我们想要的信息,只要前后标识符第一次出现的地方就是我们的信息所处的地方,那就说明这个前后标是正确的。
2、上例中的前后标你可以用<TD width=131>和</TD>,你也许会说,采集的结果不就成了“<B>豪华款多宝手链</B>”吗?这个其实没关系,你通过选中“删除htm”这个设置,就可以删除其中多余的htm代码,得到最终我们想要的结果“豪华款多宝手链”。
3、如果前标识符为空,则软件从网页代码开始位置到第一个后标出现处提取信息;如果后标识符为空,则软件从第一个前标出现处到网页代码结束位置提取信息。

新建:点击新建按钮可以新增加一个新的信息项。

添加:点击添加按钮可以将一个已经设置好的信息项添加到上方的信息项列表中。

修改:点击修改按钮可以修改信息列表中选中的那条信息项的参数设置。

删除:点击删除按钮可以将信息列表中选中的信息项删除掉。

 

关于信息项的高级设置可以参考:信息抓取规则(高级设置)