首页 首页 产品 版本介绍 采集样本 合作伙伴 升级 客服论坛 帮助文档
帮助首页帮助首页
快速上手快速上手
菜单菜单
文件文件
任务任务
工具工具
系统数据库系统数据库
查看查看
任务管理任务管理
任务任务
访问规则访问规则
信息抓取规则(基础设置)信息抓取规则(基础设置)
信息抓取规则(高级设置)信息抓取规则(高级设置)
信息类型信息类型
任务高级设置任务高级设置
存储数据库设置存储数据库设置
网站登录网站登录
计划执行采集任务计划执行采集任务
页面预提处理页面预提处理
提取链接设置提取链接设置
定义特殊链接定义特殊链接
关联页面规则关联页面规则
防止重复访问设置防止重复访问设置
编码编码
删除Htm设置删除Htm设置
结果替换结果替换
自动分类自动分类
条件保存条件保存
保存遍历页面保存遍历页面
其它任务选项其它任务选项
系统设置系统设置
控制控制
界面界面
代理代理
下载下载
菜单常见问题
软件安装问题软件安装问题
软件应用问题软件应用问题
任务规则问题任务规则问题
任务管理-信息类型

信息大类

信息小类

类型

作用

是否常用

 

 

 

Business

Chinese Cell

规则提取型

从htm代码中提取中国式的手机号码

 

Chinese Postcode

规则提取型

从htm代码中提取中国邮政编码

 

Chinese Telephone

规则提取型

从htm代码中提取中国式的固定电话号码

 

Chinese Telephone and Cell

规则提取型

从htm代码中提取中国式的电话号码

 

France Postcode

规则提取型

从htm代码中提取法国邮政编码

 

France Telephone

规则提取型

从htm代码中提取法国电话号码

 

German Postcode

规则提取型

从htm代码中提取德国邮政编码

 

German Telephone

规则提取型

从htm代码中提取德国电话号码

 

Japanese Postcode

规则提取型

从htm代码中提取日本邮政编码

 

Japanese Telephone

规则提取型

从htm代码中提取日本电话号码

 

USA Postcoe

规则提取型

从htm代码中提取美国邮政编码

 

USA Telephone

规则提取型

从htm代码中提取提取美国电话号码

 

DateTime

 

格式处理型

将一个日期字符串格式化为某个标准的日期格式

 

 

Htm

Snapshot

智能处理型

从htm代码中获得网页快照,这个网页快照类似于搜索引擎的网页快照内容。

 

Text

智能处理型

从htm代码中获得所有文字内容

 

Title

智能处理型

从htm代码中获得网页标题

 

Live

Chinese ID Card

规则提取型

从htm代码中获得中国式的身份证号码

 

USA ID Card

规则提取型

从htm代码中获得美国式的身份证号码

 

 

Network

Email

规则提取型

从htm代码中提取所有的电子邮件地址

IP Address

规则提取型

从htm代码中提取所有的ip地址

 

Picture Address

规则提取型

从htm代码中提取所有的图片url地址

 

Url

规则提取型

从htm代码中提取所有的url地址

 

 

Numeric

Float

规则提取型

从htm代码中提取所有浮点数

 

Integer

规则提取型

从htm代码中提取所有整数

 

Numeric

规则提取型

从htm代码中提取所有数字(包括整数和浮点数)

 

 

Web text

智能处理型

从htm代码中智能抽取正文内容,如一篇新闻,就可以将新闻的主要内容提取出来,并同时去掉无关的广告等垃圾信息。

 

Process

Redirect Url

智能处理型

获得一个url地址跳转后的真实地址(前提,该url地址是需要跳转的)

Url

智能处理型

将某个url片段结合当前的环境变量,还原成一个完整的url。举例:比如当前正采集www.boneb.com/Article/Index.asp网页,使用前后标识符,提取到信息open.asp。然后在信息类型选择Process->Url类型后,得到的最终结果为www.boneb.com/Article/open.asp

Url decode

智能处理型

将一段已编码的url进行解码。举例:使用前后标识符提取到信息Key=%B2%C9%BC%AF,然后在信息类型中选择Process->Url decode,得到的最终结果为:Key=采集。

 

Web summary

智能处理型

从htm代码中智能抽取正文内容后,根据正文内容自动摘要。

 

String

Chinese String

规则提取型

从htm代码中提取一段中文汉字字符串

 

English String

规则提取型

从htm代码中提取一段英文字符串

 

Unicode decimalization

规则提取型

从htm代码中提取Unicode十进制内容

 

Unicode String

规则提取型

从htm代码中提取Unicode字符串

 

 

Variable

Date

变量型

获得当前的日期

DateTime

变量型

获得当前的日期时间

Pick depth

变量型

获得当前采集地址的深度

 

Source url

变量型

获得当前采集网页的来源链接

 

Start url

变量型

获得当前任务的开始地址

 

Time

变量型

获得当前的时间

 

Visiting Url

变量型

获得当前采集软件正在访问的网址

Constant

 

常量型

将用户输入在信息小类框中的值做为一个常量,同采集到的数据一起写入结果数据库中。

Random integer

 

变量型

用户可以在信息小类框中输入这样一个字符串,x-y,这样在采集过程中就会随机生成一个x到y的一个随机数,并同采集到的数据一起写入结果数据库中。

 

Custom

 

规则提取型

用户可以在信息小类框中输入一个正则表达式,然后采集软件会将获得的htm代码中所有符合该正则表达式的字符串提取出来。

贵阳论坛  天天住宿网  贵阳爱城网  测试  Firefox's中文之家