信息大类 |
信息小类 |
类型 |
作用 |
是否常用 |
Business |
Chinese Cell |
规则提取型 |
从htm代码中提取中国式的手机号码 |
|
Chinese Postcode |
规则提取型 |
从htm代码中提取中国邮政编码 |
|
Chinese Telephone |
规则提取型 |
从htm代码中提取中国式的固定电话号码 |
|
Chinese Telephone and Cell |
规则提取型 |
从htm代码中提取中国式的电话号码 |
|
France Postcode |
规则提取型 |
从htm代码中提取法国邮政编码 |
|
France Telephone |
规则提取型 |
从htm代码中提取法国电话号码 |
|
German Postcode |
规则提取型 |
从htm代码中提取德国邮政编码 |
|
German Telephone |
规则提取型 |
从htm代码中提取德国电话号码 |
|
Japanese Postcode |
规则提取型 |
从htm代码中提取日本邮政编码 |
|
Japanese Telephone |
规则提取型 |
从htm代码中提取日本电话号码 |
|
USA Postcoe |
规则提取型 |
从htm代码中提取美国邮政编码 |
|
USA Telephone |
规则提取型 |
从htm代码中提取提取美国电话号码 |
|
DateTime |
|
格式处理型 |
将一个日期字符串格式化为某个标准的日期格式 |
|
Htm |
Snapshot |
智能处理型 |
从htm代码中获得网页快照,这个网页快照类似于搜索引擎的网页快照内容。 |
|
Text |
智能处理型 |
从htm代码中获得所有文字内容 |
|
Title |
智能处理型 |
从htm代码中获得网页标题 |
|
Live |
Chinese ID Card |
规则提取型 |
从htm代码中获得中国式的身份证号码 |
|
USA ID Card |
规则提取型 |
从htm代码中获得美国式的身份证号码 |
|
Network |
Email |
规则提取型 |
从htm代码中提取所有的电子邮件地址 |
√ |
IP Address |
规则提取型 |
从htm代码中提取所有的ip地址 |
|
Picture Address |
规则提取型 |
从htm代码中提取所有的图片url地址 |
|
Url |
规则提取型 |
从htm代码中提取所有的url地址 |
|
Numeric |
Float |
规则提取型 |
从htm代码中提取所有浮点数 |
|
Integer |
规则提取型 |
从htm代码中提取所有整数 |
|
Numeric |
规则提取型 |
从htm代码中提取所有数字(包括整数和浮点数) |
|
|
Web text |
智能处理型 |
从htm代码中智能抽取正文内容,如一篇新闻,就可以将新闻的主要内容提取出来,并同时去掉无关的广告等垃圾信息。 |
√ |
Process |
Redirect Url |
智能处理型 |
获得一个url地址跳转后的真实地址(前提,该url地址是需要跳转的) |
√ |
Url |
智能处理型 |
将某个url片段结合当前的环境变量,还原成一个完整的url。举例:比如当前正采集www.boneb.com/Article/Index.asp网页,使用前后标识符,提取到信息open.asp。然后在信息类型选择Process->Url类型后,得到的最终结果为www.boneb.com/Article/open.asp。 |
√ |
Url decode |
智能处理型 |
将一段已编码的url进行解码。举例:使用前后标识符提取到信息Key=%B2%C9%BC%AF,然后在信息类型中选择Process->Url decode,得到的最终结果为:Key=采集。 |
|
Web summary |
智能处理型 |
从htm代码中智能抽取正文内容后,根据正文内容自动摘要。 |
√ |
String |
Chinese String |
规则提取型 |
从htm代码中提取一段中文汉字字符串 |
|
English String |
规则提取型 |
从htm代码中提取一段英文字符串 |
|
Unicode decimalization |
规则提取型 |
从htm代码中提取Unicode十进制内容 |
|
Unicode String |
规则提取型 |
从htm代码中提取Unicode字符串 |
|
Variable |
Date |
变量型 |
获得当前的日期 |
√ |
DateTime |
变量型 |
获得当前的日期时间 |
√ |
Pick depth |
变量型 |
获得当前采集地址的深度 |
|
Source url |
变量型 |
获得当前采集网页的来源链接 |
|
Start url |
变量型 |
获得当前任务的开始地址 |
|
Time |
变量型 |
获得当前的时间 |
|
Visiting Url |
变量型 |
获得当前采集软件正在访问的网址 |
√ |
Constant |
|
常量型 |
将用户输入在信息小类框中的值做为一个常量,同采集到的数据一起写入结果数据库中。 |
√ |
Random integer |
|
变量型 |
用户可以在信息小类框中输入这样一个字符串,x-y,这样在采集过程中就会随机生成一个x到y的一个随机数,并同采集到的数据一起写入结果数据库中。 |
|
Custom |
|
规则提取型 |
用户可以在信息小类框中输入一个正则表达式,然后采集软件会将获得的htm代码中所有符合该正则表达式的字符串提取出来。 |
√ |