关灯
请选择 进入手机版 | 继续访问电脑版

[V9教程] 4、相关术语

[复制链接]
admin 发表于 2018-12-26 21:02:43 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
1.采集任务
采集任务是火车采集器中对于数据采集和数据发布任务的完整配置,包含采集规则和发布模块。
2.采集规则
即我们对如何采集和采集什么的问题给出一些设置让采集器按照设置的规则来执行,这个设置可以从火车采集器里面导出保存为.ljobx文件,也可以再次导入火车采集器。
3.发布模块
在火车采集器中,发布模块是对“将已经采集到的数据发布到哪里”进行的设置。包括WEB在线发布模块和数据库发布模块,其设置分别可以导出保存为.wpm文件和.dbm文件,并可以再次导入火车采集器,多次使用。
4.发布接口
发布接口是一个小型的页面程序,通常和WEB在线发布模块配合使用来满足用户的特定需求。即采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照用户特定需求灵活地处理数据。
5.标签
是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定,比如标题、手机号、邮件、作者,内容标签采集到的信息在发布模块中就可以通过该标签名对应获取到,格式为[标签:标签名]如[标签:标题]。标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。
注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:[url=],这样的字句指示此网页的字符集编码是GB2312。火车采集器对一般的网页可以做到自动识别,也罗列出了大部分的网页编码格式,可以直接在采集器中手动选择指定相应的编码格式。
15.代理
是指网络中的代理服务器,可以代理网络用户去取得所需要的网络信息。代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,突破电信的ip封锁和隐藏真实的ip等。
16.插件
在火车采集器,插件是指可以对采集到的数据进行特定处理的一个外部程序,编写好插件后,采集器可以把数据传递给插件,然后对数据进行处理,再把数据传给采集器。(可自行开发,也可联系客服定制。)
17.Cron表达式
在火车采集器计划任务管理器的设置中,可以设置完整的cron表达式来表示对任务的计划执行。它是一个由6或7个子表达式组成的字符串。每一个表达式代表一个域,每个域描述了一个单独的日程细节且每个域之间使用空格分隔,它由两种格式组成。
Seconds Minutes Hours DayofMonth Month DayofWeek Year
Seconds Minutes Hours DayofMonth Month DayofWeek
一个Cron表达式至少有6或7个有空格分隔的时间元素,每个时间元素都使用数字,但还可以出现如下特殊字符,他们的含义分别表示:
1.Seconds 秒 (允许值为0-59,允许的特殊符号,- * /)
2.Minutes 分钟 (允许值为0-59,允许的特殊符号,- * /)
3.Hours 小时 (允许值为0-23,允许的特殊符号,- * /)
4.Day-of-Month 月中的天 (允许值为1-31,允许的特殊符号,- * / ? L W C)
5.Month 月 (允许值为1-12或者JAN-DEC,允许的特殊符号,- * /)
6.Day-of-Week 周中的天 (允许值为1-7或者SUN-SAT,允许的特殊符号,- * / ? L C #)
7.Year (optional field) 年(可选的域,允许值为留空或者1970-2099,允许的特殊符号,- * /)
特殊字符含义:
(1) * 表示该域的任意值。如在Minutes域使用,即表示每分钟都会触发事件。
(2) ? 只能用在DayofMonth和DayofWeek两个域。实际上不会匹配域的任意值,因为DayofMonth和DayofWeek会相互影响。如想在 每月的20日触发调度,不管20日是周几,则只能使用如下写法:13 13 15 20 * ?,其中最后一位只能用?,而不能用
,如果使用*表示每月的20号15时13分13秒不管是周几都会触发,实际上不是的。
(3) – 表示范围,如在Minutes域中使用5-20,表示5到20分钟每分钟触发一次
(4) / 表示起始时间开始触发,然后每隔固定时间触发一次。如在Minutes域中使用5/20,表示从分钟数5开始每隔20分钟触发一次,结果25,45,05等分别触发一次。
(5) , 表示列出枚举值。如在Minutes域中使用5,20,则表示5分钟和20分钟每分钟触发一次。
(6) L 表示最后,只能出现在DayofMonth和DayofWeek域。
(7) W 表示有效工作日(周一到周五),只能出现在DayofMonth域中,系统将在离指定日期最近的有效工作日触发事件。另外,W的最近寻找不会跨过月份。
(8) # 用于确定每个月第几个星期几,只能出现在DayofMonth域中。如4#2表示某月的第二个星期四。
完整的corn表达式如0 15 08 ? * MON-FRI 表示每周一到周五的早上8点15分开始定时更新数据。
18.任务网址库
采集器在文件夹DataLocoySpiderPageUrl下,该站点下的每一个任务都会生成一个独立或公用的网址库用来对比网址重复之用。
19.HTTP请求
浏览器打开网页时实际就是发送一个又一个Http请求,火车采集器也一样,从指定的地址获取内容的过程就是发送Http请求,然后对根据请求得到的内容进行处理。当浏览器向web服务器发送请求时,它向服务器传递了一个数据块,也就是请求信息。Http请求信息由3部分组成:请求方法URI协议/版本,请求头(Request Header)和请求正文。如下图:
2.png
而客户就可以从请求的信息中得到有用的数据。[/url]
回复

使用道具 举报

 

0关注

0粉丝

285帖子

排行榜
Copyright   ©2015-2016  TdmhPowered by©Discuz!土墩木华