|
使用实例分析3--人民日报
学会了实例1和实例2,我们来看一下本软件的特色功能--自动获取起始地址。
人民日报(http://www.people.com.cn/GB/paper464/)有个特殊的地方,每天的起始地址都是变化的,比如8月28日第二版的起始地址是http://www.people.com.cn/GB/paper464/15565/171423/index.html,8月29日的就不是这个了。我们设置的时候通常是事先设置好起始地址的,如果起始地址毫无规律地变化,该怎么办呢? 不必担心,软件有自动获取起始地址的功能,简单地说就是从不变的网址自动抓到变化的网址,因为人民日报(http://www.people.com.cn/GB/paper464/)是不变的,我们就可以以这个地址抓到变化的网址。
基本操作:
查看网页源代码:点击IE浏览器的查看,再点“源文件”。 网页编辑软件Dreamweaver的使用:下载安装这个软件,打开软件后点击
三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。
1.点击新建任务这个按钮,点击后会出现如下界面:
任务名称:随便起个名字,就叫人民日报吧 任务起始地址:由于每天的任务地址是变化的,我们必须点击“自动获取起始地址”按钮设置一下。点击后出现如下界面:
是否抓取各级分类:不要选中。在实例4中我们要选中,选中了就表示起始地址是不变的,并且要手工把起始地址添加进去,本例起始地址是变化的,所以不要选中。
起始地址所在网页网址:就是那个不变化的网址,http://www.people.com.cn/GB/paper464/
起始地址前标:如果仅靠起始地址网址标识无法提取出正确的网址,必须设置起始地址前标、后标 。 看下面的图片:
起始地址前标就是网页代码中“第一版”前面的固定不变的唯一的字符串,软件就是在起始地址前标和后标之间的代码中抓取起始地址的。
起始地址网址标志:这个很好理解,我们会发现既含有paper464又含有/index.html的链接才是我们需要的链接,因此填入/index.html;paper464,多个标志用分号分隔。
ok,这部分就设置好了。
2.切换到“采集对象网址标识”选项卡,设置标识
采集对象所在网页网址标识:这里的设置和实例1、实例2原理一样,请参照。
采集信息列表前标识、后标识:
 就是这个列表的前标识、后标识。由于仅靠网址标志抓取,抓到的会有不需要的链接,因此设置此项,这样软件只会抓取网页代码中的采集信息列表前标识和后标识之间的链接。
3.切换到“采集对象前后标识”选项卡
这里的设置和设置实例1、实例2原理一样,不多说了,请参照。
好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“人民日报”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的结果了。
|