使用实例分析3--二手车
学会了实例1和实例2,就能抓大部分网站了,不过有些情况还是要设置其它地方才能抓到的。二手车这个例子http://www.hzqc.net/second/second.asp,跟前面例子不一样,这个网址打开也是一个信息列表,但是不用点进去就能看到,前面的都是要点进去内容里才能看到信息的。信息列表是第一级页面,点进去是第二级页面,从第二级页面再点进去就是第三级页面了。那么就是说二手车这个的信息都在第一级页面,前两个例子信息是在第二级页面里,这就是区别之处了。这种情况是保存在任务文件的getindexdata表,而不是getdata表里。
基本操作:
查看网页源代码:点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:下载安装这个软件,打开软件后点击
三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。
1.点击新建任务这个按钮,点击后会出现如下界面:
任务名称:随便起个名字,就叫二手车吧
任务起始地址:http://www.hzqc.net/second/second.asp?offset=0
我们这个例子就要抓顶层页面了,所以要选中,在出现的界面里设置。
信息列表循环标志:
网页代码在Dreamweaver里类似下面的图,可以看到每条信息都是放在一个表格里的,总共8条信息,就是说一段表格代码把整个网页分成了8段,那么这段表格代码就是信息列表循环标志了。
本例的循环标志是<table width="579" border="0"
cellpadding="1" cellspacing="1" bgcolor="#999999">
现在我们用循环标志把网页分成了8段,每段就相当于一个单独的网页,在紧挨着的下面的表格里就可以设置要抓的信息了,比如要抓品牌,这里的前后标的设置原理就和前两个例子里一样了,就不多讲了。
2.切换到“采集对象网址标识”选项卡,设置标识
这里由于不抓二级页面,所以仅仅需要设置下页那里。下页网址是http://www.hzqc.net/second/second.asp?offset=8,很容易找到下页网址关键字second.asp?offset=
当然也可以按如下设置,用下页前后标的方式:
下页前标是http://www.hzqc.net/second/second.asp?offset=
下页后标没有
其余的就不用设置了
好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“二手车”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的结果了。
|