使用实例分析6--xici论坛
学会前4个例子已经可以解决绝大多数问题了,这里对于抓论坛回复,还要另外设置,本例就来看看这个例子。
基本操作:
查看网页源代码:点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:下载安装这个软件,打开软件后点击
三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。
1.点击新建任务这个按钮,点击后会出现如下界面:
任务名称和起始地址之类的,已经很简单了,前面讲了很多了。
2.切换到“采集对象网址标识”选项卡,设置标识
采集对象网址标识:帖子内容网址里都含有/d,非帖子网址不含有/d,因此就是网址标志了
下页网址前标:http://www.xici.net/b643556/board.asp?pn=
下页后标为空
3.切换到“采集对象前后标识”选项卡
这里的设置和前面的例子不一样,因为要抓的页面里有很多个回复,就要分割开来抓才能抓到每个回复的内容。因此就要设置信息循环间隔标识,这个标识把网页分割成多个部分。一般来说,帖子有3个回复,就会有3个信息循环间隔标识,就是说要找到信息循环间隔标识,那网页分割成3部分,每个部分相当于一个单独的网页,分别抓到回复的作者和内容。
本例中每个回复都是放在一个表格里的,因此很容易找到这个信息循环间隔标识<table width=100% border=0
cellpadding=0 cellspacing=0 class="board_padding"><tr><td
align="center">
还需要注意,帖子标题和帖子内容、主题作者都是只有一个的,因此不要选中“是否在循环体内”;回复作者和回复内容是有多个的,因此就要选中“是否在循环体内”
其他的也就没什么特殊的了。
好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“xici论坛”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的结果了。
|