使用实例分析5--163社区论坛帖子

学会了下面这个比较复杂一些的例子,以后你就可以对这个软件运用自如了,以后想抓什么网站就抓什么网站

基本操作:

查看网页源代码:
点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:
下载安装这个软件,打开软件后点击 三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。

1.点击新建任务这个按钮,点击后会出现如下界面:

任务名称:随便起个名字,就叫163社区论坛帖子
由于这个网站的网址会自动转向,比如
http://b3.club.163.com/viewArticleByWWW.m?boardId=drivecar&articleId=drivecar_105b488dfea37e0&boardOffset=0
打开IE,访问这个页面,网址会自动变为http://b5.club.163.com/viewArticleByWWW.m?articleId=drivecar_105b488dfea37e0&boardId=drivecar
为了确保能抓到内容,我们最好选中“自动转向”。
有的网页是框架网页,为了抓取框架中的内容,需要选中“是否抓取框架网页”
任务起始地址:随便找了两个论坛板块:汽车天地、各行各业。把起始地址添加进去。

由于帖子回复数是在顶层页面中才能看到的,在帖子内容页面看不到,所以需要设置顶层页面。
http://b3.club.163.com/viewHotArticles.m?boardId=car为例,分隔帖子标题、回复的字符串是<tr bgcolor="#f2f2f2">,所以信息列表循环标志就是<tr bgcolor="#f2f2f2">
然后找到回复次数的前后标识(回复次数前后固定不变的那段代码),名称取“回复次数”,添加进去。

ok,这部分就设置好了。

2.切换到“采集对象网址标识”选项卡,设置标识



采集对象所在网页网址标识:这里的设置和实例1实例2原理一样,请参照。
下页网址关键字:就是viewHotArticles.m? ,注意间隔一栏此时必须填0

3.切换到“采集对象前后标识”选项卡



这里的设置和设置实例1实例2原理一样,不多说了,请参照。
唯一需要特别注意的是“信息循环间隔标识”一栏,由于帖子内容往往有很多个回复,要把这些回帖的内容也抓到就需要设置这栏。以http://b3.club.163.com/viewArticleByWWW.m?boardId=racecar&articleId=racecar_104955f79d6326f&boardOffset=0
为例,分隔帖子内容的字符串是<table width="660" height="25" border="0" cellpadding="0" cellspacing="0" style="overflow:hidden;"> ,所以就填这个字符串。

好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“163社区论坛帖子”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的结果了。



 杭州网乐科技有限公司软件开发工作组

 办公地点:杭州市凤起路432号金都杰地大厦10层 
 联系电话:0571-89291074
 24小时在线QQ:11640577
 Email:service@61163.com