网站万能信息采集器

   ————让您从此不再为网站内容烦恼
    ————让您的网站一天内拥有海量信息
 
 

使用实例分析2--上海人才网招聘信息

实例1是一个很简单的抓取新闻标题的例子,现在我们来看一个最普通的例子。这个实例的设置是最常见的那种

基本操作:

查看网页源代码:
点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:
下载安装这个软件,打开软件后点击 三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。

1.点击新建任务这个按钮,点击后会出现如下界面:

任务名称:随便起个名字,就叫杭州公司
任务起始地址:就是招聘信息列表的那个网址,通常就是列表的第一页http://www.001hr.net/jobsmore.asp?page=1。

2.切换到“采集对象网址标识”选项卡,设置标识



采集对象网址标识:打开起始地址,我们可以发现招聘信息列表的网址区别于别的网址的标志就是company.asp,因此我们把这个作为采集对网址标识. 软件只抓网址中含有company.asp的链接。

想要抓到下一页的信息,我们还要设置下页网址前标和后标,下页的网址是http://www.001hr.net/jobsmore.asp?page=2,第3页的网址就是http://www.001hr.net/jobsmore.asp?page=3,第4页网址就是http://www.001hr.net/jobsmore.asp?page=4,可以看出来,变化的仅仅是数字而已。变化的数字前面的网址部分就是下页网址前标,下页网址前标就是http://www.001hr.net/jobmore.asp?page=,变化的数字后面的网址部分是空的,因此下页后标就是空的。page=1,2,3,因此间隔就是1了,一般都是1。例子3二手车如果要用下页前后标的话,间隔就是8了,因为第一页是http://www.hzqc.net/second/second.asp?offset=0,第2页是http://www.hzqc.net/second/second.asp?offset=8

采集页数:就暂时采集10页吧

========================================================================
注意,上面的下页设置是可以抓到的,不过还有一种更简单的设置方法,看下图:
可以看到,下页网址前标那里也可以填下页网址关键字。所有的下页网址里都含有?page=,所有的非下页网址里都不含有?page=,因此?page=就是下页的标志,就是下页网址关键字了。这样的设置就不需要设置从第几页到第几页了,更方便。



3.切换到“采集对象前后标识”选项卡



这里的设置和设置实例1原理一样,我们挑几个讲解以下:
打开某条信息的源文件,把代码复制粘贴到Dreamweaver里,如下图:
我们要抓公司名称的话,“上海雅仕国际物流有限公司”前面的那段代码就是前标了,“上海雅仕国际物流有限公司”后面的那段代码就是后标了,因此招聘单位名称的信息前后标就是上图显示的那个。如果怕抓到html代码,就选中删除Html代码。

同理,其他的也是这样设置的。

好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“上海人才网招聘信息”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到了。