使用实例分析2--杭州公司名录

实例1是一个很简单的抓取新闻的例子,现在我们来看一个稍微复杂一些的例子。这个例子的特殊就在于联系方式需要点击两次才能完全看到。这个实例的功能是采集阿里巴巴里的杭州公司的联系方式,以便供电话营销使用。

基本操作:

查看网页源代码:
点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:
下载安装这个软件,打开软件后点击 三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。

1.点击新建任务这个按钮,点击后会出现如下界面:

任务名称:随便起个名字,就叫杭州公司
任务起始地址:就是公司列表的那个网址,http://search.china.alibaba.com/search/company_search.htm?keywords=&province=%D5%E3%BD%AD
&city=%BA%BC%D6%DD&biztype=0&Submit2=%CB%D1%CB%F7。在阿里巴巴里搜索杭州的公司库可以看到这个网址.

2.切换到“采集对象网址标识”选项卡,设置标识



采集对象所在网页网址标识:打开起始地址,我们可以发现公司列表的网址区别于别的网址的标志就是.cn.alibaba.com,因此我们把这个作为采集对象所在网页网址标识.

想要抓到下一页的公司信息,我们还要设置下页网址标识,下页的网址是http://search.china.alibaba.com/search/company_search.htm?province=%D5%E3%BD%AD&city=%BA%BC%D6%DD
&sort_type=trustscore&begin_page=2
,下页网址关键字可以取company_search.htm,如果设置了下页网址关键字,则“间隔”一栏必须填0
说明: 下页网址关键字那一栏也可以填写下页网址前标,http://search.china.alibaba.com/search/company_search.htm?province=%D5%E3%BD%AD&city=%BA%BC%D6%DD
&sort_type=trustscore&begin_page=
,用这个作为下页网址前标,下页网址后标为空。如果这样设置,则“间隔”一栏必须不填0,一般填1。begin_page=2,这是第二页;begin_page=3,这是第三页,因此间隔就是1

采集页数:就暂时采集20页吧

下面就遇到问题了,我们点击出来的公司详细信息的页面里看不到所有的联系方式,必须点击“详细信息”这个连接才能看到。怎么办?设置一下关联页面就可以了。如果公司详细信息的页面直接能看到所有的联系方式,不需要再打开新窗口,我们就不需要设置关联页面了。
以http://shinlight18.cn.alibaba.com/为例,详细信息这个链接的网址是在<td height="28" colspan="2" bgcolor="#FFFFFF" class="s" style="padding-left:8px; padding-bottom:8px;">
<a href="
" >之间的,所以关联页面网址前标就是前者那个字符串,关联页面网址后标就是" >。这样填写了之后点击添加按钮添加进去就可以了。
顺便说一下,关联页面网址标识一栏也可以填写/contact/,这样就不用填写关联页面网址前标、关联页面网址后标了。被关联页面网址标识一般不用填写。


3.切换到“采集对象前后标识”选项卡



这里的设置和设置实例2原理一样,不多说了,请参照实例2。

好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“杭州公司”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的公司联系方式了。



 杭州网乐科技有限公司软件开发工作组

 办公地点:杭州市凤起路432号金都杰地大厦10层 
 联系电话:0571-89291074
 24小时在线QQ:11640577
 Email:service@61163.com