网站万能信息采集器

   ————让您从此不再为网站内容烦恼
    ————让您的网站一天内拥有海量信息
 
 

使用实例分析4--阿里巴巴供应

现在我们来看一个稍微特殊一些的例子。这个例子的特殊就在于公司简介在3级页面里,通常我们抓的东西都在2级页面里。3级、4级等多级页面就需要设置关联页面,把2级页面和3级页面连起来一块抓到。

基本操作:

查看网页源代码:
点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:
下载安装这个软件,打开软件后点击 三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。

1.点击新建任务这个按钮,点击后会出现如下界面:

任务名称:随便起个名字,就叫阿里巴巴供应
任务起始地址:就是公司列表的那个网址,这里我们选择了一个分类,http://list.china.alibaba.com/buyer/offerlist/1407.html
类别名称:就是说添加的这个网址属于什么类别,多个起始地址一般对应多个类别,多个类别用逗号分开

下面的信息列表循环标志之类的,如果要抓产品图片的缩略图,就需要设置,因为缩略图只有在一级页面才有,这里的设置参考实例3就行了,这里不多讲了。

2.切换到“采集对象网址标识”选项卡,设置标识



采集对象网址标识:打开列表网页,很容易发现要抓的信息网址里都含有buyer/offerdetail/

下页网址前标或关键字:这里采用关键词的方式,由于一个下页关键词/buyer/offerlist/不能完全区分出来下页的网址,因此设置了两个关键词,表示只有同时含有/buyer/offerlist/和-p的网址才是下页网址,两个关键词用分号分开填进去

采集页数:就暂时采集10页吧

下面就遇到问题了,在供应信息页面里没有公司介绍,需要点击公司名字的链接才能看到,也就是说公司介绍是在3级页面里,这就需要设置一下关联页面就可以了。看上面的关联页面设置,关联页面前标和后标之间的就是一个网址,网址打开就是公司介绍了。软件会先抓2级页面里的关联页面前后标之间的网址,把2级页面和3级页面一块抓到,随后就可以按正常情况提取具体信息了。设置后点添加,如果有多个关联,按顺序添加进去就行了。



3.切换到“采集对象前后标识”选项卡



这里的设置和前面的设置基本一样,需要提醒的是,上面设置了信息前标识2和信息后标识2,这种情况主要是因为网页格式不统一造成前标有多种情况,如果仅仅设置一种前标,不能保证抓取到。信息前后标识2可以用特殊符号@@@分开,这样就可以设置很多种情况的了,保证能抓到想要的信息。软件会先按第一种情况抓,如果抓不到就按第2种情况,如果还不行,就按第3、4种,直到抓到为止。
还有就是因为阿里巴巴网站经常改版,改版一次前后标就要重新设置了,设置多个前标也可以更保险能抓到信息。

还有,是抓产品图片的,类型要选择“图片”,并且选中“是否保存到本地”,这样就可以把图片下载下来了。下载图片和下载软件、音乐、文档等都是一样的设置方法。

公司介绍已经设置了关联页面了,就直接从3级页面里的代码里找到前后标就行了。

好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“阿里巴巴供应”载入,并且选中。点击“开始”按钮开始采集,就可以把信息和图片一块都抓到了。