使用实例分析1--新浪财经新闻

以下通过一个实例来说明软件的使用方法 ,这个实例的功能是采集新浪财经新闻

基本操作:

查看网页源代码:
点击IE浏览器的查看,再点“源文件”。
网页编辑软件Dreamweaver的使用:
下载安装这个软件,打开软件后点击 三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。

1.点击新建任务这个按钮,点击后会出现如下界面:

任务名称:随便起个名字,就叫新浪财经新闻
任务起始地址:就是新闻列表的那个网址,http://finance.sina.com.cn/guonei/index.shtml

2.切换到“采集对象网址标识”选项卡,设置标识



采集对象所在网页网址标识:就是新闻内容的链接与该网页上其它链接的区别,我们可以看到新闻链接的网址里都有/200这个字符串,其它网址里没有,因此此项就填写/200。别忘了要点击“添加标识”按钮添加进去哦。




3.切换到“采集对象前后标识”选项卡



信息名称:设置一个有意义的可以区分其它信息的名字,我们第一个要抓的是新闻标题,因此就叫“标题”,此处可以随便填写。

然后把任何一条新闻的网页代码粘贴到Dreamweaver里,开始找信息前标识、后标识

信息前标识、后标识:这个就不难理解了。比如标题,在新闻详细内容的页面的源文件中找出信息标题的前后标识。比如如下代码:<font color=#05006C><h1>人民币周四再度走强 收盘价创汇改以来新高</h1></font>,那么信息前标识就是<h1>,信息后标识就是</h1>。因为查找字符串是先查找前标识,然后从前标识的位置开始查找后标识第一次出现的位置,这中间的信息会被采集到。
一定要注意,信息前标识在网页代码中只能出现一次,在Dreamweaver里按Ctrl+F查找<h1>,可以发现只能查找到一次,因此可以作为前标识。
后标识就不是严格要求只能出现一次,只要保证从前表识的那个位置开始查找后标识,是第一次出现的就行了。比如如下代码:<TD width=20>电话</TD><TD width=30>89291074</TD>,用<TD width=20>电话</TD>作为前标识,那么可以用</TD>作为后表识,就可以抓到<TD width=30>89291074这部分代码,虽然</TD>出现了两次,但是从前标识那个位置开始,</TD>是第一次出现的,所以就用</TD>作为后标识。

设置好后点“添加”,然后以同样的方法把内容也设置好添加进去。

好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“新浪财经新闻”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的新闻了,简单吧。



 杭州网乐科技有限公司软件开发工作组

 办公地点:杭州市凤起路432号金都杰地大厦10层 
 联系电话:0571-89291074
 24小时在线QQ:11640577
 Email:service@61163.com