菜单和工具条的使用
很容易理解的就不多说了,主要说一些比较复杂的一些功能:
1.发布数据:就是把抓到的内容发布到网站数据库里,点击查看详细说明
2.工具-记事本:就是打开记事本。记事本是经常用到的
3.工具-网址编码计算:在网址中中文会被编码,比如http://www.xxxx.com/index.asp?keyword=信息采集
传输时会被编码为 http://www.xxxx.com/index.asp?keyword=%D0%C5%CF%A2%B2%C9%BC%AF。此项常配合来发送POST请求。
4.工具-网址解码计算:就是网址解码得逆过程。%D0%C5%CF%A2%B2%C9%BC%AF解码后就是信息采集
5.工具-链接列表生成器:把有规律的网址生成一个链接列表,并保存为一个网页。然后就可以用这个网页作为起始地址来采集。常用来处理特殊情况。如果既要抓顶层页面又要抓关联页面就会用到的。
6.工具-网页索引生成器:就是把一个目录中的网页生成一个列表,点击这个列表文件中的链接就可以转到一个网页了。此项也用来处理特殊情况,比如阿里巴巴的求购信息必须要账户才能查看,更特殊的是每次都要输入验证码才能查看信息,软件还不可能自动识别并输入验证码,所以就要用网页索引生成器了。先人工把一条一条求购信息的页面保存到一个文件夹里,然后用网页索引生成器生成列表文件,最后用这个列表文件作为起始地址来抓取。这样的效率虽然没有自动抓取高,但是至少比人工高至少几十倍。注意:比如列表文件保存在c:\列表.htm,那么起始地址必须用file:///c:/列表.htm,而不能直接用c:\列表.htm作为起始地址。
7.工具-去除HTML代码:就是只保留文本内容,去掉html标记
8.设置-软件启动设置:
这里的设置也比较容易理解,需要提醒的是如果选中了“采集前是否删除采集过的网址”,那么会重新抓取所有地址。
定时抓取时间间隔如果数据量大,就不要设置太小。 如果执行一次任务需要20分钟,而这里设置的只有10分钟间隔,很显然是不合适的。
|