网页爬虫——获取静态网页的超链接-网页源文件
关注“爱当程序员的我”,每天都有关于编程头条发布
今天讲的是使用python爬取一个网页上面的所有超链接,如果电脑里面有python的话可以动手实验一下,提高一下优越感。
爬虫在实际生活中还是十分常见的,比如说国内最大的爬虫——百度。所以说爬虫做的好就可以赚钱了。
今天讲的这个也很简单,爬取网页超链接,但是有前提那就是这是一张静态的网页,动态的网页有点难搞,小编还不是很会,等学会了在分享给大家。
首先我们需要引入我们要用的包,这里我们使用了python里面自带的包
urllib.request是python操作url的包,re是python正则表达式的包
首先我们写一个获取网页源代码的函数
然后我们就要写一个提取出网页源代码的超链接的函数
接下来我们就可以测试一下了
我们就可以去看看url.txt里面的东西了
我们发现里面有很多不是url,那个是因为在编写网页的时候使用的是相对路径,所以会出现这种情况。但是这并不影响我们分析头条首页的超链接,基本上都不是本站的连接,说明头条的广告业务有点繁忙,当然这只是小编的猜测,万一头条有很多的域名呢?
结束语:
如果喜欢这篇头条,一定要收藏哟^O^
点击关注,了解更多关于编程的知识^O^
如果有不懂的地方,可以留言,相互探讨,相互学习,共同进步^O^
相关内容
-
电脑网页打开页面不全怎么办|电脑网页打开后显
电脑网页打开页面不全怎么办|电脑网页打开后显示不全,,1. 电脑...
-
网页返回上一页快捷键|网页返回上一页的快捷键
网页返回上一页快捷键|网页返回上一页的快捷键,,网页返回上一...
-
计算机不能打开网页发送更多的数据包,但很少收到
计算机不能打开网页发送更多的数据包,但很少收到(解决方案)。,,问...
-
wps演示加长路径|wps中在做PPT设置动作路径
wps演示加长路径|wps中在做PPT设置动作路径,路径,演示,wps,1.w...
-
网页抓取电脑信息|电脑网页捕获
网页抓取电脑信息|电脑网页捕获,,1. 电脑网页捕获可以使用抓包...
-
电脑上不了qq和网页|电脑上qq有网,但是网页打不
电脑上不了qq和网页|电脑上qq有网,但是网页打不开,,电脑上qq有...
-
电脑网页内存高|电脑网页内存高怎么设置
电脑网页内存高|电脑网页内存高怎么设置,,1. 电脑网页内存高怎...
-
pb获取电脑硬盘号|一pb硬盘
pb获取电脑硬盘号|一pb硬盘,,一pb硬盘1PB是等于1024TB,等于1024...
-
无法打开网络正常网页的解决方案
无法打开网络正常网页的解决方案,,昨天我在一家电脑公司做了一...
-
qq音乐隐私设置|qq音乐隐私设置中获取qq好友关
qq音乐隐私设置|qq音乐隐私设置中获取qq好友关系不见了,,1. qq...
-
小米电脑flash怎么打开图片不显示|小米网页不显
小米电脑flash怎么打开图片不显示|小米网页不显示图片怎么办...
-
手机连接电脑调试网页|手机连接电脑调试网页怎
手机连接电脑调试网页|手机连接电脑调试网页怎么弄,,手机连接...
-
打开网页快捷键|复制打开网页快捷键
打开网页快捷键|复制打开网页快捷键,,复制打开网页快捷键其实,...
-
Win7系统开机显示“正在获取网络地址”怎么办
Win7系统开机显示“正在获取网络地址”怎么办,网络地址,系统,...
-
获取电脑的ip|获取电脑的管理员权限
获取电脑的ip|获取电脑的管理员权限,,1. 获取电脑的管理员权限...