我们都知道百度帝国是用python打造的,因为这样,所有很多人学python的目的可能主要都是以抓取网络内容为主要目的,今天我这文章就简单的教大家怎么用python去获取到我们的网页的title、keyword、description信息,非常的简单;
这里先说一下,我用的python版本是python39,在本文章中主要用到python的二个库,一个是requests,另一个则是lxml,如果报错的话,大家可以运行命令安装这二个库;
pip install requests
pip install lxml
费话不多说,下面直接上代码,非常的简单,就可以直接获取到我们想要的title、keyword、description
#!/usr/bin/python3
# coding: utf-8
import requests # 导入requests包
from lxml import etree
# 添加请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400',
}
url = 'https://www.rsyncd.net'
r = requests.get(url, headers=headers) # Get方式获取网页数据
s = etree.HTML(r.text)
title = s.xpath('//title/text()')[0]
print("title:",title)
content = s.xpath('//*[@name="description"]/@content')[0]
print("description:",content)
keywords = s.xpath('//*[@name="keywords"]/@content')[0]
print("keywords:",keywords)
下面是运行结果:
Microsoft Windows [版本 10.0.19043.1165]
(c) Microsoft Corporation。保留所有权利。
G:\python>C:/Users/zhao/AppData/Local/Programs/Python/Python39/python.exe g:/python/qzze.py
title: 爱编程一个运维兼程序员的博客!
description: 一个拥有近20年运维经验的兼职程序员的博客,现主要搞各类API接口开发及各类程序的二次开发,linux系统、WIN系统代维护及各中疑难杂症的修复!
keywords: 爱编程、网络资讯、系统维护、asp编程、php编程、wordpress、插件开发、api开发、慧林插件、二次开发、主机评测、linux、nginx、php7
最新评论
感谢
能不能屏蔽掉刷流量的,统计工具显示全部都是
路过学习了
好像不太行啊 加载不出来啊
好文章
是否可以 实现 判断手机端跳转 而网址不变呢
你好
感谢分享,我也遇到这个了,根据你的提示,屏蔽掉了