要从MediaWiki平台建立的维基百科网站上获取某个网页的浏览量,可以使用Python和一些Web请求库(如requests
)以及解析库(如BeautifulSoup
或lxml
)。不过需要注意的是,维基百科的页面浏览量数据通常不直接暴露在普通的网页源码中,而是通过一些特定的API或数据库查询来获取。
以下是一个示例,展示如何使用Python和requests
库从维基百科API获取页面浏览量。这里我们使用的是Pageviews API,它能够返回某个页面在指定时间段内的浏览量。
首先,确保你已经安装了requests
库。如果没有安装,可以使用以下命令安装:
bash复制代码pip install requests
接下来,使用以下代码获取某个页面的浏览量:
python复制代码import requests def get_pageviews(page_title, start_date, end_date, access='all-access', agent='user'): """ 获取维基百科页面的浏览量 参数: page_title (str): 页面标题 start_date (str): 开始日期,格式为 'YYYYMMDD' end_date (str): 结束日期,格式为 'YYYYMMDD' access (str): 访问类型,如 'all-access'(全部访问), 'desktop-site'(桌面站点), 'mobile-site'(移动站点) agent (str): 用户代理,如 'user'(所有用户), 'spider'(爬虫), 'all-agents'(所有) 返回: dict: 包含页面浏览量的数据 """ url = f"https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/{access}/{agent}/{page_title}/{start_date}/{end_date}" response = requests.get(url) if response.status_code == 200: return response.json() else: response.raise_for_status() # 示例使用 page_title = 'Python' # 页面标题 start_date = '20230101' # 开始日期 end_date = '20230131' # 结束日期 pageviews_data = get_pageviews(page_title, start_date, end_date) print(pageviews_data)
get_pageviews
函数接受页面标题、开始日期、结束日期、访问类型和用户代理作为参数,并构建相应的API请求URL。requests.get
发送HTTP GET请求到Wikimedia的Pageviews API。get_pageviews
函数并打印结果。YYYYMMDD
。_
)代替。通过上述方法,你可以轻松获取指定维基百科页面在特定时间段内的浏览量数据。
小黑屋|Archiver|手机版|粤ICP备12005776号-5|su.sseuu.com
GMT+8, 2025-1-19 18:21 , Processed in 0.033570 second(s), 18 queries .
Powered by Discuz! X3.4 Licensed
© 2001-2013 Comsenz Inc.