[Python] 2021年度全国统计用区划代码和城乡划数据抓取
作者:CC下载站 日期:2022-01-13 00:00:00 浏览:56 分类:编程开发
2021年中国省份及城市及街道数据抓取(未包括我国台湾省、香港特别行政区和澳门特别行政区)
# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
"""
-------------------------------------------------
@ Author :Lan
@ Blog :www.lanol.cn
@ Date : 2022/1/12
@ Description:I'm in charge of my Code
-------------------------------------------------
"""
import time
import requests
import parsel
base_url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/'
provinceText = requests.get(base_url + 'index.html')
provinceText.encoding = 'utf-8'
provinceHtml = parsel.Selector(provinceText.text)
china = {}
# 获取所有省份,并进行遍历
for province in provinceHtml.xpath('//td/a'):
provinceName = province.xpath('text()').extract_first()
print(provinceName)
china[provinceName] = {}
provinceUrl = base_url + province.xpath([email protected]').extract_first().replace('.html', '/')
cityText = requests.get(base_url + province.xpath([email protected]').extract_first())
cityText.encoding = 'utf-8'
cityHtml = parsel.Selector(cityText.text)
# 获取省份下的市
for city in cityHtml.xpath("//tr[@class='citytr']/td[2]"):
cityName = city.xpath('a/text()').extract_first()
print(provinceName, cityName)
china[provinceName][cityName] = {}
countyText = requests.get(base_url + city.xpath([email protected]').extract_first())
countyText.encoding = 'utf-8'
countyHtml = parsel.Selector(countyText.text)
# 获取市区下的区
for county in countyHtml.xpath("//tr[@class='countytr']/td[2]//*"):
countyName = county.xpath('text()').extract_first()
print(provinceName, cityName, countyName)
china[provinceName][cityName][countyName] = {}
townUrl = provinceUrl + county.xpath([email protected]').extract_first() if county.xpath([email protected]') else None
if townUrl:
try:
townText = requests.get(townUrl, timeout=2)
except:
townText = requests.get(townUrl, timeout=2)
townText.encoding = 'utf-8'
townHtml = parsel.Selector(townText.text)
# 获取区下面的镇
towns = townHtml.xpath("//tr[@class='towntr']/td[2]//text()").extract()
print(provinceName, cityName, countyName, towns)
china[provinceName][cityName][countyName] = towns
print(china)
猜你还喜欢
- 03-29 [编程相关] Winform窗体圆角以及描边完美解决方案
- 03-29 [前端问题] has been blocked by CORS policy跨域问题解决
- 03-29 [编程相关] GitHub Actions 入门教程
- 03-29 [编程探讨] CSS Grid 网格布局教程
- 10-12 [编程相关] python实现文件夹所有文件编码从GBK转为UTF8
- 10-11 [编程算法] opencv之霍夫变换:圆
- 10-11 [编程算法] OpenCV Camshift算法+目标跟踪源码
- 10-11 [Python] python 创建 Telnet 客户端
- 10-11 [编程相关] Python 基于 Yolov8 + CPU 实现物体检测
- 03-15 [脚本工具] 使用go语言开发自动化脚本 - 一键定场、抢购、预约、捡漏
- 01-08 [编程技术] 秒杀面试官系列 - Redis zset底层是怎么实现的
- 01-05 [编程技术] 《Redis设计与实现》pdf
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[课程] Kali安全渗透+Web白帽子高级工程师+黑客攻防 - 带源码课件
[课程] 最用心全面的VIP硬笔书法课程(共250课完结) 手把手教 附可打印控笔素材
[MV] 韩国女团MV398首[打包]
[电影] 2023年美国喜剧片《问题专家》HD中英双字
[电影] 1999年美国经典传记片《十月的天空》蓝光中英双字
[影视] 破墓 WEB-DL版下载/Exhuma/The Unearthed Grave 2024 파묘 6.61G
[影视] 问题专家 WEB-DL版下载/大麻烦家(台) 2023 Problemista 18.2G
[短剧] 10部午夜小短剧 擦边剧
[电影] 2022年日本7.0分科幻片《疯狂星期一》BD日语中字
[电影] 2024年英国爱情片《血爱成河》BD中英双字
[资料] [大学期末救急课] 猴博士+高斯课堂+斐多课堂,全集视频合集
[云资源] 价值2万元的老男孩Python教程
[书库] 史上最全摄影书推荐(附700本PDF版打包下载)
[云资源] 花了一千多元买的私人健身教程
[下载工具] Internet Download Manager 6.42.7 (IDM)
[影视] 灌篮高手 WEB-DL版下载/Slam Dunk/スラムダンク/灌篮高手:THE FIRST/灌篮高手电影版 2022 The First Slam Dunk 61.35G
[即时通讯] 腾讯QQ PC版9.7.22.29315去广告绿色纯净版
[开发环境] PhpStorm2023中文激活版v2023.3.3 正式版
[资料] 3000 套电影电视剧 LOGO 宣传片常用音效合集包
[安卓软件] 酷我音乐APP_v10.7.6.4 去广告破解豪华VIP版
[云资源] 价值2万元的老男孩Python教程
[影视] 灌篮高手 WEB-DL版下载/Slam Dunk/スラムダンク/灌篮高手:THE FIRST/灌篮高手电影版 2022 The First Slam Dunk 61.35G
[云资源] 花了一千多元买的私人健身教程
[书库] 史上最全摄影书推荐(附700本PDF版打包下载)
[动画] 北斗神拳(1984) [两季合集] [MKV]
[资料] 抗战阵亡将士资料+续编
[电视剧] 三体 (2024) 全8集 网飞版本 中文字幕 合集
[影视] 三大队 WEB-DL版下载/Endless Journey/请转告局长,三大队任务完成了 2023 三大队 6.7G
[纪录片] 河西走廊【10集 国语 中文字幕 1080P 10.8G MP4】
[安卓软件] OfficeSuite中文版APP v14.2.50872.0破解版
- 最新评论
-
我想看看mw2ddyy 评论于:04-26 好东西阿zfy123123 评论于:04-18 谢谢楼主xiaoqi 评论于:04-12 勿在线解压,勿手机解压,请在电脑上用最新款压缩软件解压!推荐360压缩或者好压CC下载站 评论于:04-10 无法解压啊,客服能不能给个解压教程ravengrey 评论于:04-10 谢谢支持!!CC下载站 评论于:03-26 很棒的资源,感谢分享云体风身 评论于:03-26 感谢分享,好东西云体风身 评论于:03-26 谢谢支持!CC下载站 评论于:03-14 央视精品,感谢付出提供。qwer9009 评论于:03-14
- 热门tag