[辅助下载] 人民日报pdf电子版下载器v1.0.0
作者:CC下载站 日期:2024-03-17 10:48:20 浏览:44 分类:上传下载
这个是人民日报的官方电子版地址,可以在网页中查看。本软件只是方便下载到本地查看,只默认下载当日的报纸。
使用python语言编写,pyinstaller打包为exe程序,无任何添加后台功能,提供浏览和其他处理,开源python初学者代码,以供学习测试。
蓝奏云:https://www.lanzoub.com/ir67w1r5rx6f 密码:e5fn
使用方法:打开软件,选择目录,点击下载,你选择的目录就是下载保存的路径。
杀毒检测:因为打包安装超过了腾讯哈勃上传30M的限制,无法检测,使用火绒杀毒未发现风险。
python开源,以供学习。
[Python]
import os import PyPDF2 import random import time from urllib.parse import urljoin import re import requests from lxml import etree import shutil url = "http://paper.people.com.cn/rmrb/paperindex.htm" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0" } resp_init = requests.get(url, headers=headers) resp_init.encoding = "UTF-8" resp_content = resp_init.text resp_init.close() skip_url = re.compile(r'HTTP-EQUIV="REFRESH".*?URL=(?P<skip_url>.*?)"></head>', re.S) obj_list = skip_url.finditer(resp_content) for element in obj_list: ul = element.group("skip_url") skip_url = urljoin(url, ul) print(skip_url) resp_index = requests.get(skip_url, headers=headers) resp_index.encoding = "UTF-8" tree = etree.HTML(resp_index.text) resp_index.close() pdf_name = tree.xpath("//*[@id='main']/div[2]/div[1]/p[1]/text()")[0].strip().replace("\r\n", "") pdf_name = re.sub(r'\s+', ' ', pdf_name) print(pdf_name) pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) print(download_pdf_href) hrefs = tree.xpath("//*[@id='main']/div[2]/div[2]/div/div/a/@href") def save_pdf(download_path, pdf_href, pdf_detail_name): resp_download_pdf = requests.get(pdf_href, headers=headers) resp_download_pdf.close() # 创建文件夹,不存在就创建 path = f"{download_path}/temp_file" if not os.path.exists(path): os.mkdir(rf"{download_path}/temp_file") with open(f"{download_path}/temp_file/{pdf_detail_name}", mode="wb") as f: f.write(resp_download_pdf.content) print(f"{pdf_detail_name} 下载完成") def init_download(download_path): for href in hrefs: detail_page = urljoin(skip_url, href) resp_detail = requests.get(detail_page, headers=headers) resp_detail.encoding = "UTF-8" tree = etree.HTML(resp_detail.text) resp_detail.close() pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) pdf_detail_name = pdf_href.split("/")[-1] num = random.randint(1, 5) print(f"{detail_page}, {pdf_detail_name}, 随机暂停时间:{num}秒") save_pdf(download_path, download_pdf_href, pdf_detail_name) time.sleep(num) def merge_pdfs(file_list, output): pdf_merger = PyPDF2.PdfMerger() for file in file_list: with open(file, 'rb') as f: pdf_merger.append(f) with open(output, 'wb') as f: pdf_merger.write(f) if __name__ == '__main__': dir_path = "C:/Users/it/Desktop/人民日报" init_download(dir_path) # 获取文件夹下pdf文件 pdf_lst = [f for f in os.listdir(f"{dir_path}/temp_file") if f.endswith('.pdf')] # 合成绝对路径 file_list = [os.path.join(f"{dir_path}/temp_file", filename) for filename in pdf_lst] print(file_list) output = f'{dir_path}/{pdf_name}.pdf' merge_pdfs(file_list, output) if os.path.exists(f"{dir_path}/temp_file"): shutil.rmtree(f"{dir_path}/temp_file") print(f"下载已完成:{output}")
猜你还喜欢
- 09-02 [相声] 德云社郭德纲相声合集(2014—2017 年)
- 12-09 [相声评书] 分享喜马拉雅郭德纲相声评书《郭论》三季和《谦道》两季
- 08-04 [相声] 《郭德纲大话刘罗锅全集》100集
- 07-08 [有声小说] [合集][MP3]郭德纲单口相声合集 3.5G
- 06-01 [相声] 郭德纲于谦2018美国纽约站相声专场,确实不一样~
- 05-15 [相声小品] 郭德纲相声专辑240+个高音质音频资源度盘,耳朵有福了
- 02-19 [脱口秀] 郭论-郭德纲品俗文化史【更新至157集】
- 02-09 [相声]《郭德纲剧场压轴大作实录》
- 03-07 [德云社][郭德纲相声专场][新加坡站][WEB-MP4/2.74G][1080P]
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[电影] 2024年英国爱情片《血爱成河》BD中英双字
[课程] 爆款视频前三秒如何设计50招_短视频运营婧姐
[电影] 2007年美国经典惊悚片《十三罗汉》蓝光中英双字
[游戏娱乐] 《辐射4次世代版》v1.10.980中文版
[影视推荐] 果断收藏!全球恐怖新片,这15部最强
[小说] 《江南作品全集》
[绘画] 油画棒原创作品【绽放】图文教程来咯~
[电影] 2024年国产奇幻片《画皮:情灭》HD国语中字
[电影] 2024年美国动画片《正义联盟:无限地球危机(下)》HD中英双字
[电影] 2004年美国经典惊悚片《十二罗汉》蓝光国英双语中英双字
[资料] [大学期末救急课] 猴博士+高斯课堂+斐多课堂,全集视频合集
[云资源] 价值2万元的老男孩Python教程
[书库] 史上最全摄影书推荐(附700本PDF版打包下载)
[云资源] 花了一千多元买的私人健身教程
[下载工具] Internet Download Manager 6.42.7 (IDM)
[影视] 灌篮高手 WEB-DL版下载/Slam Dunk/スラムダンク/灌篮高手:THE FIRST/灌篮高手电影版 2022 The First Slam Dunk 61.35G
[即时通讯] 腾讯QQ PC版9.7.22.29315去广告绿色纯净版
[开发环境] PhpStorm2023中文激活版v2023.3.3 正式版
[资料] 3000 套电影电视剧 LOGO 宣传片常用音效合集包
[安卓软件] 酷我音乐APP_v10.7.6.4 去广告破解豪华VIP版
[云资源] 价值2万元的老男孩Python教程
[影视] 灌篮高手 WEB-DL版下载/Slam Dunk/スラムダンク/灌篮高手:THE FIRST/灌篮高手电影版 2022 The First Slam Dunk 61.35G
[云资源] 花了一千多元买的私人健身教程
[书库] 史上最全摄影书推荐(附700本PDF版打包下载)
[动画] 北斗神拳(1984) [两季合集] [MKV]
[资料] 抗战阵亡将士资料+续编
[电视剧] 三体 (2024) 全8集 网飞版本 中文字幕 合集
[影视] 三大队 WEB-DL版下载/Endless Journey/请转告局长,三大队任务完成了 2023 三大队 6.7G
[纪录片] 河西走廊【10集 国语 中文字幕 1080P 10.8G MP4】
[安卓软件] OfficeSuite中文版APP v14.2.50872.0破解版
- 最新评论
-
我想看看mw2ddyy 评论于:04-26 好东西阿zfy123123 评论于:04-18 谢谢楼主xiaoqi 评论于:04-12 勿在线解压,勿手机解压,请在电脑上用最新款压缩软件解压!推荐360压缩或者好压CC下载站 评论于:04-10 无法解压啊,客服能不能给个解压教程ravengrey 评论于:04-10 谢谢支持!!CC下载站 评论于:03-26 很棒的资源,感谢分享云体风身 评论于:03-26 感谢分享,好东西云体风身 评论于:03-26 谢谢支持!CC下载站 评论于:03-14 央视精品,感谢付出提供。qwer9009 评论于:03-14
- 热门tag