如何导出一个公众号上的所有文章?

声明:本文只做个人学习,请尊重作者隐私和版权。

公众号是获取信息的重要渠道,特别是小众但真诚分享的作者,文章质量非常高。当找到这些作者时,我会查看他们写过的所有文章。但一篇篇打开干扰注意力,有时在飞机上没网也无法查看。于是我把所有文章全部保存到本地查看。

有的作者原创文章3-4百篇文章,一篇篇保存并不现实。

那怎么办呢?

第一种方法是使用这个开源项目,背后的原理是,微信公众号内可以搜索文章。

https://github.com/jooooock/wechat-article-exporter

使用前需要注册微信公众号,注册登录后,直接输入公众号名称即可解析。

界面上可以选择导出的时间、是否原创等,你可以选择导出为excel、“打包下载”。其中,“打包下载”包含HTML+图片。

image-20241109134925633

打包下载的文件,是HTML+图片格式的。我用Claude写了一个脚本,转为PDF。并且合并在一个PDF中。

image-20241109135637421

当文章数量太多时,打包下载非常慢。

于是,我在Claude等帮助下,写了个脚本获取文章原文。

第一步,先“导出excel”。

image-20241109135947362

第二步,使用以下代码爬取excel中的链接,将文章转为Markdown、PDF等你想要的形式。

第三步,把所有文章合并在一个文件中。下面是合并到pdf中。

相关项目

导出公众号文章:https://github.com/jooooock/wechat-article-exporter

使用RSS订阅公众号文章:https://github.com/cooderl/wewe-rss