Loading... 本文不是教如何爬公众号文章,而是已经获取到文章后如何转换成HTML格式 ##### 复制文章链接 ```url https://mp.weixin.qq.com/s/eCUWSQOIbod0-F-QIxxYig ``` ##### 直接请求文章页 ```java Document doc = Jsoup.connect("https://mp.weixin.qq.com/s/eCUWSQOIbod0-F-QIxxYig").get(); //获取文章内容 String content = doc.getElementById("js_content").html(); //然后将文件保存至本地打开 发现图片和视频无法显示,此时需要执行如下操作 content = content.replace("data-src", "src"); content = content.replace("preview.html", "player.html"); ``` ##### 至此 文章就可以正常当做html显示了 ##### 如果还需要头像 公众号名称什么的同样也可以获取出来 ```java String nickName = "var nickname = \"(.*?)\";"; String headImg = "var round_head_img = \"(.*?)\";"; Matcher matcher = Pattern.compile(nickName).matcher(doc.html()); matcher.find(); nickName=matcher.group(1); matcher = Pattern.compile(headImg).matcher(doc.html()); matcher.find(); headImg = matcher.group(1); ``` 对于图片不可引用 防盗链的解决方式 如下 ```html <meta name="referrer" content="never"> <meta name="referrer" content="same-origin"> same-origin :同源发送referrer,不同源不发送referrer ``` 最后修改:2021 年 04 月 11 日 © 允许规范转载 打赏 赞赏作者 微信 赞 0 如果觉得我的文章对你有用,请随意赞赏
此处评论已关闭