分享
  1. 首页
  2. 文章

Go 爬虫:如何获取 js 文件中固定的内容?

沙漠中的猴 · · 2762 次点击 · · 开始浏览
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

简介

我想爬豆瓣电影的分类,网址是https://movie.douban.com/tag/。发现调用接口,返回的数据并没有我所需要的内容。

我自己看了一下接口调用,发现这些分类竟然是在app.js的二维数组固定写死的。

妹的,这就尴尬了,我岂不是要等待浏览器渲染完之后再匹配我想要的数据?

查查Go有没有库可以模拟浏览器的操作。发现了一个chromedp。于是查找了一些资料,学习了一下。

github地址

仓库地址:https://github.com/chromedp/chromedp
例子地址:https://github.com/chromedp/examples

参考的文档:
https://deepzz.com/post/golang-context-package-notes.html
https://www.cnblogs.com/apocelipes/p/9264673.html
https://codeday.me/news/20170529/20419.html

代码

获取豆瓣网站的电影分类。

// Command text is a chromedp example demonstrating how to extract text from a
// specific element.
package main
import (
 "context"
 "fmt"
 "log"
 "os"
 "regexp"
 "time"
 "github.com/chromedp/chromedp"
 "github.com/chromedp/chromedp/runner"
)
func text(res *string) chromedp.Tasks {
 return chromedp.Tasks{
 // 访问页面
 chromedp.Navigate(`https://movie.douban.com/tag/`),
 // 等待列表渲染
 chromedp.Sleep(5 * time.Second),
 // 获取获取服务列表HTML
 chromedp.OuterHTML("#content", res, chromedp.ByID),
 }
}
func main() {
 ctx, cancel := context.WithCancel(context.Background())
 defer cancel()
 // 创建 chrome 实例
 cdp, err := chromedp.New(ctx, chromedp.WithLog(log.Printf))
 if err != nil {
 log.Fatal(err)
 }
 var res string
 //执行调用
 err = cdp.Run(ctx, text(&res))
 if err != nil {
 log.Fatal(err)
 }
 // 调用 Shutdown
 err = cdp.Shutdown(ctx)
 if err != nil {
 log.Fatal(err)
 }
 // 等待 chrome 结束
 err = cdp.Wait()
 if err != nil {
 log.Fatal(err)
 }
 // 正则匹配所要的内容
 pattern := `class="tag">(.*?)</span>`
 rp2 := regexp.MustCompile(pattern)
 data := rp2.FindAllStringSubmatch(res, -1)
 // 创建一个 txt 文件,写入获取的内容
 f, err := os.Create("fenlei.txt")
 if err != nil {
 log.Fatalln(err)
 }
 // 关闭 f
 defer f.Close()
 // 遍历切片,获取需要的内容,并写入 txt 文件
 for i := 0; i < len(data); i++ {
 fmt.Println(data[i][1])
 f.WriteString(data[i][1] + "\n")
 }
}

有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:沙漠中的猴

查看原文:Go 爬虫:如何获取 js 文件中固定的内容?

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

关注微信
2762 次点击
暂无回复
添加一条新回复 (您需要 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传

用户登录

没有账号?注册
(追記) (追記ここまで)

今日阅读排行

    加载中
(追記) (追記ここまで)

一周阅读排行

    加载中

关注我

  • 扫码关注领全套学习资料 关注微信公众号
  • 加入 QQ 群:
    • 192706294(已满)
    • 731990104(已满)
    • 798786647(已满)
    • 729884609(已满)
    • 977810755(已满)
    • 815126783(已满)
    • 812540095(已满)
    • 1006366459(已满)
    • 692541889

  • 关注微信公众号
  • 加入微信群:liuxiaoyan-s,备注入群
  • 也欢迎加入知识星球 Go粉丝们(免费)

给该专栏投稿 写篇新文章

每篇文章有总共有 5 次投稿机会

收入到我管理的专栏 新建专栏