分享
  1. 首页
  2. 文章

爬虫2 headless chrome

nil_ddea · · 1712 次点击 · · 开始浏览
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

Headless Chrome 是 Chrome 浏览器的无界面形态,使用命令行的形式替代GUI,可以使用GUI模式下Chrome的功能。一般情况下用于自动调试,也可以用作爬虫。Headless Chrome下的爬虫可以完全的模拟普通用户在Chrome中操作的行为,适用于一些需要执行js的操作。

使用

mac中使用Headless Chrome需要先安装Chrome

# 访问https://www.sina.com.cn/并输出html到标准输出
chrome --headless --dump-dom https://www.sina.com.cn/
# 访问https://www.sina.com.cn/ 截图保存
chrome --headless --screenshot https://www.sina.com.cn/

通过以上的截图可以看出 chrome已经加载了所有的js,也就是说dump-dom的输出也是渲染后的dom,可以用于爬一些动态渲染的页面。

DevTools协议

使用 --remote-debugging-port=9222 参数时,Chrome会启动一个支持 DevTools协议的实例。该协议用于与 Chrome 进行通信,并且驱动 Headless Chrome 浏览器实例,可用于应用程序的远程调试。
golang的chromedp实现了与DevTools协议的交互。

chromedp

使用chromedp可以实现复杂的操作,例如鼠标点击事件。

func main() {
 ctx, cancel := chromedp.NewContext(
 context.Background(),
 )
 defer cancel()
 var example string
 err := chromedp.Run(ctx,
 // 导航到https://www.sina.com.cn/ 
 chromedp.Navigate(`https://www.sina.com.cn/`),
 // 等待body > footer元素渲染完成
 chromedp.WaitVisible(`body > footer`),
 // 点击指定的元素
 chromedp.Click(`/html/body/div[6]/div/div[1]/form/div[1]/h3`, chromedp.NodeVisible),
 )
 if err != nil {
 log.Fatal(err)
 }
}

有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:nil_ddea

查看原文:爬虫2 headless chrome

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

关注微信
1712 次点击
添加一条新回复 (您需要 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传

用户登录

没有账号?注册
(追記) (追記ここまで)

今日阅读排行

    加载中
(追記) (追記ここまで)

一周阅读排行

    加载中

关注我

  • 扫码关注领全套学习资料 关注微信公众号
  • 加入 QQ 群:
    • 192706294(已满)
    • 731990104(已满)
    • 798786647(已满)
    • 729884609(已满)
    • 977810755(已满)
    • 815126783(已满)
    • 812540095(已满)
    • 1006366459(已满)
    • 692541889

  • 关注微信公众号
  • 加入微信群:liuxiaoyan-s,备注入群
  • 也欢迎加入知识星球 Go粉丝们(免费)

给该专栏投稿 写篇新文章

每篇文章有总共有 5 次投稿机会

收入到我管理的专栏 新建专栏