分享
  1. 首页
  2. 文章

golang:xpath选择器"htmlquery"简单用法

aside section._1OhGeD · · 29124 次点击 · · 开始浏览
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

在做爬虫时,经常要用到html解析器提取数据,Python里面有神器lxml,go里面可以选择htmlquery或者goquery。其中htmlquery使用xpath选择器,goquery使用css选择器。就使用体验来说,htmlquery更方便一些,这儿主要介绍htmlquery的一些基本用法。

htmlquery是用于HTML的XPath数据提取库,可让通过XPath表达式从HTML文档中提取数据,使用起来很简单方便。xpath语法见https://www.w3school.com.cn/xpath/xpath_syntax.asp

htmlquery安装:

go get github.com/antchfx/htmlquery

经常使用到的函数有:
func Parse(r io.Reader) (*html.Node, error):
返回给定Reader的HTML的解析树。
func Find(top *html.Node, expr string) []*html.Node:
搜索与指定XPath表达式匹配的html.Node。
func FindOne(top *html.Node, expr string) *html.Node:
搜索与指定XPath 表达式匹配的html.Node,并返回匹配的html.Node的第一个元素。可以简单理解为FindOne = Find[0]
func InnerText(n *html.Node) string:
返回对象的开始和结束标记之间的文本。
func SelectAttr(n *html.Node, name string) (val string):
返回指定名称的属性值。
func OutputHTML(n *html.Node, self bool) string:
返回包含标签名称的文本。

最后以爬取https://www.kuaidaili.com/free/网站代理为例,演示htmlquery的用法:

package main
import (
 "fmt"
 htmlquery "github.com/antchfx/xquery/html"
 "io/ioutil"
 "log"
 "net/http"
 "strings"
 "time"
)
func main() {
 urlTemplate := "https://www.kuaidaili.com/free/inha/%d/"
 var proxies []string
 for i := 1; i < 4; i++ {
 html := getHtml(fmt.Sprintf(urlTemplate, i))
 root, _ := htmlquery.Parse(strings.NewReader(html))
 tr := htmlquery.Find(root, "//*[@id='list']/table/tbody/tr")
 for _, row := range tr {
 item := htmlquery.Find(row, "./td")
 ip := htmlquery.InnerText(item[0])
 port := htmlquery.InnerText(item[1])
 //type_ := htmlquery.InnerText(item[3])
 p := ip + ":" + port
 proxies = append(proxies, p)
 }
 time.Sleep(3 * time.Second)
 }
 fmt.Println(len(proxies), proxies[0:5])
}
func getHtml(url_ string) string {
 req, _ := http.NewRequest("GET", url_, nil)
 req.Header.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3776.0 Safari/537.36")
 client := &http.Client{Timeout: time.Second * 5}
 resp, err := client.Do(req)
 if err != nil {
 log.Fatalln(err)
 }
 defer resp.Body.Close()
 data, err := ioutil.ReadAll(resp.Body)
 if err != nil && data == nil {
 log.Fatalln(err)
 }
 return fmt.Sprintf("%s", data)
}
>go run demo.go
45 [182.34.36.64:9999 113.124.93.135:9999 117.90.252.100:9000 171.15.51.71:9999 1.198.110.34:9999]

有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:aside section._1OhGeD

查看原文:golang:xpath选择器"htmlquery"简单用法

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

关注微信
29124 次点击
2 回复 | 直到 2021年12月02日 13:21:03
暂无回复
添加一条新回复 (您需要 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传

用户登录

没有账号?注册
(追記) (追記ここまで)

今日阅读排行

    加载中
(追記) (追記ここまで)

一周阅读排行

    加载中

关注我

  • 扫码关注领全套学习资料 关注微信公众号
  • 加入 QQ 群:
    • 192706294(已满)
    • 731990104(已满)
    • 798786647(已满)
    • 729884609(已满)
    • 977810755(已满)
    • 815126783(已满)
    • 812540095(已满)
    • 1006366459(已满)
    • 692541889

  • 关注微信公众号
  • 加入微信群:liuxiaoyan-s,备注入群
  • 也欢迎加入知识星球 Go粉丝们(免费)

给该专栏投稿 写篇新文章

每篇文章有总共有 5 次投稿机会

收入到我管理的专栏 新建专栏