分享
  1. 首页
  2. 文章

golang爬取豆瓣电影TOP250(下载图片)

冻龄大叔 · · 2995 次点击 · · 开始浏览
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

打开豆瓣电影TOP250,打算爬取电影的四个信息,豆瓣排名,图片,评分,电影名。

clipboard.png
所以先定义个结构体

type Movie struct {
 Num string
 Url string
 Star string
 Name string
}

注意豆瓣电影的网址,是有规律的:

clipboard.png

每一页start分别为0,25,50.....
所以在主函数里面加个循环:

func main(){
 t1 := time.Now()
 for i := 0; i < 11; i++ {
 url := fmt.Sprintf("https://movie.douban.com/top250?start=%v&filter=", i*25)
 fmt.Printf("整在爬取第%v页",i+1)
 res := getResponse(url)//定义的获取html的函数
 DownloadImg(res)// 下载图片的函数
 }
 elapsed := time.Since(t1)
 fmt.Println("总共用时: ", elapsed)
}

爬虫第一步,获取html网页进行解析,安装goquery

gopm -g -v github.com/PuerkitoBio/goquery
func getResponse(url string) []Movie{ 
 content,err:= goquery.NewDocument(url)
 if err != nil{
 panic(err)
 }
 return ParseResponse(content)//
}
func ParseResponse(doc *goquery.Document) (pages []Movie) {
 doc.Find("div.item").Each(func(i int, s *goquery.Selection) {
 img,_ :=s.Find("img").Attr("src")
 num:=s.Find("em").Text()
 star:=s.Find("span.rating_num").Text()
 name,_:=s.Find("img").Attr("alt")
 pages = append(pages, Movie{
 Num: num,
 Url: img,
 Star: star,
 Name: name,
 })
 })
 return pages
}

这里把ParseResponse函数作为返回值,把处理后的Movie切片返回。处理网页用到goquery的Find匹配网页元素。

clipboard.png

查看网页的元素代码,看到这几个需要获取的信息都在<div class="item>中,所以先循环获取item:

doc.Find("div.item").Each(func(i int, s *goquery.Selection)

打印出来大概就是这样的:

[.....{26 https://img3.doubanio.com/vie... 9.2 乱世佳人} {27 https://img3.doubanio.com/vie... 9.1 蝙蝠侠:黑暗骑士}....]

最后一步下载图片,把图片url和图片名称传给GetImg方法。

func GetImg(url string , name string) {
 res, _ := http.Get(url)
 file_name := imgpath + "\\" + name + ".jpg" //拼接图片路径
 file, _ := os.Create(file_name)
 io.Copy(file, res.Body)
}

clipboard.png
网速比较慢,测了几次都是10s多一点。

clipboard.png

完整代码点这里


参考文档:
golang goquery selector(选择器) 示例大全
Golang爬虫 爬取豆瓣电影Top250


有疑问加站长微信联系(非本文作者)

本文来自:Segmentfault

感谢作者:冻龄大叔

查看原文:golang爬取豆瓣电影TOP250(下载图片)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

关注微信
2995 次点击
暂无回复
添加一条新回复 (您需要 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传

用户登录

没有账号?注册
(追記) (追記ここまで)

今日阅读排行

    加载中
(追記) (追記ここまで)

一周阅读排行

    加载中

关注我

  • 扫码关注领全套学习资料 关注微信公众号
  • 加入 QQ 群:
    • 192706294(已满)
    • 731990104(已满)
    • 798786647(已满)
    • 729884609(已满)
    • 977810755(已满)
    • 815126783(已满)
    • 812540095(已满)
    • 1006366459(已满)
    • 692541889

  • 关注微信公众号
  • 加入微信群:liuxiaoyan-s,备注入群
  • 也欢迎加入知识星球 Go粉丝们(免费)

给该专栏投稿 写篇新文章

每篇文章有总共有 5 次投稿机会

收入到我管理的专栏 新建专栏