dou2.py · df270464/python-learn

代码拉取完成,页面将自动刷新

扫描微信二维码支付

取消

支付完成

richgiteeai

Watch

不关注关注所有动态仅关注版本发行动态关注但不提醒动态

1 Star 0 Fork 265

df270464/python-learn

forked from mktime/python-learn

代码 Issues 0 Pull Requests 0 Wiki 统计流水线

服务

加入 Gitee

与超过 1400万开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)

免费加入

已有帐号? 立即登录

文件

master

分支 (1)

管理

master

克隆/下载

HTTPS SSH SVN SVN+SSH 下载ZIP

提示

下载代码请复制以下命令到终端执行

为确保你提交的代码身份被 Gitee 正确识别,请执行以下命令完成配置

git config --global user.name userName 
git config --global user.email userEmail

初次使用 SSH 协议进行代码克隆、推送等操作时,需按下述提示完成 SSH 配置

1 生成 RSA 密钥

2 获取 RSA 公钥内容,并配置到 SSH公钥中

在 Gitee 上使用 SVN,请访问使用指南

使用 HTTPS 协议时,命令行会出现如下账号密码验证步骤。基于安全考虑,Gitee 建议配置并使用私人令牌替代登录密码进行克隆、推送等操作

Username for 'https://gitee.com': userName

Password for 'https://userName@gitee.com': # 私人令牌

分支 1

标签 0

python-learn

dou2.py

dou2.py 3.38 KB

#-*- coding: utf-8 -*
#cp936
import urllib
import urllib2
import re
import time
import random

print '#'*50
print '#'*2 + '\t豆瓣小组采集器'
print '#'*50
print '*'*20+'开始采集代理'+'*'*20
f = open('proxy_list.txt','w')
exp1 = re.compile("(?isu)<tr[^>]*>(.*?)</tr>")
exp2 = re.compile("(?isu)<td[^>]*>(.*?)</td>")
proxy_ua = {'User-Agent':'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36'}
proxyHtml = urllib2.Request(url="http://www.site-digger.com/html/articles/20110516/proxieslist.html",headers=proxy_ua)
proxySocket = urllib2.urlopen(proxyHtml)
htmlSource = proxySocket.read()
for row in exp1.findall(htmlSource):
 for col in exp2.findall(row)[:1]:
 f.write(col+'\n')
f.close()

print '*'*20+'代理采集完成'+'*'*20
##########################################################################################3
print '#'*50
print '#'*2 + '\t肾虚公子 亲情制作'
print '#'*2 + '\t主页: Douban.miaowu.asia'
print '#'*50
print '说明:本程序可以采集豆瓣任何小组的图片.'
print '说明:采集的图片在文件夹Doubanimg内.'
print '注意:代理没有验证,如果不成功请重新运行.'
print '#'*50

f0=open('proxy_list.txt','r')
dat0=f0.readlines()
f0.close()
proxy_SJ = random.choice(dat0)

proxy_handler = urllib2.ProxyHandler({'http':'%s'%proxy_SJ})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)

#img_LuJ2 = os.path.abspath(img_LuJ)
print '请输入小组代码,默认采集豆瓣害羞组[ID=haixiuzu]'
print '小组ID就是(http://www.douban.com/group/这里的字符/)'
Douban_group = raw_input('请输入小组ID(默认按回车继续):')or 'haixiuzu'
Douban_group_url = 'http://www.douban.com/group/'

def gethtml2(url2):
 Douban_ua = {'User-Agent':'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36'}
 Douban_Html = urllib2.Request(url=(url2),headers=Douban_ua)
 Douban_Socket = urllib2.urlopen(Douban_Html)
 html2 = Douban_Socket.read().decode('utf-8')
 return html2

def gettoimg(html2):
 reg2 = r'http://www.douban.com/group/topic/\d+'
 toplist = re.findall(reg2,html2)
 x = 0
 for topicurl in toplist:
 x+=1
 return topicurl

def download(topic_page):
 reg3 = r'http://img3.douban.com/view/group_topic/large/public/.+\.jpg'
 imglist = re.findall(reg3,topic_page)
 i = 1
 download_img = None
 for imgurl in imglist:
 img_numlist = re.findall(r'p\d{7}',imgurl)
 for img_num in img_numlist:
 download_img = urllib.urlretrieve(imgurl,'Doubanimg/%s.jpg'%img_num)
 time.sleep(1)
 i+=1
 print (imgurl)
 return download_img

print '-'*50
print '请输入采集页码数,默认采集[10]页'
page_end = int(raw_input('输入数字即可(默认按回车继续):')or 10)
print '-'*50
print '正在采集图片中,请您耐心等待,程序可能用较长时间'
print '-'*50
print '如出现错误,请重新运行'
print '-'*50
num_end = page_end*25
num = 0
page_num = 1
while num<=num_end:
 html2 = gethtml2(Douban_group_url+Douban_group+"/discussion?start=%d"%num)
 topicurl = gettoimg(html2)
 topic_page = gethtml2(topicurl)
 download_img=download(topic_page)
 num = page_num*25
 page_num+=1

else:
 print('程序采集完成')
 print '程序采集已经结束感谢您的使用'+'网站:http://Douban.miaowu.asia'

一键复制编辑原始数据按行查看历史

mr.github 提交于 2014年07月17日 19:31 +08:00 . add dou2.py

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101

#-*- coding: utf-8 -*
#cp936
import urllib
import urllib2
import re
import time
import random

print '#'*50
print '#'*2 + '\t豆瓣小组采集器'
print '#'*50
print '*'*20+'开始采集代理'+'*'*20
f = open('proxy_list.txt','w')
exp1 = re.compile("(?isu)<tr[^>]*>(.*?)</tr>")
exp2 = re.compile("(?isu)<td[^>]*>(.*?)</td>")
proxy_ua = {'User-Agent':'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36'}
proxyHtml = urllib2.Request(url="http://www.site-digger.com/html/articles/20110516/proxieslist.html",headers=proxy_ua)
proxySocket = urllib2.urlopen(proxyHtml)
htmlSource = proxySocket.read()
for row in exp1.findall(htmlSource):
 for col in exp2.findall(row)[:1]:
 f.write(col+'\n')
f.close()

print '*'*20+'代理采集完成'+'*'*20
##########################################################################################3
print '#'*50
print '#'*2 + '\t肾虚公子 亲情制作'
print '#'*2 + '\t主页: Douban.miaowu.asia'
print '#'*50
print '说明:本程序可以采集豆瓣任何小组的图片.'
print '说明:采集的图片在文件夹Doubanimg内.'
print '注意:代理没有验证,如果不成功请重新运行.'
print '#'*50

f0=open('proxy_list.txt','r')
dat0=f0.readlines()
f0.close()
proxy_SJ = random.choice(dat0)

proxy_handler = urllib2.ProxyHandler({'http':'%s'%proxy_SJ})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)

#img_LuJ2 = os.path.abspath(img_LuJ)
print '请输入小组代码,默认采集豆瓣害羞组[ID=haixiuzu]'
print '小组ID就是(http://www.douban.com/group/这里的字符/)'
Douban_group = raw_input('请输入小组ID(默认按回车继续):')or 'haixiuzu'
Douban_group_url = 'http://www.douban.com/group/'

def gethtml2(url2):
 Douban_ua = {'User-Agent':'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36'}
 Douban_Html = urllib2.Request(url=(url2),headers=Douban_ua)
 Douban_Socket = urllib2.urlopen(Douban_Html)
 html2 = Douban_Socket.read().decode('utf-8')
 return html2

def gettoimg(html2):
 reg2 = r'http://www.douban.com/group/topic/\d+'
 toplist = re.findall(reg2,html2)
 x = 0
 for topicurl in toplist:
 x+=1
 return topicurl

def download(topic_page):
 reg3 = r'http://img3.douban.com/view/group_topic/large/public/.+\.jpg'
 imglist = re.findall(reg3,topic_page)
 i = 1
 download_img = None
 for imgurl in imglist:
 img_numlist = re.findall(r'p\d{7}',imgurl)
 for img_num in img_numlist:
 download_img = urllib.urlretrieve(imgurl,'Doubanimg/%s.jpg'%img_num)
 time.sleep(1)
 i+=1
 print (imgurl)
 return download_img

print '-'*50
print '请输入采集页码数,默认采集[10]页'
page_end = int(raw_input('输入数字即可(默认按回车继续):')or 10)
print '-'*50
print '正在采集图片中,请您耐心等待,程序可能用较长时间'
print '-'*50
print '如出现错误,请重新运行'
print '-'*50
num_end = page_end*25
num = 0
page_num = 1
while num<=num_end:
 html2 = gethtml2(Douban_group_url+Douban_group+"/discussion?start=%d"%num)
 topicurl = gettoimg(html2)
 topic_page = gethtml2(topicurl)
 download_img=download(topic_page)
 num = page_num*25
 page_num+=1

else:
 print('程序采集完成')
 print '程序采集已经结束感谢您的使用'+'网站:http://Douban.miaowu.asia'

误判申诉

此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。

如您确认内容无涉及不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。

取消

提交

简介

个人AI助理,音频实时监听,GPT对话,opencv获取摄像头视频截图;Python基础编程示例:Excel读写追加处理,XML解析、JSON解析、FLV与MP4转换,PyQT界面应用程序开发示例等,https证书到期检测,糗百爬虫,pdf和图片互相转换,socket使用,百度OCR调用例子,IP及端口快速扫描。

暂无标签

https://gitee.com/mktime

使用 MIT 开源许可协议

0 Stars

1 Watching

265 Forks

取消