sswjzx/patent_download_python

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
spider-patent.py		spider-patent.py

Repository files navigation

title	date	tags
spider-patent	2016年09月30日 19:58:59 -0700

专利爬虫-中科院知识产权

标签(空格分隔): 爬虫

本科毕设是关于专利分析,因为需要语料库,所以只能编写爬虫程序下载专利文件进行分析.参考博文:糗事百科爬虫分析

爬虫程序构成

使用说明 Usage

输入要下载专利的关键字:xx
将所有相关专利下载于文件夹:xx_result

变量声明

 self.content=content #下载专利的关键字
 self.count=0 #number of pdf downloaded/已经下载好专利的数目
 self.page = 1 #the searching page are visiting/正在访问的页码数
 self.pagenumber=0# numeber of the searching page/总共的页码数
 self.pages = [] # 得到的存放着还没有下载的专利详情页url
 self.enable = False #当为true,表示下载结束

模块说明

def GetPage(self,page)

page为搜索结果的页码数,获取指定页码数的搜索结果网页并返回html网页中所专利的详情页url的list
def LoadPage(self):

加载搜索结果页面,直至遍历了所有搜索结果的页码
def ShowPage(self,nowPage):

打印专利编号,并按照编号规则将专利分为 发明专利 和 其他专利 只下载发明专利
def SavePage(self,nowPage):

获得专利标识符后,构造专利下载url,并叫下载超时或者下载文件过小的错包丢弃.
def Getdownload(self,list):

从专利详情页中获取专利的下载url的标识符

如:[u'/sipo_doc_01/201504/CN201410259207.0/combine/CN201410259207.0.pdf']

def Getpagenumber(self):

返回搜索页面的总页码数
def down(self):

从self.pages中获取专利详情页,并下载专利,当同时满足以下两个条件时返回:
- 已经遍历了所有搜索页面
- pages为空
def Start(self):

1个线程获取专利下载地址
5个线程下载专利

mark:os.mkdir() permision deny http://www.cnblogs.com/mecca/p/3717891.html print os.getcwd()+'/'+content.decode('utf-8')+'_result/'+sName urllib.urlretrieve(url, os.getcwd()+'/'+content.decode('utf-8')+'_result/'+sName) 绝对路径与编码

About

爬虫

www.casip.ac.cn/

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

sswjzx/patent_download_python

Folders and files

Latest commit

History

Repository files navigation

专利爬虫-中科院知识产权

爬虫程序构成

使用说明 Usage

变量声明

模块说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

sswjzx/patent_download_python

Folders and files

Latest commit

History

Repository files navigation

专利爬虫-中科院知识产权

爬虫程序构成

使用说明 Usage

变量声明

模块说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages