Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

慕课网 Python开发简单爬虫 项目源码,添加了模块介绍,使用MarkDown语法输出。

Notifications You must be signed in to change notification settings

woider/BaikeSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

3 Commits

Repository files navigation

BaikeSpider

百度百科数据爬虫

环境

Python 3.6

依赖

pip install beautifulsoup4

结构

文件 模块 描述
spider_main 程序控制模块 程序入口和控制中心
url_manager 链接管理模块 管理链接集合与信息
html_downloader 网页下载模块 根据URL获取HTML源码
html_parser 网页解析模块 根据HTML源码获取数据
html_outputer 数据输出模块 将数据以MD格式存储

启动

python spider_main.py

输出

#百度百科 ##Python##

Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议[1] 。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中[2] 有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。


##跨平台##

跨平台概念是软件开发中一个重要的概念,即不依赖于操作系统,也不依赖硬件环境。一个操作系统下开发的应用,放到另一个操作系统下依然可以运行。相对而言如果某种计算机语言不用修改代码即可做到高度跨平台,那么此语言就越抽象,硬件控制力就越低,只适合开发高度抽象的模型系统。诸如java,delphi和易语言,都已做到了跨平台。它们将可以在多种系统下开发,运行和维护。[1]


##胶水语言##

胶水语言(是用来连接软件组件的程序设计语言,通常是指脚本语言。


##自由软件##

根据自由软件基金会的定义,自由软件是一种可以不受限制地自由使用、复制、研究、修改和分发的软件。可以买卖。这方面的不受限制正是自由软件最重要的本质。要将软件以自由软件的形式发表,通常是让软件以"自由软件授权协议"的方式被分配发布,以及公开的软件原始码。 自由软件对全世界的商业发展有巨大的贡献。自由软件使成千上万的人的日常工作更加便利,为了满足用户的各种应用需要,它以一种不可思议的速度发展。自由软件是信息社会下以开放创新、共同创新为特点的创新2.0模式在软件开发与应用领域的典型体现。主要许可证有GPL和BSD许可证两种。


About

慕课网 Python开发简单爬虫 项目源码,添加了模块介绍,使用MarkDown语法输出。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /