Scrapy

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ? ) selon les recommandations des projets correspondants.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (juillet 2022).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Scrapy

Description de l'image Scrapy logo.png.

Informations
Développé par	Pablo Hoffman (d)Voir et modifier les données sur Wikidata
Dernière version	2.16.0 (19 mai 2026)^[1]Voir et modifier les données sur Wikidata
Dépôt	github.com/scrapy/scrapy Voir et modifier les données sur Wikidata
Assurance qualité	Intégration continue Voir et modifier les données sur Wikidata
Écrit en	Python
Système d'exploitation	Microsoft Windows, Linux, macOS et Berkeley Software Distribution Voir et modifier les données sur Wikidata
Environnement	Multi-plateforme
Langues	Anglais
Type	Robot d'indexation
Licence	BSD 3-clauses ^[2]
Site web	www.scrapy.org

modifier - modifier le code - voir Wikidata (aide)

Scrapy est un framework open-source permettant la création de robots d'indexation. Développé en Python, il dispose d'une forte communauté, offrant de nombreux modules supplémentaires. La première version stable est publiée en septembre 2009^[3]. Le framework dispose d'une communauté active, et un support commercial est effectué par plusieurs entreprises^[4].

Caractéristiques

[modifier | modifier le code ]

L'équipe responsable du développement du framework lui confère plusieurs caractéristiques^[5] :

Simple : aucune notion avancée en Python n'est nécessaire pour utiliser Scrapy
Productif : l'empreinte de code à générer est très courte, la plupart des opérations sont gérées par Scrapy
Rapide : le framework est rapide, avec une gestion d'actions en parallèle notamment
Extensible : chaque robot peut être personnalisés via des extensions, modifiant son comportement
Portable : les robots Scrapy sont compatibles Linux, Windows, Mac et BSD
Open Source
Robuste, grâce à une batterie de tests effectuées aussi bien par les développeurs que la communauté

Exemple de robot

[modifier | modifier le code ]

Le site web du projet propose un tutoriel détaillé sur l'utilisation de Scrapy^[6]. Ce cours propose notamment plusieurs exemples, comme celui ci-contre, extrayant certains liens présents sur plusieurs pages web.

fromscrapy.spiderimport BaseSpider
fromscrapy.selectorimport HtmlXPathSelector
fromtutorial.itemsimport DmozItem
classDmozSpider(BaseSpider):
 name = "dmoz"
 allowed_domains = ["dmoz.org"]
 start_urls = [
 "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
 "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
 ]
 defparse(self, response):
 hxs = HtmlXPathSelector(response)
 sites = hxs.select('//ul/li')
 items = []
 for site in sites:
 item = DmozItem()
 item['title'] = site.select('a/text()').extract()
 item['link'] = site.select('a/@href').extract()
 item['desc'] = site.select('text()').extract()
 items.append(item)
 return items

Notes et références

[modifier | modifier le code ]

↑ « Release 2.16.0 », 19 mai 2026 (consulté le 20 mai 2026)
↑ https://github.com/scrapy/scrapy/blob/master/LICENSE
↑ Scrapy 0.7 release candidate is available!, consulté le 17 août 2012
↑ Scrapy Commercial support, consulté le 29 août 2012
↑ Scrapy overview, consulté le 17 août 2012
↑ Scrapy at a glance

v · m Python
Implémentation	CPython IronPython Jython Numba PyPy Shed Skin Stackless Python
Framework	CherryPy Django FastAPI (en) Flask Mako PyObjC (en) Qt PyQt PySide PyGTK Scrapy TurboGears Web2py
IDE	Anjuta IDLE KDevelop Komodo Microsoft Visual Studio PyCharm Spyder Visual Studio Code
Organisations	Python Software Foundation Django Software Foundation Django Girls PyLadies
Autres	Python Software Foundation License Pip Liste de logiciels Python Guido van Rossum PyCon PyPI

v · m

Frameworks web

Python

PHP

Côté serveur	Express.js Meteor
Côté client	Angular AngularJS Backbone.js Cappuccino Dojo Ember.js Ext JS Meteor MooTools Prototype qooxdoo React script.aculo.us YUI Vue.js Svelte

CSS

Java

.NET

v · m

Bibliothèques Python

Interfaces graphiques

Bibliothèques scientifiques

Mathématiques et science des données	Matplotlib NumPy Pandas SciPy SymPy
Apprentissage automatique	JAX Keras PyTorch scikit-learn TensorFlow
Traitement d'images	Python Imaging Library scikit-image
Traitement automatique des langues	Natural Language Toolkit SpaCy

Frameworks web