Scrapy
Cet article est une ébauche concernant l’informatique.
Cet article ne cite pas suffisamment ses sources ().
Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».
En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?Scrapy est un framework open-source permettant la création de robots d'indexation. Développé en Python, il dispose d'une forte communauté, offrant de nombreux modules supplémentaires. La première version stable est publiée en [3] . Le framework dispose d'une communauté active, et un support commercial est effectué par plusieurs entreprises[4] .
Caractéristiques
[modifier | modifier le code ]L'équipe responsable du développement du framework lui confère plusieurs caractéristiques[5] :
- Simple : aucune notion avancée en Python n'est nécessaire pour utiliser Scrapy
- Productif : l'empreinte de code à générer est très courte, la plupart des opérations sont gérées par Scrapy
- Rapide : le framework est rapide, avec une gestion d'actions en parallèle notamment
- Extensible : chaque robot peut être personnalisés via des extensions, modifiant son comportement
- Portable : les robots Scrapy sont compatibles Linux, Windows, Mac et BSD
- Open Source
- Robuste, grâce à une batterie de tests effectuées aussi bien par les développeurs que la communauté
Exemple de robot
[modifier | modifier le code ]Le site web du projet propose un tutoriel détaillé sur l'utilisation de Scrapy[6] . Ce cours propose notamment plusieurs exemples, comme celui ci-contre, extrayant certains liens présents sur plusieurs pages web.
fromscrapy.spiderimport BaseSpider fromscrapy.selectorimport HtmlXPathSelector fromtutorial.itemsimport DmozItem classDmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] defparse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') items = [] for site in sites: item = DmozItem() item['title'] = site.select('a/text()').extract() item['link'] = site.select('a/@href').extract() item['desc'] = site.select('text()').extract() items.append(item) return items
Notes et références
[modifier | modifier le code ]- ↑ « Release 2.16.0 », (consulté le )
- ↑ https://github.com/scrapy/scrapy/blob/master/LICENSE
- ↑ Scrapy 0.7 release candidate is available!, consulté le 17 août 2012
- ↑ Scrapy Commercial support, consulté le 29 août 2012
- ↑ Scrapy overview, consulté le 17 août 2012
- ↑ Scrapy at a glance
| Implémentation | ||
|---|---|---|
| Framework | ||
| IDE | ||
| Organisations | ||
| Autres | ||
| Python | |||||
|---|---|---|---|---|---|
| PHP | |||||
| Ruby | |||||
| Perl | |||||
| Smalltalk | Seaside | ||||
| JavaScript |
|
||||
| CSS | |||||
| Java | |||||
| .NET | |||||
Bibliothèques Python |
|||||||||
|---|---|---|---|---|---|---|---|---|---|
| Interfaces graphiques | |||||||||
| Bibliothèques scientifiques |
|
||||||||
| Frameworks web | |||||||||
| Articles liés | |||||||||