Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

githubniko/ParserHTML-by-NiKO

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

28 Commits

Repository files navigation

ParserHTML by NiKO

Парсер создавался для скрабинка карточек товаров с веб-сайтов.

Например нужно спарсить карточку товара

Есть HTML веб-страница:

<html>
 <head>
 <title>Title page</title>
 <meta charset="UTF-8">
 </head>
 <body>
 <h1 class="name" data-name="Header">Header H1</h1>
 <h2>Header H2.1</h2>
 <h2>Header H2.2</h2>
 <span data-type="type1">Product description text</span>
 <span class="price" elem="USD">99ドル</span>
 <div id="product-gallery" value="1">
 <a href="img1.jpg"><img src="img1.jpg" alt="Image 1" /></a>
 <a href="img2.jpg"><img src="img2.jpg" alt="Image 2" /></a>
 <a href="img3.jpg"><img src="img3.jpg" alt="Image 3" /></a>
 </div>
 </body>
</html>

Задаем шаблон для парсинга:

<template>
	<h1 class="name" data-name="$data-name">$Head1</h1>
	<h2>$Head2</h2>
	<span elem="$Сurrency">$Price</span>
	<span data-type="$Type">$Description</span>
	<div id="product-gallery" value="$product_gallery">
		<a href="$Img"></a>
	</div>
</template>

${var} -- название переменной, в которую будет занесен результат.

Пример кода

result = ParserHTML(template, html_contents)
print(result.get())

Результат


Массив данных

{'Head1': ['Header H1'], 'Head2': [['Header H2.1'], ['Header H2.2']], 'Price': ['99ドル'], 'Сurrency': 'USD', 'Description': ['Product description text'], 'Type': 'type1', 'product_gallery': '1', 'Img': ['img1.jpg', 'img2.jpg', 'img3.jpg']}

Обновление 2021年11月16日

Группировка, если задать атрибут group="имя группы". Если не заданно, тое именем будет тег узла Если установить атрибут nogroup, то из группы будет взята только первая группа значений

About

Парсер для скрабинка карточек товаров с веб-сайтов.

Resources

Stars

Watchers

Forks

Contributors

Languages

AltStyle によって変換されたページ (->オリジナル) /