Фото. Парсинг

    Парсинг фото отличается от парсинга текстов. Текст описания или названия товара представляет собой сплошной участок из кода веб-страницы, а фото (ссылки на фото) могут отстоять друг от друга на значительные расстояния.

    Поэтому используются т.н. "ключевые слова".

    Ключевое слово - это текст в коде веб-страницы, отстоящий от ссылки на фото не более, чем на 500 байт.

    В качестве ключевого слова нельзя использовать часть ссылки: href, http, jpg, src... Ссылка может быть активной, не активной, полной или относительной.

    Ключевое слово может располагаться, как перед ссылкой на фото так и после нее. Например:

    Здесь, ключевое слово class="thumbnail" расположено перед ссылкой на фото.

    В таком случае, спарсить первое фото можно следующим образом:

    Номер вхождения ключевого слова class="thumbnail" - первый, а ссылка находится правее ключевого слова. Этот факт обозначается, как  >1 (правее первого вхождения ключевого слова).

    Поскольку ключевое слово class="thumbnail" находится перед каждым фото на этой странице, а всего на странице 4 фото, то чтобы спарсить их все, нужно использовать такие настройки:

    class="thumbnail",class="thumbnail",class="thumbnail",class="thumbnail"

    >1,>2,>3,>4

    Использование текстов "начала,конца" парсинга.

    Фото из предыдущего примера можно было парсить по ключевым словам <li. Но тексты <li встречаются на странице очень часто - перед фото, а также и после фото.

    Тексты "начала,конца" парсинга показывают плагину, какую часть страницы нужно вырезать, чтобы потом, в этой части страницы искать ключевые слова <li

    В данном случае, можно использовать тексты: class="thumbnails">,</ul> (подчеркнуты красной линией)

    usergio Copyright © 2023