Парсинг на php это просто

Недавно нашел в интернете прекрасный парсер, который позволит вам вытаскивать элементы html без знания регулярных выражений. Элементы страницы выбираются так же как в CSS.

Скачиваете парсер

Распаковываете в папку  где должен лежать скрипт парсера, заходите в папку мануал и открываете файл index.html. Функционала больше чем достаточно. Лично я делал карту сайта и мне нужно было выбирать ссылки:

 

// подключаете главный файл
include_once('simple_html_dom.php');

// получаете в $html содержание страницы
$html = file_get_html('http://mysite.com/');

// и дальше используя метод find находите любые элементы

$html->find('#exempl'); // вернет див  exempl
$html->find('.exempl');  // Вернет элемент с классом exempl
$html->find('a[class=link]');  // вернет ссылку с класcом link


// Я получал список ссылок так:

include_once('simple_html_dom.php');
$html = file_get_html('http://mysite.com/');

 foreach($html->find('a') as $element)
    {
    $link =  $element->href;
        if(!empty($link))
        {
            
            echo "$link Ok ";
        }
    }


 

Добавить комментарий


Защитный код
Обновить