Недавно нашел в интернете прекрасный парсер, который позволит вам вытаскивать элементы html без знания регулярных выражений. Элементы страницы выбираются так же как в CSS.
Распаковываете в папку где должен лежать скрипт парсера, заходите в папку мануал и открываете файл index.html. Функционала больше чем достаточно. Лично я делал карту сайта и мне нужно было выбирать ссылки:
// подключаете главный файл
include_once('simple_html_dom.php');
// получаете в $html содержание страницы
$html = file_get_html('http://mysite.com/');
// и дальше используя метод find находите любые элементы
$html->find('#exempl'); // вернет див exempl
$html->find('.exempl'); // Вернет элемент с классом exempl
$html->find('a[class=link]'); // вернет ссылку с класcом link
// Я получал список ссылок так:
include_once('simple_html_dom.php');
$html = file_get_html('http://mysite.com/');
foreach($html->find('a') as $element)
{
$link = $element->href;
if(!empty($link))
{
echo "$link Ok ";
}
}