Для каждого из сайтов мы имеем:
Входную точку: URL с которого началась попытка выкачки головной страницы.
URL-и цепочки автоматических редиректов, если были редиректы.
Содержание страницы (HTTP-заголовки и HTML-код).
Индексы цитирования (ТИЦ и PR) для каждой страницы (для страниц с редиректами PR определяется для начальной и конечной точек цепочки редиректов).
В соответствии с классификацией ссылок (см. выше), все ссылки делятся на:
По сайту назначения:
Внутренние — ведут на тот же сайт
Родственные тип 0 — ведут на тот же сайт с точностью до префикса www.
Родственные типов 1-2 — ведут на сайт с похожим доменным именем, либо на сайт в цепочке редиректов с исходной головной страницы.
Внешние — ведут на какой-то еще сайт.
По типу текста:
Текстовые — содержат текст между <a>..</a>
Подпись к картинке — содержат текст только в атрибуте ALT в конструкции <a><img></a>
Без текста — нет ни текста, ни атрибута ALT.
По возможности индексации
Индексируемые ссылки
Неиндексируемые — либо внутри <noindex>, либо внутри <script>
По типу ссылки
На WWW-страницы (http:// и https://)
Прочие ссылки (mailto, ftp и т.п.).
Среди всех 48-ми вариантов нас более всего интересуют Внешние-Текстовые-Индексируемые, ибо это основной вид продаваемых ссылок.
Степень разнообразия внешних ссылок
Введем понятие степени разнообразия внешних ссылок как отношение количества разных сайтов на которые ведут ссылки к количеству внешних ссылок. Достаточно очевидно, что для платных ссылок степень разнообразия будет велика, ведь покупатели независимы, а сайты у них разные. Наоборот, для проектов поддержки какой-либо партнерской программы степень разнообразия будет мала — все ссылки ведут на разные разделы поддерживаемого сайта.