FAIL (the browser should render some flash content, not this).
VACSEOПоисковые системы → Апорт (Aport)

Апорт (Aport)

поиск информации

Поисковая система Апорт является одной из популярных поисковых машин российского Интернета. Апорт позволяет пользователям осуществлять полнотекстовый поиск документов c учетом морфологии русского языка в запросах. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Техническая база и программное обеспечение Апорта постоянно совершенствуются, что ведет к наращиванию объема поисковой базы и обеспечению высокой частоты индексации русскоязычных ресурсов Интернета. Разнообразные специализированные поиски (Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Рунете каталогов интернет-ресурсов "Апорт-каталог".

Как устроена поисковая машина
1. САЙТЫ

Многие поисковые системы сегодня, так или иначе, оперируют понятием сайта, но подразумевают под этим просто адрес сервера типа www.server.com. В этом случае адрес сайта определяется из адреса страницы простым отрезанием хвоста: из http://www.server.com/users/~vasya получается сайт www.server.com. Для больших серверов, где размещены сайты множества фирм или людей, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения того, какая группа страниц является логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, информация о сайтах в котором вводится человеком, а потому гораздо точнее, чем то, что дает любой автоматический алгоритм (специальные алгоритмы тоже используются, но только, если сайт не зарегистрирован в каталоге).

2. ДОКУМЕНТЫ

Апорт дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной из наиболее релевантных найденных на сайте страниц (7): адрес, заголовок, дата и цитата из документа (8). Важно, что цитаты выбираются из полного текста документа и содержат слова запроса.

Также имеется ссылка на реконструкцию полного текста документа (9). Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.)

Если нужно получить информацию о всех остальных страницах, которые Апорт нашел на сайте, то можно воспользоваться ссылкой (12), которая замыкает блок результатов. По этой ссылке выдается дополнительное окно, в котором отображаются результаты поиска только по данному сайту. Они состоят из блоков данных по отдельным страницам.

3. СОРТИРОВКА

Общие принципы

Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, из-за большой неоднородности ранжируемых документов и из-за попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию “мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами: неоднородностью ссылочной структуры и ее сознательным искажением спамерами.

Ещё одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами.

Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учёту максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию).

Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов.

Критерии ранжирования

Апорт применяет следующие критерии при ранжировании документов:

частота и взаимное расположение слов запроса в тексте документа;
размер документа;
присутствие и взаимное расположение слов запроса в выделенном (размером шрифта или html-тегами < b >, < strong >, < h1 >...< h6 >) тексте;
присутствие и расположение слов запроса в заголовке документа;
присутствие и расположение слов запроса в мета-тегах "keywords" и "description";
присутствие и расположение слов запроса в ссылках на ранжируемый документ и авторитетность этих ссылок;
присутствие и взаимное расположение слов запроса в названии и описании сайта в каталоге Апорта (учитывается при вычислении веса главной страницы сайта);
взвешенный индекс цитирования документа;
количество страниц сайта, имеющих высокую релевантность запросу.
Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев.

Частотные характеристики

Учитывается как абсолютная, так и относительная частота слова в тексте документа.

И для той и для другой величины существуют пороговые значения, после достижения которых дальнейшее увеличение частоты не влияет на вес документа. Для небольших документов, размер которых (в словах) меньше заданной константы, относительная частота рассчитывается не от их фактического размера, а от этой константы.

В заголовке, мета-тегах, а также в названии и описании сайта из каталога частота слов не учитывается.

Ссылочное ранжирование

Алгоритмы ссылочного ранжирования в Апорте учитывают не более одной ссылки с каждого домена второго уровня для отдельного запроса (то есть, для разных запросов могут учитываться разные ссылки).

Вес каждой ссылки зависит (помимо ее текста) от взвешенного индекса цитирования ссылающейся страницы.

Взвешенный индекс цитирования

Алгоритм вычисления взвешенного индекса цитируемости является модификацией классического алгоритма PageRank. В качестве одной из наиболее существенных особенностей следует отметить, что учитывается не более одной ссылки на документ с каждого домена второго уровня.

Индексом цитирования сайта считается взвешенный индекс цитирования страницы, самый высокий среди всех страниц сайта (в большинстве случаев это бывает взвешенный индекс цитирования главной страницы сайта).

Мета-теги "keywords" и description"

Ключевые слова (meta keywords) учитываются Апортом даже в случае их отсутствия в тексте документа. Индексируется не более 16 ключевых слов для каждого документа. Мета-тег description также учитывается при ранжировании, однако, в большинстве случаев, имеет очень небольшой вес.

Yahoo
Yahoo! (NASDAQ: YHOO) — американская компания, предоставляющая ряд сер ...

ВебАльта (Webalta)
Открытое акционерное общество «Вебальта» — российская IT-компания. Осн ...

Источник: http://www.iskati.com


© VAC-Visual.ru, 2009-2012.