16 мая 2003 г.
Дополнения к алгоритму, лежащему в основе поискового механизма Google, могут радикально повысить его производительность.
Технология назначения приоритетов индексированным вэб-страницам, в основе которой лежит алгоритм PageRank, является одной из ключевых составляющих движка Google, позволяющих этой поисковой системе возвращать по запросу наиболее релевантные результаты. На вычисление PageRank для трех миллиардов вэб-страниц уходит несколько дней, а составление каждого тематического индекса, который бы выдавал наиболее точные результаты в данной области, √ еще больше.
Значительно повысить скорость работы PageRank и создать реальную перспективу для тематических индексов Google могут три дополнения к алгоритму, разработанные учеными Стэнфордского университета. Первое, названное BlockRank, создает предварительные приоритетные индексы страниц каждого сайта, которые затем используются в качестве входных данных для общего индекса PageRank. По словам разработчиков, это позволяет в три раза повысить общую скорость работы алгоритма.
Второй метод √ Adaptive PageRank √ по ходу составления индекса отсекает "участие" страниц с низкими приоритетами в общем процессе вычисления PageRank. Таким образом алгоритм уделяет больше "внимания" вэб-страницам с высокими приоритетами, что позволяет увеличить скорость его работы на 50 %.
Третье дополнение к PageRank объединяет ряд методов экстраполяции, которые дают возможность алгоритму "видеть" структуру ссылок в Сети в упрощенном виде. Получаемые таким образом данные, разумеется, не являются абсолютно достоверными, но близки к реальным и повышают производительность PageRank от 50 % до 300 % в зависимости от заданного уровня достоверности.
|