Оригинальный алгоритм расчета PageRank был разработан создателями Google Лоуренсом Пэйджем и Сергеем Брином. Алгоритм выглядит следующим образом:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
PR(A) - PageRank страницы A, PR(Ti) - PageRank страницы Ti, которая ссылается на страницу A, C(Ti) - количество внешних ссылок страницы Ti (линков, ссылающихся на другие сайта), d - коэффициент дампа, лежащий в промежутке от 0 до 1.
PageRank не классифицирует веб узлы как единое целое, а определяется для каждой страницы отдельно. Чем меньшее число внешних ссылок, рассположенных на страницы Ti, тем больший вес они имеют.
d - коэффициент дампа (смягчающий коэффициент), определяющий вероятность того, что случайных пользователь, посетивший страницу Ti перейдет по внешней ссылке на страницу A (как правило, случайная величина).
Существует также другой алгоритм расчета PageRank:
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
где N - общее число всех страниц Интернета. Данный алгоритм не расходится в корне с предоженным ранее. (1-d) / N - это математическое ожидание, определяющее вероятность перехода пользователя сайта Ti на страницу А.
Алгоритм расчета PageRank Рассмотрим пример расчета PageRank для страниц A, B и C. При этом страница А ссылается на страницу B, B ссылается на страницу C, а страницы А и C - ссылаются друг на другу (например, при обмене ссылками).
Согласно алгоритму Пейджа и Брина, коэффициент смягчения d обычно устанавливается 0.85, но для более простого расчета установим его как 0.5.
Расчитаем PageRank для страниц:
PR(A)= 0.5 + 0.5 PR(C) PR(B)= 0.5 + 0.5 (PR(A)/ 2) PR(C)= 0.5 + 0.5 (PR(A)/ 2 + PR(B))
Решаем полученное уравнение и получаем:
PR(A)= 14/13 = 1.07692308 PR(B)= 10/13 = 0.76923077 PR(C)= 15/13 = 1.15384615
Очевидно, что сумма PageRank страниц равна трем, что полностью совпадает с количеством страниц.
|