Рубрики

Как работает рейтинг в поиске Google!

Сначала вы можете прочитать: Как работает поиск Google!

Давайте теперь посмотрим на некоторые важные термины:
Поисковая система: программа, которая ищет и идентифицирует элементы в базе данных, которые соответствуют ключевым словам или символам, указанным пользователем, особенно используемым для поиска определенных сайтов в World Wide Web.
Пример: поисковая система Google, Yahoo, Bing и т. Д.

Индекс поисковой системы. Индекс поисковой системы — это база данных, которая соотносит ключевые слова и веб-сайты, чтобы поисковая система могла отображать веб-сайты, соответствующие поисковому запросу пользователя.
Например, если пользователь ищет скорость бега Гепарда, то программный паук ищет эти термины в индексе поисковой системы.

Веб-сканер: первое, что вам нужно понять, это что такое веб-сканер или паук и как он работает. Паук поисковой системы (также известный как сканер, робот, поисковый робот или просто бот) — это программа, которую большинство поисковых систем используют для поиска новых новостей в Интернете. Сканер Google известен как GoogleBot. Программа начинается с веб-сайта и следует за каждой гиперссылкой на каждой странице.
Таким образом, можно сказать, что все в Интернете будет в конечном итоге найдено и распространено, так как так называемый «паук» переползает с одного сайта на другой. Когда веб-сканер заходит на одну из ваших страниц, он загружает содержимое сайта в базу данных. После того, как страница была выбрана, текст вашей страницы загружается в индекс поисковой системы, который представляет собой массивную базу данных слов, и где они встречаются на разных веб-страницах.

Файл Robots.txt: сканеры сканируют несколько веб-сайтов без одобрения. Поэтому каждый веб-сайт содержит файл robots.txt, в котором содержатся инструкции для паука (сканера веб-страниц), по каким частям сайта нужно индексировать, а какие — игнорировать.

Алгоритм PageRank

PageRank работает путем подсчета количества и качества ссылок на страницу, чтобы определить приблизительную оценку важности веб-страницы. Когда веб-сканер просматривает каждый веб-сайт, он переходит по всем ссылкам на веб-сайте и проверяет, сколько ссылок связано с каждым сайтом. И затем он присваивает процент каждой веб-странице, которая представляет важность веб-страницы с использованием алгоритма рейтинга страницы. Например, если есть три веб-страницы с именами A, B и C. Предположим, если количество ссылок, которые соединяются с B, с пяти веб-страниц, которые имеют меньший процент, и на веб-страницу C есть ссылка с A, которая имеет более высокий процент, так как ссылка на C происходит с важной страницы и, следовательно, C имеет более высокое значение, чем B.


Изображение выше адаптировано из Википедии .

PageRank на графике URL-адресов — это распределение вероятностей, используемое для представления вероятности того, что человек, случайно щелкнув по ссылкам, попадет на какую-либо конкретную страницу.

Таким образом, есть три основных этапа процедуры сканирования в Интернете. Сначала поисковый робот начинает с сканирования страниц вашего сайта. Затем он продолжает индексировать слова и содержание сайта и, наконец, посещает ссылки (адреса веб-страниц или URL-адреса), которые находятся на вашем сайте.

Важность «robots.txt»

Первое, что должен делать паук, когда он посещает ваш сайт, затем он ищет файл с именем «robots.txt». Этот файл содержит инструкции для паука, какие части веб-сайта нужно индексировать, а какие — игнорировать. Единственный способ контролировать то, что видит паук на вашем сайте, — использовать файл robots.txt. Предполагается, что все пауки следуют некоторым правилам, и основные поисковые системы по большей части следуют этим правилам. К счастью, основные поисковые системы, такие как Google или Bing, наконец-то работают вместе над стандартами.

При поиске паук выполняет поиск по индексу, чтобы найти каждую страницу, содержащую эти поисковые термины. В этом случае он находит сотни или тысячи страниц, и Google решает, какие из нескольких документов действительно нужны, задавая вопросы, более 200 из которых, например:

  • Сколько раз страница содержит это ключевое слово?
  • Слова появляются в заголовке, в URL, непосредственно рядом?
  • На странице есть синонимы для этих слов?
  • Эта страница — качественный сайт или низкое качество?

А затем он выбирает сотни веб-страниц и оценивает их важность с помощью алгоритма PageRank, который определяет, сколько внешних ссылок указывают на него и насколько важны эти ссылки? Наконец, он объединяет все эти факторы для получения общего балла каждой страницы и отправки результатов поиска примерно через полсекунды после отправки запроса.

Каждая страница содержит заголовок, URL-адрес, фрагмент текста, который необходимо решить — это конкретная страница, которую мы ищем. И если не имеет значения, он также отображает похожие запросы внизу страницы.
Статьи по Теме:

Важные ссылки:

Эта статья предоставлена Брахмани Саи . Если вы как GeeksforGeeks и хотели бы внести свой вклад, вы также можете написать статью с помощью contribute.geeksforgeeks.org или по почте статьи contribute@geeksforgeeks.org. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

Пожалуйста, пишите комментарии, если вы обнаружите что-то неправильное или вы хотите поделиться дополнительной информацией по обсуждаемой выше теме.

Рекомендуемые посты:

Как работает рейтинг в поиске Google!

0.00 (0%) 0 votes