SEO для Чайников - страница 5

стр.


формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжирования в виде сложного механизма с большим количеством ручек. На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов.


3. Google


3.1. Основные сведения о Google


Если представить все в максимально упрощенном виде, то веб-поиск можно сравнить с просмотром огромной книги, имеющей очень длинное оглавление, в котором подробно указано, где что находится. Когда вы выполняете поиск Google, наши программы проверяют индекс с целью определить наиболее релевантные результаты поиска, которые вы получаете.


3.1.1 Сканирование


Сканирование – это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.


Google использует огромную сеть компьютеров, чтобы извлечь (или "просканировать") содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.


Процесс сканирования Google начинается со списка URL веб-страниц, созданного на основе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновленные сайты, а также неработающие ссылки.


3.1.2 Индексирование


Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, обрабатываются данные из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.


3.1.3 Предоставление результатов


Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдает наиболее релевантные результаты. Релевантность определяется различными факторами. Один из них – это рейтинг PageRank для конкретной страницы. PageRank является показателем "важности" страницы и определяется на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу вашего сайта с другого сайта увеличивает PageRank вашего сайта. Не все ссылки равноценны. Google непрерывно совершенствуем алгоритмы оценки ссылок, чтобы отсеивать спам и другие данные, негативно влияющие на качество результатов поиска. Наибольший вес имеют ссылки, размещение которых связано с качеством содержания вашего сайта.


Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт.


3.2. Архитектура Google


По данным Comscore, за два последних месяца 2012 года этот поисковик обработал 114,7 млрд запросов — это соответствует 65,2% мирового рынка поиска. Показатели ближайшего конкурента, китайского Baidu, в восемь раз меньше. Да что там говорить, у психологов даже специальный термин есть — Google Effect: современным людям, оказывается, проще не запоминать факты, а в нужный момент отыскать их в интернете.


Такая популярность означает, что размеры поискового индекса Google не просто огромны: они трудновообразимы. Не все осознают, что когда мы вводим в поисковую строку насущный для нас запрос, то обращаемся к одному из самых крупных хранилищ данных в мире. Ещё поразительнее другое: для того чтобы отыскать в петабайтах информации ответ на наш запрос, Google хватает доли секунды.