Поисковым системам не дано осуществлять обработку графических изображений. Они могут понимать лишь HTML теги и слова, находящиеся в текстовых документах с расширением .htm, .html, .pdf, .doc, .rtf и еще нескольких.
Задачей поисковых систем во время индексации страниц является составление ее краткого текстового образа. В дальнейшем для того, чтобы осуществить расчет соответствия страницы пользовательскому запросу будет использован не полный текст страницы, а ее краткий образ, задачей которого является выделение наиболее важных слов и фраз документа, наиболее точно отражающих его смысл. Если бы поисковые системы стали обрабатывать во время поиска страниц их первоначальный вид, они не смогли бы успеть обработать тысячи страниц, находящихся в их базе. Ответ на свой запрос пользователь ждал бы не несколько секунд, а гораздо дольше.
Алгоритм, при помощи котоого выделяются такие фрагменты прост. Он сделан в соответствии с естественными, общепринятыми правилами оформления текстов. Самым важныим в тексте является название статьи и заголовок статьи. Также действует и поисковый робот — самое важное значение он придает тем словам, которые используются в заголовках страниц (в теге «Title») и в названии домена (Domain) или адреса (URL) страницы.
Более важное значение, в сравнении с остальной частью текста, поисковики придают словам, которые выделены болдом (тег «STRONG»), курсивом (тег «I») или размером (теги «H1»… «H6»). Поэтому заголовки и подзаголовки текста, а также наиболее важные из слов в тексте нужно размещать в из этих тегах. Особо значимы для поисковых систем слова, которые помещены в мета тег «Description», так как в этом теге находится описание вашего сайта, которое выводится на экран после названия страницы в ответ на пользовательский запрос. Тем не менее, такое правило поддерживается не всеми поисковыми системами. Другой важный мета тег – это мета тег «Keywords», хотя в настоящее время его вес значительно понизился вследствии того, что вэб-мастера злоупотребляли им, поисковики используют его все реже.
Во время составления образа страницы поисковый робот подсчитывает плотность всех находящихся на странице слов. Причем тем словам, которые встречаются на странице чаще, дается больший вес. И наконец, поисковики выделяют все слова, которые представляют из себя гиперссылки.