You are hereИндексирование

Индексирование


By Soft - Posted on 07 декабря 2010

Индексирование - процесс описания документов и запросов в терминах информационно-поискового языка. По результатам индексирования каждому документу назначается набор ключевых слов, отражающих его смысловое содержание.

Индексирование применяется для облегчения поиска необходимого текста среди множества других. Проводится индексирование как целого документа, так и его части.

Алгоритм определения ключевых слов зависит от поисковой системы, статьи, ссылки, документы, также могут индексироваться изображения и т. д. Наример, в Yandex существуют некоторые ограничения на типы индексируемых данных (java скрипты, flash файлы). Большое количество cgi-параметров в URL, большое количество повторяющихся вложенных директорий и слишком большая общая длина URL может привести к ухудшению индексирования документов. Для индексирования важен размер документа — документы больше 10Мб не индексируются.Flash индексируется, если он не встроен в HTML и страница передается с HTTP-заголовком, содержащим Content-Type: application/x-shockwave-flash; индексируются файлы *.swf, если на них есть прямая ссылка. В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется. Яндекс корректно индексирует документы в формате Open Office XML и OpenDocument (в частности, документы Microsoft Office и Open Office). Но следует учитывать, что внедрение поддержки новых форматов может занимать некоторое время.

Что касается Google,то робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, где именно на странице они находятся. Кроме того, обрабатываются данные из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.

Для управления индексацией (например, запрета индексации той или иной страницы) используется файл robots.txt и такие директивы как Disallow, Allow, User-agent, Crawl-delay и другие. Также, для управления индексацией применяют теги и , закрывающие содержимое сайта от роботов Яндекса и Google соответственно (Yahoo использует тег ).

Сейчас на сайте

Сейчас на сайте 0 пользователей и 46 гостей.

Последние комментарии