Эффективный поиск в Интернете
В этой инструкции по поиску в Интернете Вы узнаете:
- как эффективней и быстрей искать в Интернете;
- как правильно сделать запрос информации;
- как сужать и расширять запросы;
- что такое индексация сайта и ее особенности;
- чем каталоги лучше и хуже поисковых систем;
- адреса поисковых систем и их синтаксис.
Объем информации даже в Русском Интернете занимает сотни гигабайт на тысячах серверах, расположенных не только на территории России, но и в Европе, США, Украине, и т.д. На первый взгляд здесь можно найти что угодно, однако когда дело доходит до поиска, то сразу же появляются проблемы.
Для начала рассмотрим поисковые системы и каталоги
RAMBLER.ru
Хорошая поисковая система, но игнорирует знаки препинания и цифры в теле запроса.
APORT.ru
В отличие от RAMBLER воспринимает любые символы в теле запроса, как и RAMBLER игнорирует предлоги в запросе.
YANDEX.ru
Самая большая поисковая система в России по количеству ресурсов, но не самая популярная.
YAHOO.com
Самый большой в мире каталог ресурсов Интернет, но имеет не совсем удачную реализацию поиска по каталогу.
LIST.ru
Популярный Российский каталог ресурсов.
GOOGLE.ru
Самая популярная поисковая система в мире.
- С чего начать поиск?
Поиск надо начать с определения ключевых слов. Например, нас интересует адрес фирмы, которая бы нам продала и смонтировала отопительный котел средней мощности, например, фирмы Mora. Поскольку мы находимся в Екатеринбурге, то нас интересует именно фирмы в Екатеринбурге.
Получаем следующие ключевые слова:
Отопительный котел Mora, Екатеринбург.
'Отопительный котел' - именно так это должно быть написано в прайс-листе на сайте. Если, например, там написано 'Продажа отопительных котлов', то поисковая система нам покажет и этот сайт, так как все современные поисковые системы имеют средства лексического разбора запросов.
'Mora' - фирма-производитель. Тоже обычно содержится в прайс-листах на сайте.
Заметьте, 'средней мощности' мы не пишем, если точно не знаем. Если мы это укажем, то при строго заданном запросе поисковая система, скорей всего, не найдет ни одного сайта с таким содержанием, потому, что редко в прайс-листах используют такие заголовки. Ведь обычно прайс-листы содержат в .ZIP файлах, которые недоступны для поиска. А вот краткий перечень продукции и фирм-производителей приводят все.
'Екатеринбург' - местоположение. Обычно, адрес всегда указывается на сайте, поэтому это тоже необходимо использовать, чтобы поисковик не выдал в списке всех Российских продавцов данного товара.
- Осталось просто ввести ключевые слова в строку поиска и нажать на Enter?
- Можно, но результат будет не самым эффективным.
- Почему?
- Потому что по умолчанию поисковик настроен на максимальные возможности поиска и без использования синтаксиса поисковая система выдаст все сайты, где находится хотя бы одно из указанных слов.
- Но ведь это обычно работает!
- Да, но: Во-первых следует отметить, что алгоритм построения списка очень сложный, то есть сортировка происходит по заданному сценарию. Обычно в начало выносятся сайты с максимальным количеством совпадающих слов. То есть, при определенных условиях вперед может попасть страница с 25 словосочетаниями 'Отопительный котел' и 10 словосочетаниями 'Mora', а страница, содержащая все слова запроса может оказаться в середине списка из 25000 страниц и у Вас не хватит терпения до нее дойти. Во-вторых, в таком гигантском списке Вам все равно не выбрать все подходящие сайты - результат поиска придется сужать.
- Понятно. Как тогда мне правильно создать запрос?
- Использовать возможности синтаксиса.
Синтаксис у разных поисковых систем немного отличается, но ненамного.
1. Поисковая система не чувствительная к регистру текста запроса, до тех пор, пока Вы не поставите первую букву заглавной. Например, на запрос 'урал' Вы получите список всех страниц, которые содержат слова с указанным сочетанием букв в любом регистре (например: 'Урал', Уралмаш', 'уральские'), на запрос 'Урал' получите страницы, слова на которых начинаются с 'Урал' (например: 'Уралмаш').
2. Если запрос поставить в двойные кавычки, то поисковая система будет искать указанное словосочетание или только те страницы, где присутствуют все указанные в кавычках слова, а не хотя бы одно из указанных, как по умолчанию. Причем обычно, даже ищется только точное совпадение (без описанного выше лексического разбора).
3. В запросах можно использовать круглые скобки и булеву логику (OR, AND, NOT или соответственно символы '|',' &', '!'), например: ((Урал OR Cибирь) NOT Екатеринбург) - надет все страницы с содержанием слов 'Урал' или 'Сибирь', но не содержащих слово 'Екатеринбург'.
4. Можно использовать специальные символы '*' и '?' для замены части слова или буквы в слове соответственно (как в MS-DOS).
Более сложные конструкции поиска уже зависят от системы. Более подробную инструкцию по каждой системе Вы найдете в конце статьи.
У нас получился следующий запрос:
Отопительный AND котел AND mora AND Екатеринбург
Обратите внимание, что mora - с маленькой буквы. Это потому, что возможно написание 'MORA' - многие пишут такие имена полностью заглавными буквами.
- Что делать, если даже на такой запрос много подходящих страниц?
Если на запрос поисковая система Вам все равно выдает список и сотен и тысяч страниц, - сужайте поиск дальше. Для данного примера можно попробовать использовать в качестве дополнительных условий тип котла по виду топлива и числу контуров. То есть можно попробовать ввести следующий запрос:
Отопительный AND котел AND газовый AND mora AND Екатеринбург AND монтаж
- А если наоборот - ни одной страницы не найдено?
Если ни одной страницы не найдено, тогда можно попробовать перефразировать запрос, проверить орфографию в запросе и расширить условия поиска - принцип, думаю, Вы поняли.
- Мы пробовали - не помогает. Как быть?
Если все же поиском Вы ничего не нашли, то можете попробовать аналогичный запрос в другой поисковой системе. Возможно, что не все страницы нужного Вам сайта проиндексированы, и поиск на них невозможен.
- Что значит 'проиндексирован', и почему может помочь поиск в другой системе?
Во первых, для поиска доступны только страницы, которые были специально добавлены или же найдены по ссылкам с уже известных поисковой системе страниц. Все найденные страницы обрабатываются специальной программой, которую обычно называют роботом. Этот робот индексирует страницу, то есть создает ее некий уникальный образ, который обычно содержит такие параметры страницы как адрес страницы, слова, название страницы, дата последней обработки страницы роботом, тэги и верхнюю часть страницы (ее фрагмент).
От сюда следует, что не все страницы в Интернете могут быть найдены и тем более проиндексированы. Так как алгоритмы поиска новых страниц и индексации у разных поисковиков отличается, то поиск в разных системах даст разный результат. Страницы, добавленные недавно, а также изменения внесенные в них могут быть некоторое время недоступны. А если вебмастер не постарался, то новые страницы, возможно, вообще никто и никогда не найдет. Индексация страниц проходит с различными интервалами - от одного дня до месяца и более. Интервал индексации зависит от количества страниц на сайте, настроек страниц, местоположения на сайте и от самой поисковой системы.
- Ладно, что насчет каталогов?
Обычно все каталоги доступны для поиска из поисковых систем, но здесь информации будет явно меньше чем на конечных сайтах, так как содержат только их краткое описание. Обычно каталоги содержат собственные поисковые системы, но поиск осуществляется только внутри самого каталога. Каталоги удобны тем, что они содержат уже упорядоченную систему. И например, для нашего запроса можно войти в каталог и пройти по следующему пути:
Предприятия ->
Строительство ->
Отопительное оборудование ->
Свердловская область.
И там Вы найдете, хоть и не все, адреса сайтов с кратким описанием. По этой причине лучше пользоваться большими или местными каталогами. Еще одна проблема каталогов - у них нет общих стандартов и найти местоположение нужного раздела может оказаться более сложным, чем поиск в поисковой системе.
- Это все, что нужно знать?
Самое главное, о чем стоит помнить всегда, это терпение - на поиск надо время. И не забывайте, что в Интернете есть далеко не все - иногда ту же книгу дешевле купить в обычном магазине, чем занимать выделенную линию для поиска и перекачивания. Для успешного поиска нужен опыт - у меня это стало хорошо получаться только после первых 100 часов работы в Интернете.
Дополнение от 03.10.2001
Синстаксис поисковых систем
|
Cинтаксис языка запросов (строгий поиск)
Поиск в элементах
Примечания: |
|
Язык запросов Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга). Однако знание и правильное применение языка запросов поисковой машины поможет сделать Ваш поиск на Рамблере быстрым и эффективным. Регистр В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание. Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский". Операторы Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки. Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу 'собака AND кошка' найдутся только те документы, которые содержат и слово 'собака', и слово 'кошка'. Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу 'собака OR кошка' найдутся документы, в которых есть хотя бы одно из слов 'собака' или 'кошка' (либо оба эти слова вместе). Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу 'собака NOT кошка' будут все документы, в которых есть слово 'собака' и нет слова 'кошка'. Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос 'информация технологии кредит' будет истолкован как 'информация AND технологии AND кредит'. На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно). Каждый из операторов имеет сокращенное обозначение:
Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок. Кавычки Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе. Скобки При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Метасимволы Рамблер пока не поддерживает поиск строк с использованием метасимволов ('*', '?'), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно. Тем не менее, эти операторы зарезервированы для подобного использования в будущем. Применение языка запросов Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Морфология По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Рамблер понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова. Например, при поиске по слову 'человек' будут также найдены документы, содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске. Стоп-слова Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске. Ограничение расстояния Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу 'красная армия' будут найдены те документы, в которых слова 'красная' и 'армия' хотя бы один раз встретятся менее чем в 40 словах друг от друга. Значение ограничения контекста можно изменять конструкцией '(число, запрос)', где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу '(2, красная армия)' найдутся только те документы, в которых между словами 'красная' и 'армия' хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1) Ненайденные слова Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика. См. также: |
Еще можно посмотреть:
- Подробнее о Студии Бурусова
- Отзывы о нас
- Примеры работ
- Продвижение сайтов и интернет-реклама
- Аудит и юзабилити тестирование сайтов
- Регистрация доменов, парковка и поддержка
- Хостинг сайта