Интернет-разведка. Руководство к действию - Страница 10
[Star Wars Episode I], —
то результат будет следующий:
Результаты 1 – 10 из примерно 13 200 000 для Star Wars Episode I.
В том числе в выдаче появятся слова
«Episode II», «Episode IV» и т. п.
Если сделать запрос:
[Star Wars Episode +I], —
то результат будет такой:
Результаты 1 – 10 из примерно 9 290 000 для Star Wars Episode +I.
И в него войдут только тексты, содержащие слово «Episode I».
8. Морфология слов.
Гугл не поддерживает морфологию слов. Их изначально следует вводить в нужных формах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы проверить утверждение об отсутствии поддержки морфологии, возьмем такое языковое сочетание, по которому можно увидеть все без исключения результаты. А сочетание следующее: «Глоклая куздра».
Тест:
Запрос:
[глоклая куздра]
Результаты 1–4 из примерно 16 для глоклая куздра.
В выдаче три адреса:
1. www.flame.ws/txt/index.php/t737.html
2. www.dom.no/modules.php?name=Forums&file=viewtopic&p=31986&highlight=
3. www.gb.anekdot.ru/vm.html?file=vm&date=1998-08-07
Запрос:
[глоклую куздру]
Результаты 1–1 из 1 для глоклую куздру.
В выдаче один адрес:
gb.anekdot.ru/vm.html?file=vm&date=1998-08-07
Запрос:
[глоклой куздре]
Результат: Не найдено ни одного документа, соответствующего запросу глоклой куздре.
Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное встречается на странице выдачи, но не в кэше.
Просто для сравнения приведем результат Яндекса. По всем трем запросам о «глоклой куздре» система дала на момент написания книги одинаковый результат:
Результат поиска: страниц – 13, сайтов – не менее 5.
9. Улучшение запроса во время поиска.
Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но обнаружили в ходе его выполнения в найденных текстах. В ряде случаев это помогает улучшить результат. Подчеркнем особо – это должны быть именно отдельные запросы. Добавление же новых слов к уже имеющемуся списку порой приводит к излишнему сужению диапазона результатов, ведь Гугл будет пытаться выдать документ, в котором содержатся все искомые слова.
10. Исключение слов из запроса. Логическое «НЕ».
Как известно, часто при составлении запроса встречается информационный мусор. Чтобы его удалить, стандартно используется оператор исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Здесь он идентичен поисковому механизму Яндекса «двойная тильда» («~~»), исключающему слово из всего документа. Используя его, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
Тест:
Запрос:
[Журавль колодец]
Результаты 1 – 10 из примерно 778 для Журавль колодец.
Запрос:
[Журавль колодец-птица]
Результаты 1 – 10 из примерно 715 для Журавль колодец – птица.
Запрос:
[Журавль —колодец-птица]
Результаты 1 – 10 из примерно 120 000 для Журавль – колодец – птица.
Запрос:
[Журавль – колодец-птица – птиц]
Результаты 1 – 10 из примерно 106 000 для Журавль – колодец – птица – птиц.
Запрос:
[Журавль – колодец – птица – птиц – журавли]
Результаты 1 – 10 из примерно 104 000 для Журавль-колодец-птица-птиц-журавли.
11. Поиск точной фразы.
Найти точную фразу, как мы уже говорили, требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание. В отличие от Яндекса, который может менять формы слов, входящих в текст, заключенный в кавычки, Гугл такой способностью не обладает. Мы отмечали, что эта система словоформы вообще не поддерживает.
Чтобы справиться с поиском точной фразы при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи).
Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н. М. Шанского, где на стр. 45 предлагается разделить текст на абзацы. Автор – М. Шолохов. Произведение не указано. Приведем фрагмент текста:
[ «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.»].
Введем этот текст в кавычках в Гугл и получим следующий результат:
Результаты 1 – 10 из примерно 15 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки».
Как выяснилось, этот фрагмент относится к произведению «Тихий дон» (книга четвертая). Курьез же состоит в том, что у М. Шолохова этот текст оказался вообще не разбитым на абзацы.
Гугл воспринимает в качестве знаков, связывающих слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.
Результаты 1 – 10 из примерно 27 400 для мать-и-мачеха.
Результаты 1 – 10 из примерно 27 300 для мать/и/мачеха.
Результаты 1 – 10 из примерно 27 300 для мать=и=мачеха.
Результаты 1 – 10 из примерно 27 300 для мать.и. мачеха.
Результаты 1 – 10 из примерно 27 300 для мать'и'мачеха.
Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже:
«Мать-и-мачеха (Tussilago farfara) – одно из самых раноцветущих растений: зацветает в… Как лекарственное растение мать-и-мачеха применяется, прежде всего,…».
При этом все три слова:
«мать», «и», «мачеха» —
рассматриваются как отдельные, но стоящие рядом и в этой же самой последовательности.
Интересно, что по запросу:
[мать-и-мачеха] —
оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:
Результаты 1 – 10 из примерно 27 300 для «мать-и-мачеха».
Чтобы прояснить этот казус, введем следующий запрос:
[мать-и-мачеха «мать-и-мачеха»].
В итоге получим:
Результаты 1 – 10 из примерно 27 для мать-и-мачеха – «мать-и-мачеха».
В выдаче появятся тексты такого содержания:
Санкт-Петербургская Федерация Настольного Футбола Матьимачеха. Королев Петр Трушков Кирилл. 2. Экспромт. Гриневич Василий… Матьимачеха – игроки получают по 60 рейтинговых очков; Экспромт – игроки… www.kickerclub.spb.ru/tournaments/2005-09-03.html– 17k.
12. Количество слов в строке поиска.
Во многих источниках встречается информация, согласно которой поисковая строка Гугла вмещает 10 слов или что Гугл проводит поиск лишь по 10 словам. Проведенный нами эксперимент эти данные не подтвердил. Так, введем запрос из 23 слов: