Книга Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова
Шрифт:
Интервал:
Закладка:
Для того, чтобы найти в Интернете требуемую информацию, необходимо знать либо адрес её местоположения (например, адрес Ыт-страницы или файла), либо пользователя Интернета, который может предоставить информацию. Если мы не знаем ни адреса, ни человека, который мог бы нам помочь, то следует перейти к вопросам «Как можно узнать адрес размещения информации?» или «Как найти человека, который мог бы нам помочь с поиском информации?». При этом не следует переоценивать возможности Интернета. Лучшие результаты может дать совмещение онлайновых и оффлайновых методов поиска информации.
Сегодня существует достаточно большое количество методов информационного поиска в Интернете и через Интернет. В каждом конкретном случае успешность поиска определяется знаниями возможных методов и навыками владения ими, знанием этнических языков, на которых эта информация может быть представлена, либо нашими социальными связями.
Выделяется 4-е этапа поиска информации.
1. определение (уточнение) информационной потребности и формулировка информационного запроса;
2. определение совокупности возможных держателей информационных массивов (источников);
3. извлечение информации из выявленных информационных массивов;
4. ознакомление с полученной информацией и оценка результатов поиска.
Поисковые запросы бывают явные и неявные. В явных вопросах конкретно указывается объект поиска. В неявных вопросах, например, «какая сегодня погода», «происходит ли сейчас что-то важное», «можно ли проехать по городу», или, как у А. С. Пушкина в «Сказке о мертвой царевне и о семи богатырях»:
Свет мой, зеркальце! Скажи
Да всю правду доложи:
Я ль на свете всех милее,
Всех румяней и белее?
объект поиска конкретно не указывается.
Поисковые запросы также делятся в зависимости от требуемой системы поиска. Первая группа поисковых систем предназначена лишь для линейного поиска информации, то есть для обнаружения в текстах фрагментов, аналогичных заданному. Следовательно, в запросе должен содержаться фрагмент текста. Вторая группа систем позволяет выбирать данные о связях между объектами, что требует указания в запросе на связь между теми или иными объектами.
Чтобы спланировать поиск, следует, прежде всего, определить объект поиска, сформулировать какую информацию необходимо найти. Если однозначно ответить на этот вопрос не представляется возможным, то поиск следует разделить на задачи с разными объектами. В планировании поиска также следует определить соотношение видов информации в поисковой задаче.
Например, если необходимо представить какую-то компанию, то полезными могут стать не только стандартные характеристики фирмы (данные об обороте, клиентах и пр.), но и сведения о связях ее первых лиц. И наоборот – физическое лицо можно охарактеризовать через компанию, которой оно владеет или в которой работает.
Надо определиться и с возможными форматами, файлов в которых может содержаться требуемая информация. Это может быть html-страница, текстовый документ в форматах txt, rtf, odt, doc или docx, документ pdf, презентация в форматах odp, ppt или pptx, электронная таблица в форматах ods, xls или xlsx, аудио в формате mp3, flash-ролик формата swf, видео в формате avi и т. д.
Важно отметить, что на первый взгляд поиск в интернете мало чем отличается от обычного информационного поиска, например, от обработки SQL запроса[14] к базе данных или от задачи поиска файла на компьютере. Так считали и разработчики первых поисковых систем в интернете, но со временем они осознали, что заблуждались.
Первое отличие поиска в Интернете от обычного состоит в том, что алгоритм поиска по той же базе данных предполагает, что ее структура заранее известна поисковой машине и автору запроса. В интернете, по понятным причинам, это не так. Интернет страницы образуют собой не структуру каталога, а сеть, что также влияет на алгоритмы поиска, а формат данных, размещаемых на интернет ресурсах, никем не контролируется.
Второе отличие, как одно из следствий первого – это то, что запрос представляется не в виде набора значений параметров (критериев поиска), а в виде текста, написанного человеком на естественном для него языке. Таким образом, перед тем, как начать поиск нужно еще понять, чего именно хочет автор запроса. Замечу, понять не другому человеку, а вычислительной машине.
Третье отличие уже менее очевидное, но не менее принципиальное: в каталоге или базе данных все элементы равноправны. В интернете имеет место конкуренция, а, следовательно, и разделение на более «благонадежных поставщиков информации» и источников, близких по статусу к «информационному мусору». Так классифицируют ресурсы люди, и также к ним относятся поисковые машины.
И в заключении следует добавить, что область поиска – это миллиарды страниц, по несколько килобайт и более каждая. Около десятка миллионов страниц добавляется ежедневно и столько же обновляется. Все это представлено различными цифровыми форматами. К сожалению, даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка поисковых услуг в Интернете не позволяют им обрабатывать все это многообразие «на лету» и в полной объеме.
Принципиально важным моментом функционирования поисковой машины в Интернете является является тот факт, что поиск и отбор информации осуществляется на базе формирования запросов в собственное информационное хранилище – баз данных, называемых индексами, где хранятся досье на все известные машине сайты. Эти базы данных периодически обновляются.
Иными словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Поэтому последние изменения в Интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы – добавлены в индекс поисковой системы. Таким образом, поисковая система Интернета в первом приближении состоит из поисковой машины, базы данных или индекса (index) и точек входа в эту систему. Сама поисковая машина также является совокупностью приложений, позволяющих делать работу эффективно и быстро.
Перечислим компоненты поисковой машины.
1. Паук или спайдер (spider). Приложение, которое занимается скачиванием страниц Интернет-ресурсов. «Паук» запрашивает содержимое страниц точно так же, как это делает обычный интернет браузер, отправляя на сервер HTTP запрос и получая от него ответ. После того, как содержимое страницы скачано, оно отправляется индексатору и краулеру, о которых рассказывается далее.
2. Индексатор (indexer). Индексатор производит первоначальный анализ содержимого скачанной страницы, выделяет основные части (название страницы, описание, ссылки, заголовки и т. д.) и раскладывает все это по разделам поисковой базы данных – помещает в индекс поисковой системы. Этот