История развития поисковых машин. :: Технологии работы и инструменты конкурентной разведки

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » История развития поисковых машин.

История развития поисковых машин.

Страницы: 1 2

Администратор

Откуда: Екатеринбург
Всего сообщений: 5563
Рейтинг пользователя: 24

Ссылка

Дата регистрации на форуме:
15 мая 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 7 ноября 2011 10:40
Сообщение отредактировано: 7 ноября 2011 10:46

Это отрывок из моей книги: Евгений Ющук "Интернет-разведка. Руководство к действию"

История эволюции поисковых машин наиболее полно, на наш взгляд, рассказана в книге Криса Шермана и Гарри Прайса «Невидимый Интернет» .

До середины 1960-х компьютеров было немного, они были изолированы друг от друга и не могли обмениваться информацией между собой.

В 1962г. профессор Ликлайдер (Licklider) из ведущего технического ВУЗа США - Массачусетского Технологического института в своей статье сформулировал концепцию глобальной компьютерной сети “Galactic Network”. Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Робертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Так было начато создание сети “ARPANET”, которая затем превратилась в то, что сегодня известно как Интернет. Первый узел ARPANET появился в 1969г. и следующие несколько лет к нему подключались университеты, и различные контрагенты, работавшие по заказам военного ведомства США.

В 1973г. американское министерство обороны инициировало новую программу, предполагавшую обеспечивать надежную связь компьютеров между собой с помощью очень большого числа различных соединений. Целью такого решения было повышение устойчивости системы к попыткам массированно нарушить электронные средства коммуникации. Поскольку дело было во времена «Холодной войны», речь шла об устойчивости к масштабным разрушениям, вызванным стратегической ядерной войной. Поскольку ARPANET был всего одной сетью, что на системном уровне понижало его способность сопротивляться разрушениям, возникла идея создания «сети из сетей», которая теоретически может быть бесконечно большой. Этот проект назвали «Internetting», а саму сеть «Internet».

По мере того, как количество присоединенных к Интернету компьютеров увеличивалось, объективно назрел вопрос о необходимости инструментов, позволяющих легко находить текст и другие файлы на удаленном компьютере, желательно – вообще на любом компьютере, расположенном где угодно в Сети.

Доступ к файлам на самых ранних этапах развития Интернета осуществлялся в два этапа, каждый из которых выполнялся вручную и требовал ручного ввода с клавиатуры специальных команд. Тогда вообще компьютеры могли управляться только специалистами, способными вводить команды в командную строку. Графического интерфейса, позволяющего комфортно работать с компьютером неподготовленному человеку, еще не изобрели. Первым делом надо было с помощью программы Telnet установить прямое соединение с компьютером, на котором находится нужный файл. Это было лишь установление связи, ничего никуда в этот момент еще не передавалось. На втором этапе требовалось с помощью специальной программы, называемой FTP, взять этот конкретный файл.

Поэтому очень долгое время для того, чтобы найти нужный файл, требовалось знать точный адрес компьютера, на котором этот файл находится.

Файлов становилось все больше, интерес к ним постоянно рос, и для того, чтобы найти адрес нужного файла, обычно приходилось обращаться в дискуссионные группы с просьбой о помощи и в надежде, что кто-нибудь из собеседников подскажет заветный адрес, по которому лежит нужная информация.
В результате, стали появляться специальные FTP-серверы, которые представляли собой хранилище файлов, организованных в директории, по принципу хранения файлов на персональном компьютере. Такие серверы существуют и по сей день.

Первый работоспособный, общедоступный инструмент поиска файлов, хранящихся на FTP-серверах, назывался Арчи (Archie), и был создан в 1990 году группой системных администраторов, и студентов старших курсов Университета Мак Джил (McGill) в Монреале. Archie был прототипом сегодняшних поисковых машин, но значительно более примитивным и ограниченным в своих возможностях. Этот поисковик бродил по Интернету, разыскивал файлы на разных ftp-серверах, и загружал список директорий каждого найденного ftp-сервера на собственный сервер, формируя общий каталог.

Этот каталог затем обрабатывался и хранился в центральной базе данных, внутри которой можно было организовать поиск. Поиск на собственном компьютере существовал с самых ранних времен и, несмотря на то, что тоже требовал ввода команд, трудностей не представлял. Однако без специальной подготовки человек не мог полноценно воспользоваться компьютером. База данных находилась в университете Мак Джилл и обновлялась ежемесячно.

В 1991г. команда Марка Мак Кахилла (Mark McCahill) из Университета Миннесоты создала программу Голден Гофер (Golden Gopher – т.е. «золотоискатель» или «старатель»), которая совмещала в себе оба протокола - Telnet и FTP, позволяла пользователям просто щелкать по гиперссылкам, приведенным в меню, и давала, таким образом доступ к нужной информации. Это впервые в истории избавило пользователей от необходимости вводить какие-либо команды, и позволило людям без специальной подготовки получить доступ к ресурсам Интернета.
Программа показывала пользователю последовательно возникающие пошаговое меню, что позволяло ему без проблем идти в глубь базы директорий, все более приближаясь к специфическим документам, которые пользователь ищет.
Этот алгоритм по сути сохранен и сегодня в Каталогах, расположенных в Интернете.
Стало возможно получать как текстовые документы, так и графические, и музыкальные, без привязки к какому-то определенному формату. А самое главное, стало в принципе возможно легко найти и получить в Интернете нужную информацию.

Однако сохранялась серьезная проблема, связанная с тем, что компьютеры были построены на разных платформах, которые порой не понимали друг друга, примерно как люди, говорящие на совершенно разных языках, не могут провести более-менее длинную и осмысленную беседу. Это было время, когда между собой конкурировали не операционные системы, как сейчас, а производители компьютерного «железа». Это сейчас в меньшей степени важно, кто произвел компьютер, и гораздо важнее, установлена на нем ОС Windows, Linux, Mac OS или какая-то другая система, а тогда именно производители «железа» определяли лицо Интернета.

Идея, что компьютеры разных платформ должны иметь возможность работать в одном протоколе, позволяющем просматривать страницы вне зависимости от того, на каком компьютере эти страницы созданы, объективно назрела. Требовалось придумать этот универсальный протокол и сделать его удобным для пользователей. Первым, кто придумал объединить известную к тому времени простую форму гипертекста с универсальными коммуникационными протоколами, был Тим Бернерс-Ли (Tim Berners-Lee).

Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language или Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором пользователь открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на компьютере, работающем под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл так же будет выглядеть и на компьютере, работающем под управлением Windows.

Затем Бернерс-Ли придумал Universal Resource Identifier - метод стандартизации адресов, когда компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL и это те самые Интернет-адреса, которые в привычном для человека виде обычно начинаются с “www”). Наконец, Бернерс-Ли собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.
Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития Интернета преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появились несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем идти искать в Интернете, предлагали поискать на этих серверах.

Наибольшей проблемой, с которой столкнулись поисковые машины, было вообще отыскать страницы, которые можно будет индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственным способом отыскать страницу, был поиск ссылки на нее и переход по этой ссылке, с последующим добавлением вновь найденной страницы к индексу.

Быстро стала очевидной еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, т.к. на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенными множество других страниц – пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая бы позволила игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых страниц, иначе никаких ресурсов бы просто не хватило.

В 1993г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный “World Wide Web Wanderer” или просто Вандерер, что в переводе с английского означает «скиталец» или «странник». Грей заинтересовался статистикой и с помощью этого робота попытался проанализировать размеры Интернета и скорость его роста. Вандерер просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого страницы. Несмотря на то, что создатель этого робота не преследовал других целей, кроме статистики, его детище, дебютировавшее фактически в «погоне за горизонтом», легло в основу более сложных программ, которые к способности Вандерера перемещаться по Интернету добавили способность сохранять содержимое страниц в базе данных после посещения.

Так, 1994г. стал переломным в истории создания поисковых машин. Студенту выпускного курса Вашингтонского университета Брайану Пинкертону (Brian Pinkerton) надоело, что друзья непрерывно слали ему электронные письма с информацией о хороших сайтах, найденных ими в Интернете. Сайты ему были нужны, но вот количество писем и сайтов раздражало и отнимало уйму времени. Их было так много, что Пинкертон просто не успевал посещать каждый сайт. Ему настолько это надоело, что он нашел решение проблемы и создал робота, который назывался WebCrawler (что-то вроде «вездеход для Интернета»).
ВэбКраулер, как и Вандерер, ползал со страницы на страницу, но при этом умел запоминать весь текст Web-документа и сохранять его в базе данных, которая была доступна поисковым словам. Пинкертон представил ВэбКраулер публике в апреле 1994г., причем он сделал это виртуально - через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю эта база данных начала прирастать более чем по 100 новых серверов в день. Так родилась первая поисковая машина.

Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.

Дальше ситуация развивалась очень стремительно. Крис Шерман и Гари Прайс приводят такую хронологию возникновения и развития современных поисковых машин.

• 1994 – WebCrawler, Lycos, Yahoo!
• 1995 – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.
• 1996 – HotBot, LookSmart
• 1997 – NorthernLight,
• 1998 – Google, InvisibleWeb.com
• 1999 – FAST
• 2000+ Сотни новых поисковых машин.

Русскоязычные поисковые машины появлялись в такой последовательности:
• Rambler (www.rambler.ru) - в 1996 году,
• Yandex (www.yandex.ru), - в 1997 году,
• Русскоязычная версия Google (www.google.ru) - в 2004 году,
• Русскоязычная версия Yahoo! (http://ru.yahoo.com) - в 2004 году.

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.

#1 | Наверх

lukamud

Долгожитель форума

Всего сообщений: 493
Рейтинг пользователя: 8

Ссылка

Дата регистрации на форуме:
15 окт. 2010

Профиль | Игнорировать
NEW! Сообщение отправлено: 7 ноября 2011 13:37

CI-KP написал:

[q]
Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором пользователь открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на компьютере, работающем под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл так же будет выглядеть и на компьютере, работающем под управлением Windows.
[/q]

Эта задача до сих пор не решена :wink:

#2 | Наверх

CI-KP

Профиль | Игнорировать
NEW! Сообщение отправлено: 7 ноября 2011 19:28

lukamud написал:

[q]
Эта задача до сих пор не решена
[/q]

Так, вроде, браузеры примерно одинаково работают и под Виндой, и под Макосью, и под всякими андроидами и Блэкбери. Не абсолютно точно может быть в разных браузерах, но принципиально - работает. Особенно чистый HTML. Разве нет?

#3 | Наверх

Sergey Долгожитель форума Всего сообщений: 640 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 9 июня 2010	Профиль \| Игнорировать NEW! Сообщение отправлено: 8 ноября 2011 13:59 Код, под каждый браузер в отдельности нужно подгонять. Для этого даже делают отдельные ветки в коде.
	#4 \| Наверх

CI-KP

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2011 14:17

Sergey написал:

[q]
Код, под каждый браузер в отдельности нужно подгонять. Для этого даже делают отдельные ветки в коде.
[/q]

Для абсолютно точного отображения - да. А вот, с точки зрения ситуации - когда надо чтобы нечто одинаково читалось на всех машинах - пожалуй, все же нет. Сделанный в Дримвивере "один для всех" HTML читается на твердую четверку всеми браузерами.Авторы текста говорили именно о том, что надо было как-то вводить единый стандарт. И получился HTML. Остальные нюансы - сродни тому, говорит человек по-русски с легким акцентом или совсем без него.

#5 | Наверх

Sergey Долгожитель форума Всего сообщений: 640 Рейтинг пользователя: 2 Ссылка Дата регистрации на форуме: 9 июня 2010	Профиль \| Игнорировать NEW! Сообщение отправлено: 8 ноября 2011 14:34 К сожалению, в HTML нет жесткого стандарта. В этом его и преимущество (хоть "левой ногой" пиши), и недостаток. На мой взгляд, второе преобладает.
	#6 \| Наверх

CI-KP

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2011 14:40

Sergey написал:

[q]
К сожалению, в HTML нет жесткого стандарта.
[/q]

Но при этом основные теги, как я понимаю, существуют? Иначе - что же входит во все многочисленные шпаргалки по HTML?

#7 | Наверх

hound

Гость

Ссылка

Игнорировать
NEW! Сообщение отправлено: 8 ноября 2011 14:50

Последнее время в связи с развитием web 2.0 м ростом его значения появились специальные поисковые машины в этом сегменте. Интересно было бы посмотреть обзор таких машин.

#8 | Наверх

Sergey

Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2

Ссылка

Дата регистрации на форуме:
9 июня 2010

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2011 21:04
Сообщение отредактировано: 8 ноября 2011 21:04

CI-KP написал:

[q]

Sergey написал:
[q]
К сожалению, в HTML нет жесткого стандарта.
[/q]
Но при этом основные теги, как я понимаю, существуют? Иначе - что же входит во все многочисленные шпаргалки по HTML?
[/q]

В шпаргалку входит, что работает/не работает в конкретных браузерах. :wink:

Вот свежак, сегодня входит сотрудник и жалуется, что не грузится RSS в одном из сайтов.
Пробую... грузится. Сотрудник уходит чесать тыкву. Загружает..не грузится.
Разбираемся. В IE не грузит. В Мазиле и Опере грузит.
Но, смотрим как грузит, т.е. есть отличия.
сайт, для примера
_ttp://bsdp.org/?q=be/node/feed

#9 | Наверх

Sergey

Долгожитель форума

Всего сообщений: 640
Рейтинг пользователя: 2

Ссылка

Дата регистрации на форуме:
9 июня 2010

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2011 21:08

hound написал:

[q]

Последнее время в связи с развитием web 2.0 м ростом его значения появились специальные поисковые машины в этом сегменте. Интересно было бы посмотреть обзор таких машин.
[/q]

Это больше шаманство, чем стандарт. Для поисковой машины это шаманство не играет ни какой роли.

#10 | Наверх

<<Назад Вперед>>

Страницы: 1 2

Печать

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » История развития поисковых машин.

Последние

Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету

Самые активные 20 тем

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка, Деловая разведка по открытым источникам в бизнесе. Работаем строго в рамках закона.

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » История развития поисковых машин.

История развития поисковых машин.

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » История развития поисковых машин.

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.