Форум Сообщества Практиков Конкурентной разведки (СПКР)

Версия для печати

- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Технологии работы и инструменты конкурентной разведки http://forum.razved.info//index.php?f=6
--- История развития поисковых машин. http://forum.razved.info//index.php?t=2306

-- CI-KP написал 7 ноября 2011 10:40
Это отрывок из моей книги: Евгений Ющук "Интернет-разведка. Руководство к действию" (http://razvedka-internet.ru/Kniga-Internet-Razvedka-Kupit.html)

История эволюции поисковых машин наиболее полно, на наш взгляд, рассказана в книге Криса Шермана и Гарри Прайса «Невидимый Интернет» (http://www.alibris.com/booksearch.detail?invid=10962216758&keyword=invisible+web&qwork=3340117&qsort=&page=1) .

До середины 1960-х компьютеров было немного, они были изолированы друг от друга и не могли обмениваться информацией между собой.

В 1962г. профессор Ликлайдер (Licklider) из ведущего технического ВУЗа США - Массачусетского Технологического института в своей статье сформулировал концепцию глобальной компьютерной сети “Galactic Network”. Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Робертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Так было начато создание сети “ARPANET”, которая затем превратилась в то, что сегодня известно как Интернет. Первый узел ARPANET появился в 1969г. и следующие несколько лет к нему подключались университеты, и различные контрагенты, работавшие по заказам военного ведомства США.

В 1973г. американское министерство обороны инициировало новую программу, предполагавшую обеспечивать надежную связь компьютеров между собой с помощью очень большого числа различных соединений. Целью такого решения было повышение устойчивости системы к попыткам массированно нарушить электронные средства коммуникации. Поскольку дело было во времена «Холодной войны», речь шла об устойчивости к масштабным разрушениям, вызванным стратегической ядерной войной. Поскольку ARPANET был всего одной сетью, что на системном уровне понижало его способность сопротивляться разрушениям, возникла идея создания «сети из сетей», которая теоретически может быть бесконечно большой. Этот проект назвали «Internetting», а саму сеть «Internet».

По мере того, как количество присоединенных к Интернету компьютеров увеличивалось, объективно назрел вопрос о необходимости инструментов, позволяющих легко находить текст и другие файлы на удаленном компьютере, желательно – вообще на любом компьютере, расположенном где угодно в Сети.

Доступ к файлам на самых ранних этапах развития Интернета осуществлялся в два этапа, каждый из которых выполнялся вручную и требовал ручного ввода с клавиатуры специальных команд. Тогда вообще компьютеры могли управляться только специалистами, способными вводить команды в командную строку. Графического интерфейса, позволяющего комфортно работать с компьютером неподготовленному человеку, еще не изобрели. Первым делом надо было с помощью программы Telnet установить прямое соединение с компьютером, на котором находится нужный файл. Это было лишь установление связи, ничего никуда в этот момент еще не передавалось. На втором этапе требовалось с помощью специальной программы, называемой FTP, взять этот конкретный файл.

Поэтому очень долгое время для того, чтобы найти нужный файл, требовалось знать точный адрес компьютера, на котором этот файл находится.

Файлов становилось все больше, интерес к ним постоянно рос, и для того, чтобы найти адрес нужного файла, обычно приходилось обращаться в дискуссионные группы с просьбой о помощи и в надежде, что кто-нибудь из собеседников подскажет заветный адрес, по которому лежит нужная информация.
В результате, стали появляться специальные FTP-серверы, которые представляли собой хранилище файлов, организованных в директории, по принципу хранения файлов на персональном компьютере. Такие серверы существуют и по сей день.

Первый работоспособный, общедоступный инструмент поиска файлов, хранящихся на FTP-серверах, назывался Арчи (Archie), и был создан в 1990 году группой системных администраторов, и студентов старших курсов Университета Мак Джил (McGill) в Монреале. Archie был прототипом сегодняшних поисковых машин, но значительно более примитивным и ограниченным в своих возможностях. Этот поисковик бродил по Интернету, разыскивал файлы на разных ftp-серверах, и загружал список директорий каждого найденного ftp-сервера на собственный сервер, формируя общий каталог.

Этот каталог затем обрабатывался и хранился в центральной базе данных, внутри которой можно было организовать поиск. Поиск на собственном компьютере существовал с самых ранних времен и, несмотря на то, что тоже требовал ввода команд, трудностей не представлял. Однако без специальной подготовки человек не мог полноценно воспользоваться компьютером. База данных находилась в университете Мак Джилл и обновлялась ежемесячно.

В 1991г. команда Марка Мак Кахилла (Mark McCahill) из Университета Миннесоты создала программу Голден Гофер (Golden Gopher – т.е. «золотоискатель» или «старатель»), которая совмещала в себе оба протокола - Telnet и FTP, позволяла пользователям просто щелкать по гиперссылкам, приведенным в меню, и давала, таким образом доступ к нужной информации. Это впервые в истории избавило пользователей от необходимости вводить какие-либо команды, и позволило людям без специальной подготовки получить доступ к ресурсам Интернета.
Программа показывала пользователю последовательно возникающие пошаговое меню, что позволяло ему без проблем идти в глубь базы директорий, все более приближаясь к специфическим документам, которые пользователь ищет.
Этот алгоритм по сути сохранен и сегодня в Каталогах, расположенных в Интернете.
Стало возможно получать как текстовые документы, так и графические, и музыкальные, без привязки к какому-то определенному формату. А самое главное, стало в принципе возможно легко найти и получить в Интернете нужную информацию.

Однако сохранялась серьезная проблема, связанная с тем, что компьютеры были построены на разных платформах, которые порой не понимали друг друга, примерно как люди, говорящие на совершенно разных языках, не могут провести более-менее длинную и осмысленную беседу. Это было время, когда между собой конкурировали не операционные системы, как сейчас, а производители компьютерного «железа». Это сейчас в меньшей степени важно, кто произвел компьютер, и гораздо важнее, установлена на нем ОС Windows, Linux, Mac OS или какая-то другая система, а тогда именно производители «железа» определяли лицо Интернета.

Идея, что компьютеры разных платформ должны иметь возможность работать в одном протоколе, позволяющем просматривать страницы вне зависимости от того, на каком компьютере эти страницы созданы, объективно назрела. Требовалось придумать этот универсальный протокол и сделать его удобным для пользователей. Первым, кто придумал объединить известную к тому времени простую форму гипертекста с универсальными коммуникационными протоколами, был Тим Бернерс-Ли (Tim Berners-Lee).

Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language или Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором пользователь открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на компьютере, работающем под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл так же будет выглядеть и на компьютере, работающем под управлением Windows.

Затем Бернерс-Ли придумал Universal Resource Identifier - метод стандартизации адресов, когда компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL и это те самые Интернет-адреса, которые в привычном для человека виде обычно начинаются с “www”). Наконец, Бернерс-Ли собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.
Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития Интернета преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появились несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем идти искать в Интернете, предлагали поискать на этих серверах.

Наибольшей проблемой, с которой столкнулись поисковые машины, было вообще отыскать страницы, которые можно будет индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственным способом отыскать страницу, был поиск ссылки на нее и переход по этой ссылке, с последующим добавлением вновь найденной страницы к индексу.

Быстро стала очевидной еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, т.к. на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенными множество других страниц – пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая бы позволила игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых страниц, иначе никаких ресурсов бы просто не хватило.

В 1993г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный “World Wide Web Wanderer” или просто Вандерер, что в переводе с английского означает «скиталец» или «странник». Грей заинтересовался статистикой и с помощью этого робота попытался проанализировать размеры Интернета и скорость его роста. Вандерер просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого страницы. Несмотря на то, что создатель этого робота не преследовал других целей, кроме статистики, его детище, дебютировавшее фактически в «погоне за горизонтом», легло в основу более сложных программ, которые к способности Вандерера перемещаться по Интернету добавили способность сохранять содержимое страниц в базе данных после посещения.

Так, 1994г. стал переломным в истории создания поисковых машин. Студенту выпускного курса Вашингтонского университета Брайану Пинкертону (Brian Pinkerton) надоело, что друзья непрерывно слали ему электронные письма с информацией о хороших сайтах, найденных ими в Интернете. Сайты ему были нужны, но вот количество писем и сайтов раздражало и отнимало уйму времени. Их было так много, что Пинкертон просто не успевал посещать каждый сайт. Ему настолько это надоело, что он нашел решение проблемы и создал робота, который назывался WebCrawler (что-то вроде «вездеход для Интернета»).
ВэбКраулер, как и Вандерер, ползал со страницы на страницу, но при этом умел запоминать весь текст Web-документа и сохранять его в базе данных, которая была доступна поисковым словам. Пинкертон представил ВэбКраулер публике в апреле 1994г., причем он сделал это виртуально - через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю эта база данных начала прирастать более чем по 100 новых серверов в день. Так родилась первая поисковая машина.

Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.

Дальше ситуация развивалась очень стремительно. Крис Шерман и Гари Прайс приводят такую хронологию возникновения и развития современных поисковых машин.

• 1994 – WebCrawler, Lycos, Yahoo!
• 1995 – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.
• 1996 – HotBot, LookSmart
• 1997 – NorthernLight,
• 1998 – Google, InvisibleWeb.com
• 1999 – FAST
• 2000+ Сотни новых поисковых машин.

Русскоязычные поисковые машины появлялись в такой последовательности:
• Rambler (www.rambler.ru) - в 1996 году,
• Yandex (www.yandex.ru), - в 1997 году,
• Русскоязычная версия Google (www.google.ru) - в 2004 году,
• Русскоязычная версия Yahoo! (http://ru.yahoo.com) - в 2004 году.

-- lukamud написал 7 ноября 2011 13:37

CI-KP написал:

[q]
Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором пользователь открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на компьютере, работающем под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл так же будет выглядеть и на компьютере, работающем под управлением Windows.
[/q]

Эта задача до сих пор не решена :wink:

-- CI-KP написал 7 ноября 2011 19:28

lukamud написал:

[q]
Эта задача до сих пор не решена
[/q]

Так, вроде, браузеры примерно одинаково работают и под Виндой, и под Макосью, и под всякими андроидами и Блэкбери. Не абсолютно точно может быть в разных браузерах, но принципиально - работает. Особенно чистый HTML. Разве нет?

-- Sergey написал 8 ноября 2011 13:59
Код, под каждый браузер в отдельности нужно подгонять. Для этого даже делают отдельные ветки в коде.

-- CI-KP написал 8 ноября 2011 14:17

Sergey написал:

[q]
Код, под каждый браузер в отдельности нужно подгонять. Для этого даже делают отдельные ветки в коде.
[/q]

Для абсолютно точного отображения - да. А вот, с точки зрения ситуации - когда надо чтобы нечто одинаково читалось на всех машинах - пожалуй, все же нет. Сделанный в Дримвивере "один для всех" HTML читается на твердую четверку всеми браузерами.Авторы текста говорили именно о том, что надо было как-то вводить единый стандарт. И получился HTML. Остальные нюансы - сродни тому, говорит человек по-русски с легким акцентом или совсем без него.

-- Sergey написал 8 ноября 2011 14:34
К сожалению, в HTML нет жесткого стандарта. В этом его и преимущество (хоть "левой ногой" пиши), и недостаток. На мой взгляд, второе преобладает.

-- CI-KP написал 8 ноября 2011 14:40

Sergey написал:

[q]
К сожалению, в HTML нет жесткого стандарта.
[/q]

Но при этом основные теги, как я понимаю, существуют? Иначе - что же входит во все многочисленные шпаргалки по HTML?

-- hound написал 8 ноября 2011 14:50
Последнее время в связи с развитием web 2.0 м ростом его значения появились специальные поисковые машины в этом сегменте. Интересно было бы посмотреть обзор таких машин.

-- Sergey написал 8 ноября 2011 21:04

CI-KP написал:

[q]

Sergey написал:
[q]
К сожалению, в HTML нет жесткого стандарта.
[/q]
Но при этом основные теги, как я понимаю, существуют? Иначе - что же входит во все многочисленные шпаргалки по HTML?
[/q]

В шпаргалку входит, что работает/не работает в конкретных браузерах. :wink:

Вот свежак, сегодня входит сотрудник и жалуется, что не грузится RSS в одном из сайтов.
Пробую... грузится. Сотрудник уходит чесать тыкву. Загружает..не грузится.
Разбираемся. В IE не грузит. В Мазиле и Опере грузит.
Но, смотрим как грузит, т.е. есть отличия.
сайт, для примера
_ttp://bsdp.org/?q=be/node/feed

-- Sergey написал 8 ноября 2011 21:08

hound написал:

[q]

Последнее время в связи с развитием web 2.0 м ростом его значения появились специальные поисковые машины в этом сегменте. Интересно было бы посмотреть обзор таких машин.
[/q]

Это больше шаманство, чем стандарт. Для поисковой машины это шаманство не играет ни какой роли.

-- Elena_Larina написал 8 ноября 2011 22:07
Мои пять копеек к исходному тексту.

Для начинающих может быть интересно посмотреть ролик (http://www.youtube.com/watch?v=h0ryz4tU8IY), посвященный истории поисковых машин.

А про будущее универсальных поисковиков - недавнее выступление (http://www.youtube.com/watch?v=j1eJ-n0PyI8) главы разработчиков и совладельца Яндекса Сегаловича.

А для решения проблем с браузерами сейчас развивают http://schema.org/ (http://schema.org/). По ней достигли согласие Гугл, Бинг, Яху и на днях присоединился Яндекс.

-- hound написал 8 ноября 2011 22:13

Sergey написал:

[q]
Это больше шаманство, чем стандарт.
[/q]

Уважаемый Сергей, что Вы понимате под "шаманством"? Шарлатанство? Не могли бы Вы пояснить свою мысль с учетом того, что я в программировании ровным счетом ничего не понимаю.

-- CI-KP написал 8 ноября 2011 22:53
Для: Elena_Larina, спасибо! :hi:

-- CI-KP написал 8 ноября 2011 22:56
Видео, на которое давала ссылки ув. Елена Ларина.

Будущее интернета: поиск сам тебя ищет

Загрузка. Поисковые Системы

-- CI-KP написал 9 ноября 2011 0:45
История создания современных ресурсов Web2.0

-- Sergey написал 9 ноября 2011 11:32

hound написал:

[q]

Уважаемый Сергей, что Вы понимате под "шаманством"? Шарлатанство? Не могли бы Вы пояснить свою мысль с учетом того, что я в программировании ровным счетом ничего не понимаю.
[/q]

Программирование тут не при чем (я так же не программист, по роду деятельности). Подразумевалось не научность т.е. не новый стандарт ( о чем и шла речь), а просто метод подачи информации.

-- Sergey написал 9 ноября 2011 11:35

Elena_Larina написал:

[q]

А для решения проблем с браузерами сейчас развивают schema.org/. По ней достигли согласие Гугл, Бинг, Яху и на днях присоединился Яндекс.
[/q]

Все проще на самом деле. Для этого существуют различные js frameworks