Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Библиотека источников и иструменты её создания и ведения http://forum.razved.info//index.php?f=79
--- Мастер подключения поисковиков, сайтов и RSS-потоков http://forum.razved.info//index.php?t=940




-- petryashov написал 18 мая 2010 13:59
Алексей, я сейчас активно занимаюсь подключением в сценарии ряда технических сайтов с системой поиска. Например, вот такого : www.elec.ru Хочу создать библиотеку таких сценариев и выкладывать их, например, на данном форуме, как это в свое время сделал ув. Тунгус 1973 с пакетами с параметрами.Если будете выкладывать их на своем сайте, возражать также не буду. Пока не могу разобраться, как это можно сделать. . Подскажите, пожалуйста!


-- tungus1973 написал 18 мая 2010 14:41
Дмитрий, поддерживаю инициативу!
Если я правильно понял Алексея Мыльникова, сценарии СайтСпутника хранятся в отдельной папке "Alias\Internet\Настройка поиска\". Все поисковики, однажды подключенные одним пользователем потом (при желании) могут быть перенесены на компьютеры других пользователей. Для этого их достаточно скопировать в упомянутую папку.


-- Игорь Нежданов написал 18 мая 2010 15:41
Готов тоже участвовать в процессе как минимум в качестве тестера :smile:


-- Семёныч написал 18 мая 2010 15:59
Я уже tut.by подключил (с помощью Алексея), работает он хорошо. Поскольку Алексей сам помогал мне его подключать, то сценарий у него есть. Можно его просто добавить в уже имеющиеся. Для Беларуси это очень полезный сценарий, можно даже пометку сделать, мол "для поиска в Байнете" . Реально находится то, что ни Яндексом, ни Гуглом не находится.


-- Алексей Мыльников написал 18 мая 2010 17:29

petryashov написал:
[q]
Алексей, я сейчас активно занимаюсь подключением в сценарии ряда технических сайтов с системой поиска. Например, вот такого : www.elec.ru Хочу создать библиотеку таких сценариев и выкладывать их, например, на данном форуме, как это в свое время сделал ув. Тунгус 1973 с пакетами с параметрами.Если будете выкладывать их на своем сайте, возражать также не буду. Пока не могу разобраться, как это можно сделать. . Подскажите, пожалуйста!
[/q]

1. Откройте www.elec.ru/ в браузере. Я это делаю в IE.
2. Наберите слово сайт и нажмите на "Найти".
3. Скопируйте из адресной строки: www.elec.ru/search/company/?q=%D1%81%D0%B0%D0%B9%D1%82
и введите ее в Мастере СайтСпутника на 1-ой вкладке и нажмите кнопку "Открыть".
4. На 2-ой вкладке пробуйте.
4.1. Для Признака начала пункта. "Автоматически". Это не поможет. Тогда выделите сниппет и нажмите "По подсказке". Это поможет. Признак - <DIV class=idx100> - появится в окне. Похоже на правду. Их 15 штук.
4.2. Для признака следующей страницы распознание автоматичское - >2</A>
5. Переходим к 3-ей вкладке и проверяет работоспособность "налету". Это делается на любом запросе. Я задал запрос: приборы. СайтСПутник нашел на 4-х страницах 60 ссылок. То есть, проверка найденных признаков успешна.
6. Идем на 4-ю вкладку. Создаем новый сценарий или приписываем подключаемый поисковик к существующему сценарию. Не забудьте нажать на кнопку "Зарегистрировать". Можно проверить работоспособность всего сценария для полной уверенности.

Подробнее посмотрите, что сделал Vinni на этом форуме - forum.razved.info/index.php?t=63 ,
а также здесь - sitesputnik.ru/Help/SSMaster.htm


-- Игорь Нежданов написал 18 мая 2010 17:43

tungus1973 написал:
[q]
сценарии СайтСпутника хранятся в отдельной папке "Alias\Internet\Настройка поиска\". Все поисковики, однажды подключенные одним пользователем потом (при желании) могут быть перенесены на компьютеры других пользователей. Для этого их достаточно скопировать в упомянутую папку.
[/q]


А вот поподробнее можно?
То что сценарии в этой папке - это понятно. Но если мне нужны не все поисковики, а какой то конкретный - как его найти в этом списке?


-- Алексей Мыльников написал 18 мая 2010 18:18

Иоанн написал:
[q]
А вот поподробнее можно?
То что сценарии в этой папке - это понятно. Но если мне нужны не все поисковики, а какой то конкретный - как его найти в этом списке?
[/q]

Нажали на "Золотой ключик". Ввели запрос, например, "Иоанн Васильевич", навели мышку на кнопку "||". Это приведет к "выпаданию" списка сценариев. Выбирайте нужный. В тексте пакета делайте тоже самое.


-- Игорь Нежданов написал 18 мая 2010 21:45
Я имел ввиду как найти файл с нужным мне поисковиком, чтобы выложить для общего пользования коллегами.


-- Алексей Мыльников написал 18 мая 2010 22:10

Иоанн написал:
[q]
Я имел ввиду как найти файл с нужным мне поисковиком, чтобы выложить для общего пользования коллегами.
[/q]

Если я правильно понял вопрос: это не файл - для каждого подключенного поисковика создается запись в БД "Настройка поиска".


-- Игорь Нежданов написал 19 мая 2010 9:07
Суть вот в чем. Каждый из участников проекта (напр 5 человек) подключает по одному поисковику. Каждый участник подключает свой интересный ему поисковик. Потом все пятеро обмениваются неким файлом и в результате у каждого по пять уникальных поисковиков подключено. Можно это реализовать? И если да то как?


-- petryashov написал 19 мая 2010 9:32

Alexei Mylnikov написал:
[q]
. Откройте www.elec.ru/ в браузере. Я это делаю в IE.
2. Наберите слово сайт и нажмите на "Найти".
3. Скопируйте из адресной строки: www.elec.ru/search/comp...0%B9%D1%82
и введите ее в Мастере СайтСпутника на 1-ой вкладке и нажмите кнопку "Открыть".
4. На 2-ой вкладке пробуйте.
[/q]

Спасибо, это я умею, и Элек уже подключил
Иоанн лучше меня выразил то, что надо:
[q]

Суть вот в чем. Каждый из участников проекта (напр 5 человек) подключает по одному поисковику. Каждый участник подключает свой интересный ему поисковик. Потом все пятеро обмениваются неким файлом и в результате у каждого по пять уникальных поисковиков подключено. Можно это реализовать? И если да то как?
[/q]





-- tungus1973 написал 19 мая 2010 9:56

tungus1973 написал:
[q]
Если я правильно понял Алексея Мыльникова, сценарии СайтСпутника хранятся в отдельной папке "Alias\Internet\Настройка поиска\".
[/q]
Значит, это я что-то неправильно понял.

Alexei Mylnikov написал:
[q]
для каждого подключенного поисковика создается запись в БД "Настройка поиска".
[/q]
Алексей Борисович, а можно как-то экспортировать эту запись? может быть возможен еще какой-нибудь способ обменяться подключенными поисковиками?




-- Алексей Мыльников написал 19 мая 2010 10:13

petryashov написал:
[q]
Спасибо, это я умею, и Элек уже подключил
Иоанн лучше меня выразил то, что надо:

[q]

Суть вот в чем. Каждый из участников проекта (напр 5 человек) подключает по одному поисковику. Каждый участник подключает свой интересный ему поисковик. Потом все пятеро обмениваются неким файлом и в результате у каждого по пять уникальных поисковиков подключено. Можно это реализовать? И если да то как?

[/q]
[/q]

Понял. Можно.

Допустим Вы подключили удачно поисковое средство (ПС).
Способ 1.
1. Для ПС декларируется "Адрес 1-ой страницы", "Признак начала пункта" и "Признак следующей страницы". Можно прямо здесь на форуме в топике или приписать его в файл на sitesputnik.ru/Files/Poisk.txt (файл еще не создан) или Петряшов, который не против заниматься этим вопросом, предложит свой файл.
2. Тем кому это ПС нужно, открывает Мастер, просто вносит эти значения в соответствующие окна и регистрирует поисковик в нужном сценарии.

Думаю, что это рационально: всем всё не нужно; каждому пользователю новое ПС нужно в своем сценарии или в нескольких своих сценариях.



-- Семёныч написал 19 мая 2010 12:35
Вот создали же папку на сайте в которой собраны поисковые пакеты, вот и создать такую же папку, только с данными на уже подключенные поисковики. Я понимаю, что пакет можно легко вставить: он в текстовом формате, есть кнопка "Пакет+с параметрами-Создать-С чистого листа". С присоединением поисковика так не получится (наверное). Просто в этой папке будут текстовые файлы с описанием поисковика, данные начала страницы и следующей страницы, ключевое слово для проверки. Вот типа как-то в таком виде. Может как-то и лучше можно?


-- Игорь Нежданов написал 23 мая 2010 15:34
Коллеги, а когда сторонний поисковик уже подключен, где можно посмотреть "Адрес 1-ой страницы", "Признак начала пункта" и "Признак следующей страницы" ? Ну чтоб выложить данные по уже подключенным...


-- Алексей Мыльников написал 23 мая 2010 22:04
Они в БД "Настройка поиска" . Но можно запомнить их и потом выложить при подключении.


-- petryashov написал 23 мая 2010 22:53
Alexei Mylnikov
Алексей, сделайте, плиз, мастера, который позволит те или иные подключенные юзером поисковики выгружать в виде отдельного файла и подключать их другим пользователям. Я не сомневаюсь в том, что где-то в недрах программы есть нужная БД, в которой это есть, но много ли пользователей готово копаться в "кишках" программы вместо того, чтобы нажать на пару клавиш или иконок?


-- Алексей Мыльников написал 24 мая 2010 8:07

petryashov написал:
[q]
Алексей, сделайте, плиз, мастера, который позволит те или иные подключенные юзером поисковики выгружать в виде отдельного файла и подключать их другим пользователям. Я не сомневаюсь в том, что где-то в недрах программы есть нужная БД, в которой это есть, но много ли пользователей готово копаться в "кишках" программы вместо того, чтобы нажать на пару клавиш или иконок?
[/q]

Приемлема ли будет следующая "коллективная" схема подключения новых поисковиков: пользователь будет брать готовую информацию из файла следующего формата - _ttp://sitesputnik.ru/Files/Poisk.doc и действовать согласно инструкции, описанной в этом файле.


-- Vinni написал 24 мая 2010 10:41

Alexei Mylnikov написал:
[q]
Приемлема ли будет следующая "коллективная" схема подключения новых поисковиков:
[/q]


Вообще-то нет :wonder1:
По-хорошему надо сделать возможность выделять группу поисковиков в окне с их списком и сохранять (экспортировать) информацию об этих выделенных поисковиках в текстовый файл, а также в том же окне возможность импорта информации из текстового файла в список поисковиков




-- Алексей Мыльников написал 27 июня 2010 18:27
В версии SiteSputnik 6.4.2 реализован экспорт-импорт:

а) отдельных поисковиков;
б) целых сценариев поиска.

Экспорт-импорт поисковиков и сценариев поиска позволяет выгружать в файл подключенные при помощи "Мастера подключения поисковиков" отдельные поисковики и целые сценарии поиска и загружать из файла их на другом компьютере, что значительно упрощает работу пользователя и позволяет организовать общими усилиями доступную для всех библиотеку подключаемых поисковиков и сценариев поиска.

Экспорт-импорт может быть применен следующим образом.

1. Необходимо перейти к БД "Настройка поиска". Это можно сделать из главного меню: "Интернет - Экспорт-импорт поисковиков и сценариев".
2. Для работы с отдельным поисковиком нажмите на НИЖНЕЙ таблице правую кнопку мышки и выберите пункт "Экспорт поисковика в файл" или "Импорт поисковика из файла".
3. Для работы с целым сценарием нажмите на ВЕРХНЕЙ таблице правую кнопку мышки и выберите пункт "Экспорт сценария в файл" или "Импорт сценария из файла".

При экспорте создается файл. Этот файл можно передать любому пользователю.
Для импортирования (подключения отдельного поисковика или целого сценария) пользователю достаточно выбрать этот файл в программе SiteSputnik на своем компьютере.
Из этих файлов можно создать библиотеку, подобную библиотеке пакетов с параметрами, ведущим которой является Олег Петров (tungus1973) - sitesputnik.ru/Files/Oleg1973.rar.

Под сценарием поиска в СайтСпутник(е) понимается группа поисковиков из нижней таблицы БД "Настройка поиска", связанная с одной строкой верхней таблицы.
Отдельный поисковик - "размещен" в отдельной строке нижней таблицы.
При необходимости, отдельный поисковик может быть помещен в несколько сценариев.
При необходимости, в один сценарий можно добавить один поисковик несколько раз (разумно, что варианты поиска по одному поисковику (источнику) будут разные, например, сначала по заголовкам тем на форуме, потом по содержанию сообщений форума).

Файлы экспорта-импорта - обыкновенные текстовые файлы с расширением txt.
В файле-сценарии можно изменить его имя. Оно находится в первой строке.
В файле-поисковике можно дополнительно изменить имя поисковика. Оно находится во второй строке.
Остальные строки "трогать" не рекомендуется.

Если при импорте сценарий с заданным именем отсутствует в Вашей "Настройке поиска", то он будет создан.
Если при импорте сценарий с заданным именем присутствует в Вашей "Настройке поиска", то в него допишутся те поисковики, которых у Вас нет в этом сценарии.
Если Вы импортируете поисковик с именем "Имя_01" в сценарий, и "Имя_01" уже существует у Вас в этом сценарии, то произойдет обновление поисковика.

Смотрите также - sitesputnik.ru/Help/SSMasExIm.htm


-- tungus1973 написал 27 июня 2010 19:03

Alexei Mylnikov написал:
[q]
В версии SiteSputnik 6.4.2 реализован экспорт-импорт:
а) отдельных поисковиков;
б) целых сценариев поиска.
[/q]
Вот это вещь! Вот спасибо, Алексей Борисович!!!! :good:


-- Vinni написал 28 июня 2010 11:08
Спасибо! :good:


-- petryashov написал 6 июля 2010 9:02
Спасибо, работает!


-- Алексей Мыльников написал 6 июля 2010 9:27
Троекратное пожалуйста.

petryashov написал:
[q]
Алексей, я сейчас активно занимаюсь подключением в сценарии ряда технических сайтов с системой поиска. Например, вот такого : www.elec.ru Хочу создать библиотеку таких сценариев и выкладывать их, например, на данном форуме, как это в свое время сделал ув. Тунгус 1973 с пакетами с параметрами.Если будете выкладывать их на своем сайте, возражать также не буду. Пока не могу разобраться, как это можно сделать. . Подскажите, пожалуйста!
[/q]

Подсказал.
По поводу выкладывания на форуме и на моем сайте - я "за".


-- tungus1973 написал 15 ноября 2010 22:15
Для: Alexei Mylnikov
Хотелось бы проводить сбор информации с онлайн-сервисов типа СКРИН (http://www.skrin.ru/dbsearch/default.asp?codeid=1&mcode=), публикации ФНС: такие (http://egrul.nalog.ru/fns/index.php), такие (http://search.vestnik-gosreg.ru/vgr/), такие (http://service.nalog.ru:8080/disfind.do) и такие (http://search.vestnik-gosreg.ru/fz83/).
К сожалению, в них требуется указывать ИНН / ОГРН, а "СайтСпутник" работает только со словами "я", "это" и "сайт". Нельзя ли в каких-нибудь будущих версиях программы предусмотреть ввод ключевого слова пользователем? Например, введу я при подключении поисковика номер ИНН, и этот же ИНН введу в СайтСпутник для распознавания начала-конца текстового блока.

Один раз я встретился с поисковиком электронного СМИ, который принципиально не принимал слова короче 5 символов. Поэтому я так и не смог подключить его через "я", "это" и "сайт". Ввод ключевого слова мог бы решить и эту проблему.


-- Игорь Нежданов написал 16 ноября 2010 10:29
Да - тоже сталкивался с такими особенностями.


-- Алексей Мыльников написал 16 ноября 2010 11:59
Мастер обязательно будет развиваться и сопровождаться. Здесь можно сделать много полезных усовершенствований.


-- Алексей Мыльников написал 10 мая 2011 12:19
(http://sitesputnik.ru/Help/Pic/SSMas003.GIF)

В Мастер подключения новых источников информации добавлено поле "Номер главной ссылки в сниппете" (см. третье окошко на картинке выше).
Интервал допустимых значений для этого параметра: [0,127].
Это удобно для некоторых сайтов, например, если они формируют выдачу в виде таблички.
Подобное бывает на форумах, электронных аукционах и некоторых других источниках (сайтах).
Как правило, в подобных случаях нужная информация находится не на первой ссылке сниппета.
Может пригодиться и в других случаях: например, в блогах Яндекса второй ссылкой идет "Показать полный текст".

Подробнее о нулевом значении параметра.
В SiteSputnik News (http://sitesputnik.ru) его применение позволяет разложить по полочкам (по Рубрикам) сами сниппеты.
Существуют также поиски и новостные страницы, сниппеты и новостные блоки которых не содержат ссылок - вся информация содержится в самом сниппете.

Это доступно в SiteSputnik 7.1.5. Подкачаться можно из главного меню: "? - Проверить наличие обновлений".


-- Алексей Мыльников написал 18 мая 2011 14:37
В новой версии программы SiteSputnik 7.1.6 от 18.05.11 усовершенствован Мастер подключения источников информации.

В предыдущих версиях было подключение:
- поисковиков и встроенных в сайты поисков, использующих GET-метод передачи данных.

В новой версии доработано или реализовано подключение:

- RSS-потоков,
- произвольных веб-страниц,
- встроенных в сайты поисков, использующих POST-метод передачи данных.

Пояснения к тому, как подключать различные типы источников.

(http://sitesputnik.ru/Help/Pic/SSMas001.GIF)

1. Подключение встроенных в сайты поисков, в которых используется GET-метод передачи данных. Оно не претерпело изменений - используется URL первой поисковой страницы по запросам: сайт, это или я, - и нажимается кнопка "Открыть".

2. Подключение RSS-потоков. Используется URL потока и на кнопке "Открыть" нажимается правая кнопка мышки.

(http://sitesputnik.ru/Help/Pic/SSMasPOST.GIF)

3. Подключение произвольных страниц сайтов . Используется URL подключаемой страницы, снимается галочка, обведенная синей окружностью и на кнопке "Открыть" нажимается правая кнопка мышки.

4. Подключение встроенных в сайты поисков, в которых используется POST-метод передачи данных. Используется URL с обращением к поиску, устанавливается галочка, вводится запрос (на картинке это "сайт"), имя кнопки ("Найти") и расстояние от кнопки до поля ввода запроса ("1") и на кнопке "Открыть" нажимается правая кнопка мышки.

POST-метод в отличие от GET-метода не передает через URL параметр поиска (текст запроса), соответственно, пользователь не может увидеть его в URL.

Новые виды источников могут быть задействованы в SiteSputnik News для мониторинга СМИ, новостных и других источников информации.

Подробнее в инструкции по применению Мастера подключения источников информации (http://sitesputnik.ru/Help/SSMaster.htm).


-- Игорь Нежданов написал 18 мая 2011 20:29
Вот это очень хорошая новость!
Спасибо!


-- tungus1973 написал 19 мая 2011 11:38
Спасибо, Алексей Борисович!!! :good: :hi:


-- CI-KP написал 21 мая 2011 11:04

Алексей Мыльников написал:
[q]
Подключение произвольных страниц сайтов
[/q]

А что Сайтспутник делает с произвольной страницей сайта? Изменения на ней, подобно Вебсайт вочеру отслеживает или что-то другое?


-- Алексей Мыльников написал 21 мая 2011 23:38

CI-KP написал:
[q]
А что Сайтспутник делает с произвольной страницей сайта? Изменения на ней, подобно Вебсайт вочеру отслеживает или что-то другое?
[/q]

Хороший вопрос.

СайтСпутник делает оба варианта.

1. Можно как в Вотчере отслеживать и выделять цветом изменение контента страниц плюс сохранять историю этих изменений (реализована пока бета-версия такого мониторинга), но это не главное, важнее второй пункт.

2. Можно подключить произвольную страницу и использовать ее в SiteSputnik News для мониторинга новостей, причем можно страницу подключить несколько раз, если на ней несколько видов новостных "потоков". Например, если взять gazeta.ru, то только с её главной страницы можно снимать несколько потоков информации, а именно:

- слева постоянно меняется колонка "Новость часа",
- справа также периодически изменяется колонка, в ней другие новости,
- в середине основной новостной поток газеты,
- еще есть несколько блоков новостной информации другого вида.

Практически все эти потоки в программе СайтСпутник уже можно подключить и мониторить по полной программе с разнесением информации по Рубрикам.
Это не исключает подключение RSS-потока (он есть и приносит по 15 новостей) и встроенного поиска по сайту, а дополняет эти возможности.


-- CI-KP написал 22 мая 2011 11:45
Я не очень продвинутый пользователь СайтСпутника (пока, во всяком случае). На сегодня мне для практических целей нравится такая реализация:

1. СайтСпутник сделал первичный поиск информации и затем может отслеживать появление новых страниц.

2. Вочер смотрит изменения на конкретной странице. Что важно - без привязки к наличию или отсутствию RSS. Фильтрами постепенно отсекаются всякие ложные срабатывания типа баннеров, времени или счетчиков.

3. RSS-агрегаторы смотрят на RSS-потоки, и папки там делаются легко. Доступ к ним из любой точки Земного шара в любое время, нет привязки к софту вообще.

4. Интегрум смотрит СМИ и сторожок тащит в Личный кабинет все, что надо. Бесспорный плюс этого решения в том, что там есть СМИ, которых вообще нет в Интернете. Бесспорный минус - в платности.

Все эти решения вместе дают хороший результат и, что немаловажно, очень просты в настройках. Т.е., необходимости прогрызаться через массу настроек, как в СайтСпутнике, просто нет.

Вочер дешев и его можно считать бесплатным на этих величинах. RSS-агрегаторы бесплатны в принципе.

Получается, что если нет Интегрума, то Сайтспутник берет на себя часть его функций и помогает сэкономить. Но взамен требует недюжинного желания (да и способностей) ковыряться в его настройках и не приносит того, что отсутствует в Интернете.

Напомню, что основа популярности советских танков, к примеру, была не только в том, что они имели неплохие (хотя и не лучшие в мире) характеристики, и не в том, что при этом стоили не очень дорого, но и в том, что из трех крестьян любой страны за три месяца можно было подготовить боеспособный экипаж.

Таким образом, если моя логика верна, то единственное, в чем Сайтспутник незаменим - это "первичный допрос Интернета". Для чего он, собственно, изначально и создавался. В некоторой степени - в возможностях наковырять спайдером невидимые поисковиками ссылки (на практике это очень нечасто приносит значимые результаты - что, впрочем, совершенно не вина Сайтспутника, а отражает реальное положение дел на сайтах).
В остальном - при нынешнем интерфейсе - он все больше превращается в подобие операционной системы Windows - когда даже простое расставление галочек в нужных местах приобретает такие масштабы, что родило новую специальность системного администратора.

Произошел переход количества (возможностей и связанных с ними настроек) в качество (пригодность к быстрому использованию неподготовленным человеком). Если это действительно так, и мне не показалось, то интерфейс стал тормозом к использованию программы. Так, кстати, в свое время появился графический интерфейс, созданный Apple и подтянутый затем Майкрософтом.

Допускаю, что в моих рассуждениях есть изъян, т.к. я не очень хорошо ориентируюсь в глубинах СайтСпутника. Расскажите, в чем он, если это так.


-- Алексей Мыльников написал 23 мая 2011 1:00
Высказываю свое мнение по пунктам.

CI-KP написал:
[q]
1. СайтСпутник сделал первичный поиск информации и затем может отслеживать появление новых страниц.
[/q]

Да, это так.

CI-KP написал:
[q]
2. Вочер смотрит изменения на конкретной странице. Что важно - без привязки к наличию или отсутствию RSS. Фильтрами постепенно отсекаются всякие ложные срабатывания типа баннеров, времени или счетчиков.
[/q]

Да, этот инструмент давно себя зарекомендовал с хорошей стороны. RSS здесь совсем не причём.

CI-KP написал:
[q]
3. RSS-агрегаторы смотрят на RSS-потоки, и папки там делаются легко. Доступ к ним из любой точки Земного шара в любое время, нет привязки к софту вообще.
[/q]

В СайтСпутнике RSS-подключаются без проблем (автоматом) по адресу RSS: указываешь адрес и запоминаешь его.
Но в отличие от RSS-аргегаторов, СайтСпутник позволяет делать две принципиально важные вещи.
1) Из единого потока, полученного из нескольких агрерируемых RSS, получить потоки на заданные темы (через Рубрики), отсеив большой объем ненужной информации.
2) Можно в этот поток направить еше следующие потоки: встроенные в сайты поиски и информацию с произвольных страниц (об этом чуть выше я высказался). Не редкость, что нужный Вам источник не содержит RSS или нужен поиск, а не новости.

CI-KP написал:
[q]
4. Интегрум смотрит СМИ и сторожок тащит в Личный кабинет все, что надо. Бесспорный плюс этого решения в том, что там есть СМИ, которых вообще нет в Интернете. Бесспорный минус - в платности.
[/q]

Не знаком с этой программой в реале. Иду на сайт. Читаю (выделено мною), что можно "... получать оперативные мониторинги всего за несколько кликов в любое удобное для Вас время на вашем личном компьютере. Обучение, первичная настройка системы, а также последующая коррекция поисковых запросов обеспечивается Вашим персональным менеджером поддержки".
Если я правильно понял, то какое может быть сравнение: там требуется разработчик (персональный менеджер со стороны Интегриума), а в СайтСпутнике продвинутый пользователь на Вашей фирме? Я не откажусь от круглой суммы за настройку системы, что займет у меня пару-тройку часов, ну может в некоторых случаях дней. И Вы получите за пару кликов в любое удобное время информацию на своем компьютере. А если ещё получать абонентскую плату и оплату за последующую коррекцию (вот крючок: сядите - не слезете, так как Вы зависите от разработчика), то вообще лафа.
Может я не правильно понял то, что написано на сайте, тогда поправьте меня.

В этой связи о сложности.
Да, с одной стороны, если используются не только RSS, но и потоки со встроенных поисков и произвольных страниц, то их надо подключить. Это принципиально нельзя сделать просто: по нажатию двух-трех кнопок, так как это не RSS, - достаточной стандартизации нет. Но, с другой стороны, при применении СайтСпутника не надо "идти" к разработчику и даже прибегать к помощи своего программиста - достаточно быть продвинутым пользователем или иметь такого на фирме. Если использовать примененную Евгением аналогию про советские танки, то эти танки ещё нужно сделать. Вот в СайтСпутнике они и делаются, именно это и требует усилий. Сделал - садисть и жми на одну педаль (на кнопку "Поиск"). Дальше программа всё сделает сама.



-- CI-KP написал 23 мая 2011 1:32

Алексей Мыльников написал:
[q]
В СайтСпутнике RSS-подключаются без проблем (автоматом) по адресу RSS: указываешь адрес и запоминаешь его.
Но в отличие от RSS-аргегаторов, СайтСпутник позволяет делать две принципиально важные вещи.
1) Из единого потока, полученного из нескольких агрерируемых RSS, получить потоки на заданные темы (через Рубрики), отсеив большой объем ненужной информации.
2) Можно в этот поток направить еше следующие потоки: встроенные в сайты поиски и информацию с произвольных страниц (об этом чуть выше я высказался). Не редкость, что нужный Вам источник не содержит RSS или нужен поиск, а не новости.
[/q]


Да, это интересно. Я попробую посмотреть поближе на этот момент. Папки в той же Ленте Янлекса, если я правильно понял, выполняют функцию рубрик сайтСпутника. а вот результаты встроенного поиска никто не собирает. Кроме Вочера, правда. Но Вочер - тоже программа, устанавливаемая на компьютер, и поэтому не имеет явных преимуществ перед Сайтспутником, по сравнению с онлайновыми агрегаторами.



Алексей Мыльников написал:
[q]
Не знаком с этой программой в реале. Иду на сайт. Читаю (выделено мною), что можно "... получать оперативные мониторинги всего за несколько кликов в любое удобное для Вас время на вашем личном компьютере. Обучение, первичная настройка системы, а также последующая коррекция поисковых запросов обеспечивается Вашим персональным менеджером поддержки".
Если я правильно понял, то какое может быть сравнение: там требуется разработчик (персональный менеджер со стороны Интегриума), а в СайтСпутнике продвинутый пользователь на Вашей фирме? Я не откажусь от круглой суммы за настройку системы, что займет у меня пару-тройку часов, ну может в некоторых случаях дней. И Вы получите за пару кликов в любое удобное время информацию на своем компьютере. А если ещё получать абонентскую плату и оплату за последующую коррекцию (вот крючок: сядите - не слезете, так как Вы зависите от разработчика), то вообще лафа.
Может я не правильно понял то, что написано на сайте, тогда поправьте меня.
[/q]


Там есть язык запросов и есть менеджер. Видимо, менеджер потому и появился, что язык запросов вызывал у мнгих обморок одним своим видом.
В принципе, можно Вам, как мне кажется, говорить о настройке за отдельную плату. Только лучше не круглую сумму, а нормальную. Хотя там проблема всегда - в формулировке задачи заказчиком. Не умеет он ее формулировать, как правило.


Алексей Мыльников написал:
[q]
В этой связи о сложности.
Да, с одной стороны, если используются не только RSS, но и потоки со встроенных поисков и произвольных страниц, то их надо подключить. Это принципиально нельзя сделать просто: по нажатию двух-трех кнопок, так как это не RSS, - достаточной стандартизации нет. Но, с другой стороны, при применении СайтСпутника не надо "идти" к разработчику и даже прибегать к помощи своего программиста - достаточно быть продвинутым пользователем или иметь такого на фирме. Если использовать примененную Евгением аналогию про советские танки, то эти танки ещё нужно сделать. Вот в СайтСпутнике они и делаются, именно это и требует усилий. Сделал - садисть и жми на одну педаль (на кнопку "Поиск"). Дальше программа всё сделает сама.
[/q]

Тогда получается. что к СайтСпутнику нужен инструктор. или - очень подробное (в смысле - на разные случаи жизни) видео.


-- Алексей Мыльников написал 23 мая 2011 2:38

CI-KP написал:
[q]
Папки в той же Ленте Янлекса, если я правильно понял, выполняют функцию рубрик сайтСпутника.
[/q]

Нет, не выполняют функцию Рубрик! В этом и преимущество перед Яндекс.Подпиской, в которой в папки с RSS-потоков в общем случае может попадать до 100% мусора, потому что идут все новости подряд. А в Рубрики можно из этого потока с большой точностью направить нужный контент. Точность, в частности, обеспечивается выделением контента новости из полного текста ссылки, а не только правилами попадания контента в Рубрику.

Кстати, Яндекс подписка - это тоже RSS-поток и, если Вы ее создадите в IE, то можете ее подключить как отдельное RSS.


CI-KP написал:
[q]
а вот результаты встроенного поиска никто не собирает. Кроме Вочера, правда. Но Вочер - тоже программа, устанавливаемая на компьютер, и поэтому не имеет явных преимуществ перед Сайтспутником, по сравнению с онлайновыми агрегаторами.
[/q]

Вотчер здесь существенно уступает СайтСпутнику, так как умеет мониторить только отдельные страницы, причем удобно работать только с первыми страницами. Если им мониторить на глубину нескольких страниц, то уже начнется "путаница", ссылки перешедшие на другую страницу будут восприниматься как новые. В добавок, если Вы мониторите страницы с нескольких источников, то Вотчер тоже не увидит одинаковые ссылки на них и будет много повторов ссылок и, главное, старых ссылок, принимаемых за новые, потому что он не увидит ссылку на другом источнике ни на первой, ни на любой другой странице и выделит ее как новую.

СайтСпутник же при мониторинге на любую глубину, на любом количестве источников четко справится с повторами и новизной ссылок, причем проанализирует ссылки за последние 90 попыток мониторинга (90 установлено по умолчанию), а не относительно ОДНОГО последнего состояния как в Вотчере.


-- CI-KP написал 23 мая 2011 6:54
Спасибо, Алексей. Да, это серьезные аргументы. Есть понятная инструкция, как делать то, что описано вами в комментарии от 23 мая 2011 2:38 на который я отвечаю?


-- Алексей Мыльников написал 23 мая 2011 8:46

CI-KP написал:
[q]
Спасибо, Алексей. Да, это серьезные аргументы. Есть понятная инструкция, как делать то, что описано вами в комментарии от 23 мая 2011 2:38 на который я отвечаю?
[/q]

По работе с SiteSputnik News - "SiteSputnik News. Как организовать мониторинг потоков информации (http://sitesputnik.ru/Help/SSNewsIn.doc), плюс я всегда консультитрую по электронной почте.

По мониторингу появления новый ссылок на заданную тему можно посмотреть здесь на форуме - forum.razved.info/index.php?t=770


-- Vinni написал 23 мая 2011 9:38

Алексей Мыльников написал:
[q]
Но в отличие от RSS-аргегаторов, СайтСпутник позволяет делать две принципиально важные вещи.
1) Из единого потока, полученного из нескольких агрерируемых RSS, получить потоки на заданные темы (через Рубрики), отсеив большой объем ненужной информации.
[/q]


Хм. Я, например, пользуюсь RSS-агрегатором в Outlook2007, который позволяет с помощью простого мастера создания правил, отбирать сообщения по заданным ключевым словам и помещать их в специальные папки. думаю, что и другие RSS-агрегаторы это могут :wink:


-- tungus1973 написал 23 мая 2011 10:13

Vinni написал:
[q]
Я, например, пользуюсь RSS-агрегатором в Outlook2007
[/q]
У Outlook'а простой язык правил попадания в рубрику, поэтому мусор неизбежен.
В "СайтСпутнике Ньюс" же можно задавать не только слова, но и расстояние между словами, можно указать огромное множество правил попадания в рубрику. В этом его несомненная сила.


-- Алексей Мыльников написал 23 мая 2011 10:44
Дополнительно к сказанному tungus1973:

1) Вряд ли где-то автоматически выделяются контенты новости из всего содержания ссылки, что само по себе удобно, а также влияет на точность.

2) Кроме RSS ещё можно подключить встроенные поиски и произвольные страницы. Подключение произвольных страниц можно рассматривать как моделирование RSS-потоков. Оно может быть применено на тех страницах, где RSS-потоков нет или когда не вся интересная информация с источника попадает в RSS-поток.


-- Vinni написал 23 мая 2011 11:32

tungus1973 написал:
[q]
У Outlook'а простой язык правил попадания в рубрику, поэтому мусор неизбежен.
В "СайтСпутнике Ньюс" же можно задавать не только слова, но и расстояние между словами, можно указать огромное множество правил попадания в рубрику. В этом его несомненная сила.
[/q]


Правильно - функциональность есть, но ее возможности ограниченные (изначально было заявлено, что такая функциональность только в СайтСпутнике :wink: ). Тем не менее, в большом числе случаев достаточно и простого списка ключевых слов. :wink:

И в RSS-агрегаторах на число правил что-то я не видел ограничений :wonder1:




-- Vinni написал 23 мая 2011 11:39

Алексей Мыльников написал:
[q]
1) Вряд ли где-то автоматически выделяются контенты новости из всего содержания ссылки, что само по себе удобно, а также влияет на точность.
2) Кроме RSS ещё можно подключить встроенные поиски и произвольные страницы. Подключение произвольных страниц можно рассматривать как моделирование RSS-потоков. Оно может быть применено на тех страницах, где RSS-потоков нет или когда не вся интересная информация с источника попадает в RSS-поток.
[/q]


Ну как же. Есть небезызвестный проект Скиур, который позволяет эмулировать RSS для новостных лент произвольных сайтов.
С его помощью можно создать RSS-поток для большого числа сайтов (но не для всех :wink: )

ЗЫ
Покажите, например, пошагово как подключить новостную ленту compromat.ru к СайтСпутнику как произвольную страницу :preved:


-- Алексей Мыльников написал 23 мая 2011 12:30

Vinni написал:
[q]
ЗЫ
Покажите, например, пошагово как подключить новостную ленту compromat.ru к СайтСпутнику как произвольную страницу
[/q]

Шаги следующие.
1. Беру ссылку compromat.ru/ и помещаю её в окно на первой вкладке Мастера.
2. Убираю галочку, так как это подключение не поиска, а произвольной страницы (никакие ключи поиска не нужны).
3. Нажимаю правую кнопку мышки на "Открыть". Жду.
4. На второй вкладке в ручном режиме ввожу признаки:
<BR><B>
и
>01</A>
5. На третьей вкладке ввожу имя источника: "ГлавнаяСтр", по нему будет обращение к этому подключению. Можно проверить его правильность на этой вкладке.
6. Регистрирую на 4-ой вкладке в новом сценарии с именем "Compromat" это подключение.

В прикрепленном файле полученное подключение. Его можно импортировать и опробовать.


-- Алексей Мыльников написал 23 мая 2011 12:37
В продолжение предыдущего сообщения: в прикрепленном файле автоматически полученная полнотекстовая новостная лента с главной страницы Компромата.Ру. Её можно разнести по Рубрикам.


-- Алексей Мыльников написал 23 мая 2011 12:42
Таким образом RSS-поток с главной страницы Компромата.Ру смоделирован.
Изначально RSS-потока на этой страницы нет.


-- Vinni написал 23 мая 2011 13:28

Алексей Мыльников написал:
[q]
<BR><B>
[/q]

Спасибо! :good:


Но в вашем варианте пропускается первая новость на странице (вы берете строчку, которая принадлежит концу предыдущей новости вместе с началом строки дляследующей новости). :wink:
Там чуть посложнее выражение - <b>(<BR>|)

В полноценном RSS-потоке нужно автоматически указывать дату-время публикации (на этом сайте указывается только дата - как определить время автоматически?)
У Вас я не вижу такого - нужно смотреть дату публикации вручную по тексту...

Плюс что делать с новостями, для которых вместо даты указан крестик, если будете автоматически выделять дату? :wonder1:






-- Алексей Мыльников написал 23 мая 2011 13:55
Если на странице несколько признаков начала новости или сниппета, то её можно подключить несколько раз в одном сценарии. В целом, то что Вы отметили в предыдущем сообщении, со временем "подрихтую".


-- tungus1973 написал 23 мая 2011 14:51

Vinni написал:
[q]
Тем не менее, в большом числе случаев достаточно и простого списка ключевых слов.
[/q]
Если тем мониторинга и запросов единицы, то - да, достаточно простого RSS-агрегатора. Когда тем несколько десятков, работать с простым агрегатором становится тягостно. Когда количество потоков переваливает за сотню, просматривать весь мусор не представляется возможным.


Конечно, следует признать, что на процесс сильно влияет специализированность источника и употребимость ключевых слов.

Если источник информации специализированный - мусора не будет, все сообщения полезны. Если источник, кроме нужной Вам темы, публикует сообщения других сфер (например, РИА "Новости"), мусора может быть много.

Если ключевые слова специализированные, например, мономолекулярная реакция распада азометана (http://yandex.ru/yandsearch?text=%D0%BC%D0%BE%D0%BD%D0%BE%D0%BC%D0%BE%D0%BB%D0%B5%D0%BA%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%B0%D1%8F+%D1%80%D0%B5%D0%B0%D0%BA%D1%86%D0%B8%D1%8F+%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D0%B4%D0%B0+%D0%B0%D0%B7%D0%BE%D0%BC%D0%B5%D1%82%D0%B0%D0%BD%D0%B0&from=fx3&clid=46510&lr=2), значит ссылок будет немного. Если же слова общеупотребимые (http://yandex.ru/yandsearch?text=%D0%BD%D0%BE%D0%B2%D1%8B%D0%B9+%D1%82%D0%B5%D0%BB%D0%B5%D0%B2%D0%B8%D0%B7%D0%BE%D1%80+%D0%A1%D0%B0%D0%BC%D1%81%D1%83%D0%BD%D0%B3&clid=46510&lr=2) - мусора будет ОГО-ГО!


Для работы с малым количеством специализированных источников и при отслеживании специализированных ключевых слов достаточно простого RSS-агрегатора новостей. Иначе - рекомендую "СайтСпутник Ньюс" - сэкономите немало времени.


-- Vinni написал 23 мая 2011 15:06

tungus1973 написал:
[q]

Vinni написал:
[q]
Тем не менее, в большом числе случаев достаточно и простого списка ключевых слов.
[/q]
Если тем мониторинга и запросов единицы, то - да, достаточно простого RSS-агрегатора. Когда тем несколько десятков, работать с простым агрегатором становится тягостно. Когда количество потоков переваливает за сотню, просматривать весь мусор не представляется возможным.Конечно, следует признать, что на процесс сильно влияет специализированность источника и употребимость ключевых слов.Если источник информации специализированный - мусора не будет, все сообщения полезны. Если источник, кроме нужной Вам темы, публикует сообщения других сфер (например, РИА "Новости"), мусора может быть много.Если ключевые слова специализированные, например, мономолекулярная реакция распада азометана, значит ссылок будет немного. Если же слова общеупотребимые - мусора будет ОГО-ГО!Для работы с малым количеством специализированных источников и при отслеживании специализированных ключевых слов достаточно простого RSS-агрегатора новостей. Иначе - рекомендую "СайтСпутник Ньюс" - сэкономите немало времени.
[/q]


:good: С этим полностью согласен.




-- vados_kalvados написал 17 апреля 2012 15:06
если можно, проинструктируйте меня новичка:

Мне необходимо подключить поисковик, в котором новые сниппеты появляются не щелчком на след страничку, а прокручивая страничку вниз. как это можно реализовать?


-- Игорь Нежданов написал 17 апреля 2012 16:55

vados_kalvados написал:
[q]
если можно, проинструктируйте меня новичка:

Мне необходимо подключить поисковик, в котором новые сниппеты появляются не щелчком на след страничку, а прокручивая страничку вниз. как это можно реализовать?
[/q]

Это те, что на подобии Твиттера?
Если да - такой не сможете подключить полноценно.
Есть пара вариантов:
1 - в качестве перехода на новую страницу укажите набор символов (случайный) который точно не встречается в коде страницы и если повезет, то будете забирать "первый список".
2 - найдите возможность создать РСС поток из результатов поиска (как у больших поисковиков), если есть - цепляйте его.

На сколько понимаю автор СайтСпутника эту проблему знает и подбирает вариант решения.


-- vados_kalvados написал 23 апреля 2012 17:49
первый то я получил. и второй тоже) но всё-равно спасибо)


-- Алексей Мыльников написал 3 декабря 2012 9:40

vados_kalvados написал:
[q]
Мне необходимо подключить поисковик, в котором новые сниппеты появляются не щелчком на след страничку, а прокручивая страничку вниз. как это можно реализовать?
[/q]

Для сайтов, для которых переход к следующей странице осуществляется не щелчком, а при помощи прокрутки окна браузера вниз, например, для Твиттера, в качестве признака следующей страницы указывайте:

>прокрутка<


Это реализовано в версии 8.2.1.1 от 03.12.2012

Файл импорта поиска по Твиттеру прикреплён.


-- tungus1973 написал 3 декабря 2012 9:47

Алексей Мыльников написал:
[q]
в качестве признака следующей страницы указывайте:
>прокрутка<
[/q]

Можно ли ограничить количество прокручиваемых страниц? Например, нужно прокрутить вниз только 2 страницы, или только 10, или прокрутить все?


-- Алексей Мыльников написал 3 декабря 2012 9:59

tungus1973 написал:
[q]
Можно ли ограничить количество прокручиваемых страниц? Например, нужно прокрутить вниз только 2 страницы, или только 10, или прокрутить все?
[/q]

Да, можно.
В Мастере есть параметр "Максимальная глубина поиска в страницах". Это и есть количество прокруток страницы вниз.


-- tungus1973 написал 3 декабря 2012 12:21
Спасибо!


-- Алексей Мыльников написал 7 декабря 2012 10:16
Выше в сообщении #55 прикреплен поиск в Твиттере по "Тор".
Есть ещё (спасибо Игорю Нежданову за подсказку) поиск по "All". Он прикреплен к данному сообщению и доступен из версии 8.2.1.3.


-- Алексей Мыльников написал 12 марта 2013 13:40
Переход к следующей странице с помощью прокрутки, например, в Твиттере рассмотрен в сообщении #55 этой темы.

Есть ещё источники, в которых чтобы "углубиться" (перейти к следуюшим сниппетам или страницам) нужно кликнуть на кнопку или ссылку.

Примеры таких источников: Facebook и поиск по Новостям Mail.ru.

В версии 8.4.1.9 от 12.03.2013 для того, чтобы обеспечить "углубление" поиска в подобных случаях, в поле "Признак следующей страницы" (в Мастере при подключении или живьем в "Настройке Поиска") следует указать название кнопки и справа к нему дописать >Клик<.

Соответственно, для Facebook и Новости.Мэйл.Ру признаки будут таковы:

Показать больше результатов>Клик<
и
Показать еще...>Клик<

Оба поиска прикреплены к сообщению в упакованном файле.



-- tungus1973 написал 12 марта 2013 14:20
Это очень хорошее дополнение! :good:

Алексей Мыльников написал:
[q]
...следует указать название кнопки и справа к нему дописать >Клик<.
[/q]
На практике мне приходилось встречаться также с кнопками-картинками и кнопками-ссылками. Можно ли при помощи нового функционала СайтСпутника работать и с ними?


-- Алексей Мыльников написал 12 марта 2013 14:56
100% уверенности нет, "захват" веб-территории процесс не имеющий границ. Если что не получится присылайте или выкладывайте.


-- Алексей Мыльников написал 12 марта 2013 16:28
Бывают случаи, когда мы хотим снять информации с источника за последний промежуток времени, например 3 дня.

Источник дает такую возможность, но в URL явно прописывает даты, а именно, если мы сегодня подключаем источник, то в его URL пропишутся даты: 10.03.2013 и 12.03.2013.

Примеры.

1. Ставим на WebSpider=1 страницу из Портала госзакупок.

Например, эту:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=10.03.2013&r=12.03.2013&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

Она отслеживает появление на _http://zakupki.gov.ru/ новых аукционов (тендеров) в Свердловской области на тему "Пожары" за последние 3 дня.

Красным выцвечены фиксированные даты, которые сайт прописал на наш запрос сегодня.

2. Подключаем поиск в блогах Google за последние три дня по запросу.

URL имеет вид:

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3A10.03.2013%2Ccd_max%3A12.03.2013&tbm=blg

Красным выцвечены фиксированные даты, которые возвращает нам Google.

В обоих случаях, если мы завтра или через неколько дней задействум в Проекте эти источники, то получим сведения не за 3 последних дня, а за период от 10.03.2013 до 12.03.2013.

В настоящий момент можно для достижения требуемой цели (получения сведений за N последних дней в автоматическом режиме) использовать внешнюю функцию date(Х).
в её аргументе указывается Х - число. Функция вернет и поставит вместо себя дату со сдвигом на Х дней.
Например, если мы напишем Date(0), то сегодня это будет 12.03.2013, а завтра 13.03.2013, если Date(-3), то сегодня это будет 09.03.2013, а завтра 10.03.2013.

Соответственно, нужные нам URL будут иметь вид:

_http://zakupki.gov.ru/pgz/public/action/search/extended/rss?c0=true&a=true&c=AP&c=CW&d=%D0%BF%D0%BE%D0%B6%D0%B0%D1%80&_e=on&_f=on&_g=on&h=&j=true&_j=on&k=&l=&m=&n=&o=&i=&p=&q=fun(Date,-2)&r=fun(Date,0)&s=&b8=true&t=&customer.organizationId=&u=5277377&v=5277383&_w=on&x=&y=&_z=on&a0=&sellerOrganizationId=&b7=false&f_MP=c&f_NU=c&f_OLIMPSTROI=c&b6=true&f_UG=c&f_IN=c&f_RM=c&b9=true&a1=&a2=&a4=&a5=&a6=&a7=&b5=&a8=&_a9=on&lotView=false&b0=&b1=true&_b1=on&_b2=on&_b3=on&_b4=on&ext=e19dcce83bf39ff961edda63513ebdd2

_https://www.google.ru/search?q=2***&hl=ru&newwindow=1&biw=1282&bih=1261&sa=X&ei=BybUUPbUHsX-4QTL84HACw&ved=0CCUQpwUoBw&source=lnt&tbs=cdr%3A1%2Ccd_min%3Afun(Date,-2)%2Ccd_max%3Afun(Date,0)&tbm=blg

Механизм работы следующий. Увидев в URL-ке из "Настройка поиска" или в любом месте тела Пакета эту функцию, программа SiteSputnik (http://sitesputnik.ru/) вызовет её, а функция сделает свою работу - заменит себя на нужную дату.

Чтобы применить функцию, её следует поместить в папку Exe. Взять её можно отсюда (http://sitesputnik.ru/Files/Exe.rar).

Поиск по блогам Google за последние 3 дня прикреплён.



-- petryashov написал 27 марта 2013 11:40
Некоторые RSS- потоки при попытке подключения "подвисают", в диспетчере задач видно, как СайтСпутник забирает все больше памяти и 50% мощности процессора. Операционная система Win XP SP3. После долгого ожидания приходится аварийно завершать работу программы. Вот примеры:

_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders

Как с этим бороться?





-- Алексей Мыльников написал 27 марта 2013 13:13

petryashov написал:
[q]
_ttp://www.chelgumr.ru/purchase.do?category=0&cache=1
_ttp://zakupki.rosatom.ru/Web.aspx?node=currentorders
[/q]

Если Вы имели ввиду эти RSS:

_http://www.chelgumr.ru/rss/0
_http://zakupki.rosatom.ru/?node=currentorders&mode=order&action=rssfeed&ostate=&ptype=&cust=

то они содержат не 10-25 сниппетов как обычные RSS, а 1000 и на моем компе (16 гб оперативки и Win 7) обрабатывались долго (первый минуты 3-4, второй минут 15), но нормально завершились. Посмотрю на предмет оптимизации, но не в срочном режиме, потому что эти RSS подключаются и работают. Здесь пока придется подождать, пока окончится обработка.


-- petryashov написал 4 апреля 2013 11:02
2 Алексей Мыльников

Подключил ряд длинных RSS потоков и призадумался: очень много времени уходит на их мониторинг. Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи. В результате тратится масса времени на скачивание одного и того же многократно скачанного до того архива ради получения некоторых новых записей. Насколько это оправданно? Может быть, имеет смысл предусмотреть возможность скачивать только новые записи из потока?

Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху. Следовательно, при мониторинге потока СайтСпутник может обрабатывать его сверху вниз и скачивать все сообщения, дата и время которых больше , чем дата и время скачанных материалов из того же потока во время прошлого сеанса. Так можно сделать или есть какие-то сложности, которые я не учел?


-- Алексей Мыльников написал 4 апреля 2013 11:47

petryashov написал:
[q]
Насколько я понимаю, СайтСпутник каждый раз закачивает весь поток, а затем выделяет новые записи.
[/q]

Конечно, нет.

Сначала определяются новые адреса ссылок, причем неважно, попавших в этот RSS-поток, в другие RSS-потоки или другие поиски, в данном выполнении задания или в одном из предыдущих выполнений, - а затем скачиваются только новые ссылки.

Причем, если Вы хотите результаты каких-то заданий рубрицировать в нескольких других заданиях, то можете экспортировать их в клиентские папки (это можно делать не только для рубрик, но и для потоков), а затем импортировать в тех заданиях, в которых нужно. Это полезно, в частности, для той цели, о которой Вы написали: не скачивать несколько раз одно и тоже.


-- petryashov написал 4 апреля 2013 11:59
ага, понял, спасибо


-- Алексей Мыльников написал 4 апреля 2013 12:14
P.S.
Это говорилось не про WebSpider.
WebSpider скачивает все ссылки, затем сравнивает контент каждой с предыдущим состоянием (ссылка может исчезнуть, а потом опять появиться), находит изменения и рубрицирует их.
Если ссылки не было ранее, то она вся попадет на рубрикацию.
Здесь никуда не денешься - обрабатываются обновления ссылок, а не новые ссылки.



-- petryashov написал 4 апреля 2013 13:59

Алексей Мыльников написал:
[q]
Это говорилось не про WebSpider.
[/q]


Как раз хотел написать, что у меня сейчас отрабатывается пакет, в котором 2 сценария по тендерам: мой и Ваш. Работает уже 5 часов, выделяет контент из 6 615 ссылок. Получается очень долго.

В этой связи вопрос по RSS и возник: при мониторинге RSS- потоков лично мне не нужно, чтобы программа выделяла каждый раз контент из тех ссылок, которые она уже неоднократно скачивала и сравнивала, а не было ли изменений. Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока. Отслеживать пропавшие, а затем вновь появившиеся ссылки нужно далеко не во всех случаях. В этой связи и предлагаю предусмотреть возможность выбора следующего параметра при подключении RSS - проверять весь поток или только новые записи.



-- Алексей Мыльников написал 4 апреля 2013 15:21
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.


-- petryashov написал 4 апреля 2013 17:04

Алексей Мыльников написал:
[q]
Так Вы же первый раз выполняете задание?
Если да, то для СайтСпутника все ссылки новые. Завтра будете выполнять - новых будет намного меньше, штук 1000. Вот они и будут скачиваться и рубрицироваться.
[/q]


Да вот в том-то и дело, что нет (см. скриншот). Запустил один и тот же пакет 1,2 и 4 апреля. Каждый день обрабатывается по 6 тысяч ссылок.



-- petryashov написал 4 апреля 2013 17:05
А вот статистика по попаданиям в рубрики:



-- Vinni написал 4 апреля 2013 17:29

petryashov написал:
[q]
Нужно, чтобы она скачивала только те данные из RSS- потока, которые новее, чем дата последнего посещения RSS - потока.
[/q]


Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID.
Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д. :crazy:




-- Алексей Мыльников написал 4 апреля 2013 17:30
Посмотрте в "Настройках-Парамерты" на вкладке "Поиск и сбор" - стоит ли хоть одна галочка сверху по созданию списка "Новые", если да, то это моя вина (где-то лет 5 назад ставил "заглушку" на создание списка "Новые", если размер файла с новыми ссылками более 2,5 мгб). В любом случае, сегодня уберу "заглушку". Вполне вероятно, что она сработала: списка "Новые" у Вас на картинке нет.


-- petryashov написал 4 апреля 2013 18:16
2 Алексей Мыльников
Да, у меня стоит галка напротив пункта "Создавать список "Новые относительно 90 точно таких же поисков..."


-- petryashov написал 4 апреля 2013 18:18

Vinni написал:
[q]

Ну обычно делают немного не так - у каждой новости в RSS есть тег с уникальным идентификатором (GUID), в качестве которого обычно указывается ссылка на новость, и rss-клиенты хранят список прочитанных GUID-ов и скачивают полные тексты новостей только для тех новых GUID.
Дело в том, что регулярно сталкиваюсь с тем, что поле даты-времени на сайтах глючит и новости датируются 1940-ым годом и т.д.
[/q]


Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?



-- Алексей Мыльников написал 4 апреля 2013 19:23

petryashov написал:
[q]
еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?
[/q]

1. Из 50 источников, задействованных у Вас, только 4 RSS, остальные поиски или эмуляция, в которых нет информации, упомянутой Винни. Далеко не над всеми потоками информации создаются RSS.

2. В СайтСпутнике все материалы скачиваются только при первом прогоне. Если они (материалы) не нужны, по после окончания поиска можно остановить процесс (скачивать и рубрицировать не обязательно).

3. Можно обновиться и выполнить задание, список "Новые" должен появиться и, соответственно, повторных скачиваний не будет.




-- Vinni написал 4 апреля 2013 23:06

petryashov написал:
[q]
Спасибо, интересно. Может быть, Вы знаете еще какие-нибудь способы выделения новых материалов в RSS - потоке среди прочитанных?
[/q]


Ну вообще согласно спецификации RSS это штатный способ :wink:
Можно конечно и по тегу даты-времени новости, но это более ненадежный способ :wonder1:

Собсно, RSS-поток по определению избыточен...



-- Игорь Нежданов написал 5 апреля 2013 8:53

petryashov написал:
[q]
Как определять, какие записи старые, а какие новые? В тексте RSS- потока даты появления сообщений маркируются специальными тегами, причем самое новое сообщение находится наверху.
[/q]

Дим, я пару раз столкнулся с RSS-потоками, которые были отсортированы наоборот, а число записей в ленте превышало 200. Самый свежий материал был в конце ленты. Поэтому не советую брать за константу, что в RSSках всегда прямая сортировка. Если найду эти ленты - скину, но дело было года полтора назад, причем ленты были с буржуйских финансовых порталов.



-- petryashov написал 5 апреля 2013 9:19
Для: Игорь Нежданов и Vinni
Спасибо!


-- petryashov написал 5 апреля 2013 9:30
2 Алексей Мыльников
Понял, спасибо! Версию обновил, по итогам запуска напишу


-- petryashov написал 15 апреля 2013 16:45
Совместными усилиями с Алексеем выяснили, что при обработке больших объемов данных программа могла работать некорректно: не выделялся список "Новые", в результате чего программа каждый раз обрабатывала тысячи ссылок. Момент возникновения бага зависел от оперативной памяти компьютера: например, на машине с оперативной памятью 1 ГБайт он был выявлен при обработке примерно 3 000 ссылок, на машинах с бОльшим объемом памяти данная ошибка выплыла при обработке 13 000 ссылок.

В результате была выпущена версия 8.4.2.9., в которой данная ошибка устранена. Кроме того, желательно увеличить объем оперативной памяти для повышения скорости работы


-- SiRafim написал 1 июня 2015 0:39

Игорь Нежданов написал:
[q]
[/q]


Алексей Мыльников написал:
[q]
[/q]

Что-то изменилось в механизме создания сценариев? Или поисковики что поменяли?
Пытаюсь использовать "старые" сценарии ориентированные на поиск в новостях Google и Яндекс - результат "новые ссылки не найдены"
Пытаюсь создать новые сценарии - результат "новые ссылки не найдены". :binocular:
Что я делаю на примере Google:
1. www.google.com раздел новости Google.
2. Инструменты поиска: "за неделю" и "по дате"
3. в поисковой строке: "сайт"
4. вновь сгенерированный адрес страницы копирую в "мастер подключения новых источников"
5. На кнопке "открыть" левой кнопкой мыши.
6. далее дважды определить автоматически
7. ну а дальше тестируем
может при описании что-то пропустил, но это не существенно.
факт в том, что старые сценарии не работают - новые не создаются.
Help!!!


-- Алексей Мыльников написал 1 июня 2015 3:58

SiRafim написал:
[q]
Help!!!
[/q]

Вы всё правильно делали.
Ошибку в программе для указанного Вами поиска в новостях Гугля за последнюю неделю, упорядоченный по дате, исправил. Обновитесь до версии 8.8.7.15.

Файл экспорта-импорта этого поиска, на всякий случай, прикрепил. Автоматом в Мастере "Признак начала сниппета" для него выдается таким: <h3 и ещё символы, вручную его укоротил до: <h3 - этого достаточно.

Если есть ещё неудачные поиски, то прикрепите их файлы экспорта-импорта.



-- SiRafim написал 1 июня 2015 10:15

Алексей Мыльников написал:
[q]
Ошибку в программе ... исправил
[/q]

Спасибо :good: .

:blush:
но для такого начинающего пользователя как объясните пожалуйста или ссылку на разъяснение скиньте пожалуйста сто такое
Алексей Мыльников написал:
[q]
прикрепите их файлы экспорта-импорта
[/q]




-- Алексей Мыльников написал 1 июня 2015 10:26

SiRafim написал:
[q]
или ссылку на разъяснение скиньте
[/q]

Смотрите сообщение #20 из этой темы, и ещё это можно прочитать: Экспорт-импорт поисковых средств (http://sitesputnik.ru/Help/SSMasExIm.htm).


-- petryashov написал 15 апреля 2016 9:54
Алексей, как подключать вот такие ресурсы? ttp://www.interrao.ru/press-center/news/ ? У них нет разбивки на страницы, новая порция информации появляется после нажатия кнопки "Показать еще" или аналогичной


-- Алексей Мыльников написал 15 апреля 2016 11:09

petryashov написал:
[q]
Алексей, как подключать вот такие ресурсы? ttp://www.interrao.ru/press-center/news/ ? У них нет разбивки на страницы, новая порция информации появляется после нажатия кнопки "Показать еще" или аналогичной
[/q]



-- Алексей Мыльников написал 16 декабря 2021 14:38



Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект