Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Сбор контактной информации по списку ЮЛ http://forum.razved.info//index.php?t=992




-- Алексей Мыльников написал 17 июня 2010 10:53
Это новое (второе после мониторинга СМИ и новостных источников) приложение программы SiteSputnik, сочетающее: поиск, открытие найденных страниц, выделение целевого контента из страницы и формирование выдачи.
Оно реализовано через специальный тип пакета запросов, называемый: ^^Контакты; (для мониторинга СМИ применялся пакет ^^Новости;).

В текст пакета ^^Контакты; вводится список предприятий (он, как правило берется в интернете, например, под рубрикой "Наши партнеры"),
затем этот пакет выполняется (поиск релевантных страниц ведется на Яндексе и Google, выделение контактной информации осуществляет специальная процедура),
результатом выполнения является табличка, в которой для каждого предприятия указываются: адрес, телефоны, факсы, e-mail.

Этот пакет создавался по корпоративному заказу. Заранее было оговорено, что заказчика устроит достоверность информации по адресу и телефону предприятия - 50% или выше.
То есть, если на вход подано 1000 предприятий, то не менее 500 из них должно иметь актуальный адрес и телефон. К факсам и e-mail - такого требования не предъявлялось: найдены - хорошо, не найдены - не критично.

Эта работа (разработка ПО, испытания заказчиком, оценка им достоверности контактной информации) проводилась с января по июнь т.г. Договорные обязательства были выполнены обеими сторонами.

Если возникнет потребность, то в идеале можно будет попытаться составить полную карточку партнера на основе данных, полученных из открытых источников, или находить другую информацию.
Возможно, полезным окажется подключение других дополнительных источников информации к Яндексу и Google.

В общем случае, это реализация на БУДУЩЕЕ следующего механизма:
1) ПОДАЧИ на вход СайтСпутник(а) списка объектов (в нашем случае это список предприятий),
2) ПОИСКА удовлетворяющих критерию поиска веб-страниц (в нашем случае это страницы, содержащие адреса и телефоны предприятия),
3) ОТКРЫТИЯ найденных страниц (в пакете ^^Контакты; для каждого предприятия скачивалось несколько страниц и выбиралась более подходящая),
4) ВЫДЕЛЕНИЯ целевого контента из страницы (как выражается Иоанн "сущность, которую нужно выявить", - в нашем случае это адрес почтовый и юридический, номера телефонов, факсов, e-mail)
5) формирования специальной ВЫДАЧИ (табличка).

Подобным работам в будущем в СайтСпутнике обязательно будет уделяться особое внимание, так как речь идет об экономии ресурсов не в разы, а на порядки.
Представьте, сколько времени уйдет на ручную добычу контактной информации о 3000 предприятиях при помощи поисковиков. В СайтСпутнике в 17-00 запрускается пакет из 3000 предприятий, в 9-00 следующего дня сотрудники соответствующего отдела получают табличку с контактной информацией и далее работают с ней.
Чесно говоря, не знаю какими методами ведется далее работа (и доработка) и почему устраивает 50% достоверность, - в эти подробности не вдавался.

Кроме этого СайтСпутник, выполняя пакет ^^Контакты;, распознает страницы, на которых размещены списки предприятий или списки коммерческих предложений от различных предприятий, и создает файл, содержащий ссылки на эти страницы. То есть находит информацию, которая вдальнейшем может быть подана на вход пакета ^^Контакты;.

Подробнее о сборе контактной информации в инструкции - sitesputnik.ru/Help/SSContacts.doc
Демо-версия пакета ^^Контакты; доступна в SiteSputnik 6.4.1. от 17.06.10


-- vbl написал 17 июня 2010 12:38
Отличная идея. Буду тестировать.

В связи с вышесказанным сразу есть вопрос.

Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта.

Как будет вести себя СайтСпутник при нахождении старых и новых данных? Какие будут в таблице?

А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше.




-- tungus1973 написал 17 июня 2010 13:23
Попробовал новую функцию ^^Контакты;. Работает быстро, но даёт ошибки.
Запускал 4 разных пакета.
Два первых пакета (в каждом запрос только по одному предприятию) выдали ошибочные результаты, т.е. все найденные данные - неправильные.
В третьем пакете были правильно определены адреса, телефоны, факсы 2х предприятий из 3х. E-mail'ы не найдены, либо найдены неправильно, что, впрочем и не гарантировалось автором.
Четвертый пакет - 7 предприятий. По 3м - данные правильные, по 4м предприятиям данные неправильные (т.е. не совпадают ни адрес, ни телефон).

В целом идея мне понравилась.

Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет, который запускается по сценарию Main:

Пакет пользователя:
00001 ООО "Компания" +Самара

Пакет СайтСпутника:
("ООО "Компания"") +адрес +факс +Самара ^^00001

Возможно, для снижения количества ошибок, можно немножко поправить внутренние пакеты СайтСпутника?
Например, Яндекс считает ошибкой кавычки, идущие подряд "". Для выявления факсов, в том же Яндексе, можно было применить конструкцию: (факс | "ф."). Для адреса, в Яндексе: !(Адрес | адр.). И т.д.

Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail.

Функцию ^^Новости; не пробовал, т.к. не нашел описание, как для неё составлять пакеты.


-- Алексей Мыльников написал 17 июня 2010 14:01

vbl написал:
[q]
Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта.

Как будет вести себя СайтСпутник при нахождении старых и новых данных? Какие будут в таблице?
[/q]

Пытается выбрать стараницу, на которой представлена контактная информация только об обрабатывемом предприятии и выделяет ее. На предмет "старая-новая" в данной версии анализа нет.
vbl написал:
[q]
А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше.
[/q]

Указывается город, например, +Волгоград


-- Алексей Мыльников написал 17 июня 2010 14:04

tungus1973 написал:
[q]
Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет
[/q]

Да.

tungus1973 написал:
[q]
Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail.
[/q]

Нет, не сниппеты перебирает, а скачивает целиком страницы и анализирует их.

Что касается точности, то здесь можно будет поработать. Я остановился на том, что выполнил требования заказчика.


-- petryashov написал 17 июня 2010 14:26
Запустил по двум организациям. У первой организации найден старый адрес, по которому ее уже несколько лет как нет. телефон не нашелся вообще. При этом новый адрес и телефон этой организации без особых проблем можно найти, в том числе и на сайте данной организации, находящемся в Яндексе на первом месте по названию организации.

А задумка классная, точность бы еще повысить.;-)



-- Алексей Мыльников написал 17 июня 2010 17:47

petryashov написал:
[q]
А задумка классная, точность бы еще повысить.;-)
[/q]

Как написано выше, "протоптана" дорожка. Надеюсь, что в будущем найдутся другие задачи, с другими объектами и другими "сущностями, которые нужно выявить". Пока как есть. Повышение точности напрямую связано с повышением цены вопроса.


-- Игорь Нежданов написал 17 июня 2010 21:04
А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все?


-- Алексей Мыльников написал 17 июня 2010 22:37

Иоанн написал:
[q]
А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все?
[/q]

Не все, только с одной страницы.


-- Игорь Нежданов написал 18 июня 2010 9:09

Alexei Mylnikov написал:
[q]

Иоанн написал:
[q]

А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все?
[/q]

Не все, только с одной страницы.
[/q]

Ага - тогда нужно понимание - с одной страницы это с первой страницы выдачи поисковика? Но с этой страницы все адреса-телефоны?


К стати вот еще момент. В результате работы сервиса "Контакты" в СайтСпутнике выдается набор строк в таблице 1 и пара строк в таблице 2. А можно как то "свернуть" эти строки в таблице 1 в одну строку как это в остальных вариантах использования пакетного поиска сделано? Уж больно много места они занимают.


-- Алексей Мыльников написал 18 июня 2010 10:44

Иоанн написал:
[q]
Ага - тогда нужно понимание - с одной страницы это с первой страницы выдачи поисковика? Но с этой страницы все адреса-телефоны?
[/q]

Все адреса-телефоны, относящиеся к предприятию.

Иоанн написал:
[q]
К стати вот еще момент. В результате работы сервиса "Контакты" в СайтСпутнике выдается набор строк в таблице 1 и пара строк в таблице 2. А можно как то "свернуть" эти строки в таблице 1 в одну строку как это в остальных вариантах использования пакетного поиска сделано? Уж больно много места они занимают.
[/q]

Можно запрограммировать свертывание, можно вообще их не создавать. С реализацией папок в БД "Поиск в Интернете" это уже не так актуально.



-- Игорь Нежданов написал 18 июня 2010 10:47

Alexei Mylnikov написал:
[q]
С реализацией папок в БД "Поиск в Интернете" это уже не так актуально.
[/q]

В общем - да.


-- Игорь Нежданов написал 18 июня 2010 12:22
Такс... потестировал еще - отсутствие "объединяющей строки" усложняет процесс удаления остальных строк. Фактически каждую отдельно нужно удалять. Утомительно если много объектов было в обработке :sad:


-- Алексей Мыльников написал 21 июня 2010 4:19

Иоанн написал:
[q]
Такс... потестировал еще - отсутствие "объединяющей строки" усложняет процесс удаления остальных строк. Фактически каждую отдельно нужно удалять. Утомительно если много объектов было в обработке
[/q]

1. Установите "Да" в столбце "Вкл. в группу" в верхней таблице.
2. В подменю "Глобус с линзой" выберите пункт "Групповые операции поиска - Манипулирование группами - Удаление физическое".




-- Игорь Нежданов написал 21 июня 2010 9:05
Спасибо! - уже проще.


Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект