Сбор контактной информации по списку ЮЛ

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Сбор контактной информации по списку ЮЛ
RSS

Сбор контактной информации по списку ЮЛ

Новое приложение программы SiteSputnik, сочетающее поиск, открытие и анализ найденных страниц

<<Назад  Вперед>>Страницы: 1 2
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Это новое (второе после мониторинга СМИ и новостных источников) приложение программы SiteSputnik, сочетающее: поиск, открытие найденных страниц, выделение целевого контента из страницы и формирование выдачи.
Оно реализовано через специальный тип пакета запросов, называемый: ^^Контакты; (для мониторинга СМИ применялся пакет ^^Новости;).

В текст пакета ^^Контакты; вводится список предприятий (он, как правило берется в интернете, например, под рубрикой "Наши партнеры"),
затем этот пакет выполняется (поиск релевантных страниц ведется на Яндексе и Google, выделение контактной информации осуществляет специальная процедура),
результатом выполнения является табличка, в которой для каждого предприятия указываются: адрес, телефоны, факсы, e-mail.

Этот пакет создавался по корпоративному заказу. Заранее было оговорено, что заказчика устроит достоверность информации по адресу и телефону предприятия - 50% или выше.
То есть, если на вход подано 1000 предприятий, то не менее 500 из них должно иметь актуальный адрес и телефон. К факсам и e-mail - такого требования не предъявлялось: найдены - хорошо, не найдены - не критично.

Эта работа (разработка ПО, испытания заказчиком, оценка им достоверности контактной информации) проводилась с января по июнь т.г. Договорные обязательства были выполнены обеими сторонами.

Если возникнет потребность, то в идеале можно будет попытаться составить полную карточку партнера на основе данных, полученных из открытых источников, или находить другую информацию.
Возможно, полезным окажется подключение других дополнительных источников информации к Яндексу и Google.

В общем случае, это реализация на БУДУЩЕЕ следующего механизма:
1) ПОДАЧИ на вход СайтСпутник(а) списка объектов (в нашем случае это список предприятий),
2) ПОИСКА удовлетворяющих критерию поиска веб-страниц (в нашем случае это страницы, содержащие адреса и телефоны предприятия),
3) ОТКРЫТИЯ найденных страниц (в пакете ^^Контакты; для каждого предприятия скачивалось несколько страниц и выбиралась более подходящая),
4) ВЫДЕЛЕНИЯ целевого контента из страницы (как выражается Иоанн "сущность, которую нужно выявить", - в нашем случае это адрес почтовый и юридический, номера телефонов, факсов, e-mail)
5) формирования специальной ВЫДАЧИ (табличка).

Подобным работам в будущем в СайтСпутнике обязательно будет уделяться особое внимание, так как речь идет об экономии ресурсов не в разы, а на порядки.
Представьте, сколько времени уйдет на ручную добычу контактной информации о 3000 предприятиях при помощи поисковиков. В СайтСпутнике в 17-00 запрускается пакет из 3000 предприятий, в 9-00 следующего дня сотрудники соответствующего отдела получают табличку с контактной информацией и далее работают с ней.
Чесно говоря, не знаю какими методами ведется далее работа (и доработка) и почему устраивает 50% достоверность, - в эти подробности не вдавался.

Кроме этого СайтСпутник, выполняя пакет ^^Контакты;, распознает страницы, на которых размещены списки предприятий или списки коммерческих предложений от различных предприятий, и создает файл, содержащий ссылки на эти страницы. То есть находит информацию, которая вдальнейшем может быть подана на вход пакета ^^Контакты;.

Подробнее о сборе контактной информации в инструкции - sitesputnik.ru/Help/SSContacts.doc
Демо-версия пакета ^^Контакты; доступна в SiteSputnik 6.4.1. от 17.06.10

vbl
Модератор форума

Откуда: Нижний Новгород
Всего сообщений: 179
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
10 июня 2009
Отличная идея. Буду тестировать.

В связи с вышесказанным сразу есть вопрос.

Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта.

Как будет вести себя СайтСпутник при нахождении старых и новых данных? Какие будут в таблице?

А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше.


---
Non progredi est regredi

http://www.informnn.ru
Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka
tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Попробовал новую функцию ^^Контакты;. Работает быстро, но даёт ошибки.
Запускал 4 разных пакета.
Два первых пакета (в каждом запрос только по одному предприятию) выдали ошибочные результаты, т.е. все найденные данные - неправильные.
В третьем пакете были правильно определены адреса, телефоны, факсы 2х предприятий из 3х. E-mail'ы не найдены, либо найдены неправильно, что, впрочем и не гарантировалось автором.
Четвертый пакет - 7 предприятий. По 3м - данные правильные, по 4м предприятиям данные неправильные (т.е. не совпадают ни адрес, ни телефон).

В целом идея мне понравилась.

Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет, который запускается по сценарию Main:

Пакет пользователя:
00001 ООО "Компания" +Самара

Пакет СайтСпутника:
("ООО "Компания"") +адрес +факс +Самара ^^00001

Возможно, для снижения количества ошибок, можно немножко поправить внутренние пакеты СайтСпутника?
Например, Яндекс считает ошибкой кавычки, идущие подряд "". Для выявления факсов, в том же Яндексе, можно было применить конструкцию: (факс | "ф."). Для адреса, в Яндексе: !(Адрес | адр.). И т.д.

Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail.

Функцию ^^Новости; не пробовал, т.к. не нашел описание, как для неё составлять пакеты.
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

vbl написал:
[q]
Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта.

Как будет вести себя СайтСпутник при нахождении старых и новых данных? Какие будут в таблице?
[/q]

Пытается выбрать стараницу, на которой представлена контактная информация только об обрабатывемом предприятии и выделяет ее. На предмет "старая-новая" в данной версии анализа нет.
vbl написал:
[q]
А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше.
[/q]

Указывается город, например, +Волгоград

Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

tungus1973 написал:
[q]
Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет
[/q]

Да.

tungus1973 написал:
[q]
Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail.
[/q]

Нет, не сниппеты перебирает, а скачивает целиком страницы и анализирует их.

Что касается точности, то здесь можно будет поработать. Я остановился на том, что выполнил требования заказчика.

petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
Запустил по двум организациям. У первой организации найден старый адрес, по которому ее уже несколько лет как нет. телефон не нашелся вообще. При этом новый адрес и телефон этой организации без особых проблем можно найти, в том числе и на сайте данной организации, находящемся в Яндексе на первом месте по названию организации.

А задумка классная, точность бы еще повысить.;-)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

petryashov написал:
[q]
А задумка классная, точность бы еще повысить.;-)
[/q]

Как написано выше, "протоптана" дорожка. Надеюсь, что в будущем найдутся другие задачи, с другими объектами и другими "сущностями, которые нужно выявить". Пока как есть. Повышение точности напрямую связано с повышением цены вопроса.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Иоанн написал:
[q]
А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все?
[/q]

Не все, только с одной страницы.

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Alexei Mylnikov написал:
[q]

Иоанн написал:
[q]

А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все?
[/q]

Не все, только с одной страницы.
[/q]

Ага - тогда нужно понимание - с одной страницы это с первой страницы выдачи поисковика? Но с этой страницы все адреса-телефоны?


К стати вот еще момент. В результате работы сервиса "Контакты" в СайтСпутнике выдается набор строк в таблице 1 и пара строк в таблице 2. А можно как то "свернуть" эти строки в таблице 1 в одну строку как это в остальных вариантах использования пакетного поиска сделано? Уж больно много места они занимают.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Приемы работы с программой СайтСпутник (SiteSputnik) »   Сбор контактной информации по списку ЮЛ
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS