Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Сбор контактной информации по списку ЮЛ |
<<Назад Вперед>> | Страницы: 1 2 | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Это новое (второе после мониторинга СМИ и новостных источников) приложение программы SiteSputnik, сочетающее: поиск, открытие найденных страниц, выделение целевого контента из страницы и формирование выдачи. Оно реализовано через специальный тип пакета запросов, называемый: ^^Контакты; (для мониторинга СМИ применялся пакет ^^Новости;). В текст пакета ^^Контакты; вводится список предприятий (он, как правило берется в интернете, например, под рубрикой "Наши партнеры"), затем этот пакет выполняется (поиск релевантных страниц ведется на Яндексе и Google, выделение контактной информации осуществляет специальная процедура), результатом выполнения является табличка, в которой для каждого предприятия указываются: адрес, телефоны, факсы, e-mail. Этот пакет создавался по корпоративному заказу. Заранее было оговорено, что заказчика устроит достоверность информации по адресу и телефону предприятия - 50% или выше. То есть, если на вход подано 1000 предприятий, то не менее 500 из них должно иметь актуальный адрес и телефон. К факсам и e-mail - такого требования не предъявлялось: найдены - хорошо, не найдены - не критично. Эта работа (разработка ПО, испытания заказчиком, оценка им достоверности контактной информации) проводилась с января по июнь т.г. Договорные обязательства были выполнены обеими сторонами. Если возникнет потребность, то в идеале можно будет попытаться составить полную карточку партнера на основе данных, полученных из открытых источников, или находить другую информацию. Возможно, полезным окажется подключение других дополнительных источников информации к Яндексу и Google. В общем случае, это реализация на БУДУЩЕЕ следующего механизма: 1) ПОДАЧИ на вход СайтСпутник(а) списка объектов (в нашем случае это список предприятий), 2) ПОИСКА удовлетворяющих критерию поиска веб-страниц (в нашем случае это страницы, содержащие адреса и телефоны предприятия), 3) ОТКРЫТИЯ найденных страниц (в пакете ^^Контакты; для каждого предприятия скачивалось несколько страниц и выбиралась более подходящая), 4) ВЫДЕЛЕНИЯ целевого контента из страницы (как выражается Иоанн "сущность, которую нужно выявить", - в нашем случае это адрес почтовый и юридический, номера телефонов, факсов, e-mail) 5) формирования специальной ВЫДАЧИ (табличка). Подобным работам в будущем в СайтСпутнике обязательно будет уделяться особое внимание, так как речь идет об экономии ресурсов не в разы, а на порядки. Представьте, сколько времени уйдет на ручную добычу контактной информации о 3000 предприятиях при помощи поисковиков. В СайтСпутнике в 17-00 запрускается пакет из 3000 предприятий, в 9-00 следующего дня сотрудники соответствующего отдела получают табличку с контактной информацией и далее работают с ней. Чесно говоря, не знаю какими методами ведется далее работа (и доработка) и почему устраивает 50% достоверность, - в эти подробности не вдавался. Кроме этого СайтСпутник, выполняя пакет ^^Контакты;, распознает страницы, на которых размещены списки предприятий или списки коммерческих предложений от различных предприятий, и создает файл, содержащий ссылки на эти страницы. То есть находит информацию, которая вдальнейшем может быть подана на вход пакета ^^Контакты;. Подробнее о сборе контактной информации в инструкции - sitesputnik.ru/Help/SSContacts.doc Демо-версия пакета ^^Контакты; доступна в SiteSputnik 6.4.1. от 17.06.10 |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 179 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 17 июня 2010 12:38 Сообщение отредактировано: 17 июня 2010 12:46
Отличная идея. Буду тестировать. В связи с вышесказанным сразу есть вопрос. Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта. Как будет вести себя СайтСпутник при нахождении старых и новых данных? Какие будут в таблице? А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше. ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Попробовал новую функцию ^^Контакты;. Работает быстро, но даёт ошибки. Запускал 4 разных пакета. Два первых пакета (в каждом запрос только по одному предприятию) выдали ошибочные результаты, т.е. все найденные данные - неправильные. В третьем пакете были правильно определены адреса, телефоны, факсы 2х предприятий из 3х. E-mail'ы не найдены, либо найдены неправильно, что, впрочем и не гарантировалось автором. Четвертый пакет - 7 предприятий. По 3м - данные правильные, по 4м предприятиям данные неправильные (т.е. не совпадают ни адрес, ни телефон). В целом идея мне понравилась. Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет, который запускается по сценарию Main: Пакет пользователя: 00001 ООО "Компания" +Самара Пакет СайтСпутника: ("ООО "Компания"") +адрес +факс +Самара ^^00001 Возможно, для снижения количества ошибок, можно немножко поправить внутренние пакеты СайтСпутника? Например, Яндекс считает ошибкой кавычки, идущие подряд "". Для выявления факсов, в том же Яндексе, можно было применить конструкцию: (факс | "ф."). Для адреса, в Яндексе: !(Адрес | адр.). И т.д. Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail. Функцию ^^Новости; не пробовал, т.к. не нашел описание, как для неё составлять пакеты. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта. Пытается выбрать стараницу, на которой представлена контактная информация только об обрабатывемом предприятии и выделяет ее. На предмет "старая-новая" в данной версии анализа нет. vbl написал: А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше. Указывается город, например, +Волгоград |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет Да. tungus1973 написал: Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail. Нет, не сниппеты перебирает, а скачивает целиком страницы и анализирует их. Что касается точности, то здесь можно будет поработать. Я остановился на том, что выполнил требования заказчика. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 17 июня 2010 14:26 Сообщение отредактировано: 17 июня 2010 14:43
Запустил по двум организациям. У первой организации найден старый адрес, по которому ее уже несколько лет как нет. телефон не нашелся вообще. При этом новый адрес и телефон этой организации без особых проблем можно найти, в том числе и на сайте данной организации, находящемся в Яндексе на первом месте по названию организации. А задумка классная, точность бы еще повысить.;-) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: А задумка классная, точность бы еще повысить.;-) Как написано выше, "протоптана" дорожка. Надеюсь, что в будущем найдутся другие задачи, с другими объектами и другими "сущностями, которые нужно выявить". Пока как есть. Повышение точности напрямую связано с повышением цены вопроса. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Иоанн написал: А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все? Не все, только с одной страницы. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 18 июня 2010 9:09 Сообщение отредактировано: 18 июня 2010 9:46 Alexei Mylnikov написал:
Ага - тогда нужно понимание - с одной страницы это с первой страницы выдачи поисковика? Но с этой страницы все адреса-телефоны? К стати вот еще момент. В результате работы сервиса "Контакты" в СайтСпутнике выдается набор строк в таблице 1 и пара строк в таблице 2. А можно как то "свернуть" эти строки в таблице 1 в одну строку как это в остальных вариантах использования пакетного поиска сделано? Уж больно много места они занимают. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
<<Назад Вперед>> | Страницы: 1 2 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Сбор контактной информации по списку ЮЛ |
Самые активные 20 тем | |