12 июля 2002 г.
Технологиям поиска и обработки оперативной информации (в первую очередь новостей) на просторах Сети был посвящен семинар "InfoStream технология интеграции информационных ресурсов вэб-пространства".
Особенностей работы с оперативной информацией множество: от высокой частоты обновления до недолговечности ее присутствия на сайтах. Именно для работы с такой информацией и создавалось программно-технологическое обеспечение InfoStream.
Этот комплекс умеет сканировать отобранные и описанные специальным образом сайты так, чтобы собирать всю появившуюся информацию в собственную базу данных (при этом благодаря контент-анализу можно избавиться от дублей, перепечаток и т. п.), составлять дайджесты происходящего в Сети по выбранной теме или направлять заказчикам в письмах новинки и даже формировать на сайтах заказчика тематические новостные ленты, состоящие из анонсов новостей и ссылок на сайты оригиналов.
Впрочем, как рассказал заместитель директора Информационного центра "ЭЛВИСТИ" Дмитрий Ланде, новая технология может существовать в различных ипостасях. Самая простая подписка на сервис Stream-client, который позволит получать интересующие заказчика новости, отбирая их из всех обнаруженных в процессе сканирования. При этом форму представления этих новостей также можно выбрать.
Комплекс Stream-autonomy позволяет интегрировать внутрикорпоративное информационное пространство, а внедрение собственно технологии InfoStream позволяет организовать анализ и мониторинг произвольного набора ресурсов Сети.
Преимущества комплекса проявились во время демонстрационного сеанса, когда представляемая система нашла в три-четыре раза больше, чем популярные поисковики, "горячих" новостей на тему, предложенную слушателями.
Отдельного внимания заслуживают первые шаги в области обработки содержательной части сообщений, выделения содержательных дублей, да и вообще продвижения к работе со смыслом, а не со словами, его выражающими. Конечно, странно было бы ожидать аналитических выводов из найденной информации уже сегодня, но и возможности комплекса по автоматической генерации содержательных дайджестов на основе найденных новостей вызывают, по словам разработчиков системы, "ощущение чуда" даже у них самих. Возможно, что времена, когда обработка смысла сообщения станет таким же привычным делом, как сегодня контроль орфографии.
|