Типы поиска

01.03.2015

Вернуться к списку новостей

Для поиска критичной информации в проиндексированных документах, AlertCenter использует следующие типы запросов:

  • поиск по словам;
  • фразовый поиск;
  • поиск по словарю;
  • поиск похожих;
  • поиск по атрибутам;
  • поиск нераспознанных;
  • поиск по регулярным выражениям;
  • поиск по цифровым отпечаткам;
  • сложные запросы;
  • поиск по базам данных;
  • статистические запросы;
  • запросы Active Directory.

Поиск по словам

Простейший вид поиска, позволяющий находить документы, содержащие заданные слова, их различные формы и синонимы, вне зависимости от того, в какой части документа они находятся. К возможностям текстового поиска в SearchInform AlertCenter также относится использование морфологии. Этот режим позволяет ввести в поисковую строку одно слово, а поиск текста будет осуществляться по всем его словоформам (например, компания — компании — компанией — компанию — … и т.п.). Исходя из этого, крайне рекомендуется установка морфологической базы данных для языка, на котором будет осуществляться поиск.

Фразовый поиск

Это поиск в предложениях с возможностью ограничения расстояния между словами запроса и фиксирования порядка слов. SearchInform AlertCenter позволяет использовать синонимические ряды для фразового поиска. Они помогают осуществлять поиск с учетом всех возможных подходящих по смыслу комбинаций слов, соответствующих запросу. При этом, если поиск производится с использованием фразы, включающей в себя слова, для которых заданы синонимы, то SearchInform AlertCenter автоматически переберет все возможные варианты компоновки слов и включит все содержащие их документы в результаты поиска.

Поиск по словарю

Этот способ поиска позволяет обнаруживать в перехваченных данных документы, содержащие слова и словосочетания из заранее сформулированного перечня (словаря). При этом можно указать как процент слов из словаря, содержащийся в документе, так и процент документа, содержащийся в словаре. Данный способ поиска удобен, прежде всего, для обнаружения документов, связанных со спецификой деятельности компании: отчетов, бизнес-планов, технологических разработок.

Словари синонимов

Специально разработанный уникальный словарь синонимов – мощное средство выявления коррупционных схем и «откатов»: поскольку в переговорах о передаче взятки само слово «взятка» обычно явно не фигурирует, в словаре синонимов могут быть перечислены иные слова для ее обозначения («подарок», «благодарность», «откат» и т.д.), которые SearchInform AlertCenter обнаружит в перехваченных данных. Встроенный в приложение словарь может расширяться по усмотрению пользователя за счет включения новых слов, а также целых тематических разделов.

Поиск похожих документов

При «поиске похожих» в качестве запроса используется целый текст и анализируется степень соответствия проиндексированных документов тексту запроса. Данный тип запросов рекомендуется использовать для выявления однотипных структурированных документов, включающих общие элементы — отчеты, счета, договоры, резюме и др.

Поиск по атрибутам документов

Использование этого вида поиска позволяет искать документы по их атрибутам (формату, отправителям, получателям и т.д.). Это позволяет узнавать в оповещениях о совпадении атрибутов перехваченной информации с заданными в алерте атрибутами. Так, например, можно отслеживать активность отдельных доменных пользователей, IP адреса, определенные адреса электронной почты, документы и т.д.

При помощи такого вида поиска также можно отслеживать копирование или пересылку файлов определенных форматов. Например, для проектных организаций таким форматом являются файлы, созданные в программе AutoCad, и такая возможность позволит им избежать утечки информации с предприятия.

Поиск нераспознанных документов

В SearchInform AlertCenter можно настроить автоматические уведомления по документам, которые не удалось проиндексировать. При этом можно искать следующие типы нераспознанных файлов:

  • документ защищен паролем;
  • неизвестный тип документа;
  • прочие нераспознанные документы.

И выбирать следующие опции фиксации инцидентов:

  • нераспознанные документы всех форматов;
  • нераспознанные документы выбранных форматов;
  • нераспознанные документы, за исключением файлов выбранных форматов.

Поиск по регулярным выражениям

Шаблоны регулярных выражений дают возможность искать данные по их форме, а не по точному значению. Шаблон позволяет найти все документы, содержащие данные указанной структуры. Используя сложные регулярные выражения (цепочки регулярных выражений), можно отследить пересылку информации из базы данных, содержащей множество полей. Для этого создаются цепочки шаблонов, каждый из которых будет настроен на отдельное поле.

Настройки:

  • Минимальная длина цепочки – количество шаблонов из цепочки, которое должно быть найдено для срабатывания критерия (например, из 6 полей базы в пересылаемом документе могут присутствовать только 4);
  • Минимальное количество цепочек – количество найденных цепочек, необходимое для срабатывания критерия (сколько записей из базы данных передавалось);
  • Минимальная длина пробелов в цепочке – количество символов между отдельными шаблонами цепочки (между записями из базы данных может присутствовать другой текст, например, «номер паспорта»).

Цифровые отпечатки

Цифровые отпечатки позволяют осуществлять поиск любых по размеру и структуре документов, начиная с различных финансовых отчетов и заканчивая персональными данными сотрудников, акционеров или клиентов компании. При этом обнаружение документов возможно даже в том случае, если они отличаются от оригинала, например, когда документ скомпилирован из нескольких.

На первоначальном этапе необходимо отобрать документы, содержание которых должно быть защищено от утечек, и поместить их электронные копии в базу. С этой целью настраивается библиотека цифровых отпечатков в SearchInform DataCenter. База данных с образцами должна постоянно находиться в актуальном состоянии.

Благодаря тому, что в базе данных хранятся не сами конфиденциальные документы, а их «снимки», исключается утечка конфиденциальной информации в результате несанкционированного доступа к базе данных сотрудников компании или сторонних злоумышленников.

Сложные запросы

Возможность создания сложных запросов позволяет гибко задавать условия, по которым будет осуществляться поиск. Сложные запросы могут включать в себя два и более простых запросов, объединенных при помощи логических операторов. Их целесообразно применять в том случае, если поставленную задачу невозможно решить при помощи простых запросов. Сложные запросы позволяют комбинировать до 26 простых текстовых и атрибутных запросов при помощи логических операторов AND, OR и NOT.

Так, например, в SearchInform AlertCenter возможно задать условия, при которых будет проверяться только исходящая корреспонденция конкретного сотрудника, в которой содержатся документы определенного типа.

Поиск по базам данных

Использование поиска по базам данных позволяет выявлять возможные нарушения, не связанные с поиском текстовой информации. Например, контроль доступа пользователей к тем или иным файлам на рабочих станциях или файл-серверах.

Аналогично поиску по сложным запросам, при поиске по базам данных можно комбинировать запросы при помощи логических операторов AND, OR и NOT.

Статистические запросы

Статистические запросы позволяют выявлять инциденты на основании количественных показателей: число отправленных электронных писем, сообщений в Skype, количество напечатанных страниц и т.д.

Например, копирование файлов на флешку в количествах, превышающих обычные значения для выбранного сотрудника, может свидетельствовать о готовящейся утечке.

Запросы Active Directory

Контроль и анализ событий журналов Active Directory позволяет выявлять подозрительные действия, которые могут совершаться системным администратором компании.  Для отслеживания подобных нарушений политик безопасности используется тип «Запросы Active Directory».