Большие данные

PROMT Analyser – система для поиска, извлечения и обобщения информации из неструктурированных текстовых данных на разных языках. Использование лингвистических технологий для анализа неструктурированных текстовых данных существенно сокращает временные затраты на аналитику и повышает точность анализа. Она позволяет, в частности, не только работать с данными по ключевым словам, но и анализировать текст для того чтобы отнести те или иные слова к ключевым. Например, если в тексте говорится о конкретном человеке, то система выделит фразы как с именем, так и с другими словами, относящимися к нему.

PROMT Analyser

Источник: PROMT, 2016

Как использовать большие данные: варианты

Существуют два подхода к анализу больших данных: классический BI и Advanced Analytics. Первый отвечает на простые вопросы: «Когда? Кто? Как? Сколько?» и т. п., а второй подход позволяет оценивать, почему происходят те или иные события, что будет при выполнении определенных условий и произойдет ли событие снова. «Неотъемлемой и важной частью Advanced Analytics является текстовая аналитика. Она позволяет добывать данные в реальном времени из различных источников, категоризировать их, извлекать значимую информацию с выделением заданных сущностей и отправкой данных в CRM, анализировать мнения по их тональности и другим признакам, а также самообучаться», – говорит Илья Вигер, СЕО компании Vesolv. В частности, возможности текстовой аналитики позволили Vesolv создать такое интересное решение, как модуль «Голос клиента» для автоматической агрегации и анализа клиентского опыта.

В больших данных есть классические три V: большие объемы (Volume) неструктурированной или слабо структурированной информации (Veriety), которая быстро накапливается и требует быстрой обработки (Velocity). К ним добавились еще две: Veracity – достоверность, и Value – ценность. То есть данные нужно уметь правильно интерпретировать и они должны нести ценность для бизнеса.

На каждого пользователя сохраняется история за 2 месяца: на какие сайты заходил, с каких устройств, какие ОС использовал, где живет, где работает. Всего задействованы более 300 поставщиков данных. И на основе этих данных можно собрать важную для бизнеса информацию: пол, возраст, у кого есть кредиты, ипотека, автомобили, хобби, кто отдыхает за рубежом – но без сбора персональных данных, по которым можно идентифицировать личности. Смысл в том, чтобы найти похожих клиентов, сгруппировать их по профилям и отслеживать их реакции на действия банка с целью разработки моделей эффективного взаимодействия.

https://clck.ru/9o4zB