Автоматизация документооборота и бизнес-процессов – исторически одно из основных направлений работы Digital Design. Многолетний опыт работы с документами, накопленная база и сформированные компетенции стали предпосылками исследования применения технологий искусственного интеллекта для анализа текстовых документов. В частности, мы работаем над преобразованием неструктурированной текстовой информации в систематизированные данные, и извлечением сведений для принятия решений с помощью методов машинного обучения и алгоритмов обработки естественного языка.
Интеллектуальная обработка текстов, систематизация и категоризация документов помогают автоматизировать рутинные и трудоемкие задачи, извлечь пользу из неструктурированных данных. Технологии кластеризации документов и классификации обращений дают возможность реализовать генерацию ответов и автореферирование документов, чтобы значительно повысить эффективность работы с документами.
Мы занимаемся исследованием обработки текста при помощи искусственного интеллекта по следующим направлениям:
Помощник по формированию документов
Помощник по обработке входящих документов
Диалоговые интерфейсы
Анализ базы документов
В основе наших предложений по анализу текстовых документов лежат технологии искусственного интеллекта, в частности алгоритмы машинного обучения и обработки естественного языка NLP (Natural Language Processing). Использование NLP-методов расширяет функциональные возможности анализа текста, не ограничивая пользователя установленными правилами обработки, а предоставляя ему возможность взаимодействовать с системой в привычном разговорном формате. Схема анализа текста зависит от задачи и отличается в зависимости от выбранного метода.
Общий принцип работы:
При решении задачи классификации документов используется база размеченных текстовых данных, на которых обучается система. Это позволяет присвоить новым или не типизированным документам нужные теги и отнести к классу, что способствует достижению цели по упорядочиванию и категоризации информации, быстрой обработке документов, их автоматическому распределению и легкому поиску. Кластеризация документов, в свою очередь, дает возможность добиться схожих целей, но работает с «сырыми, чистыми» документами, когда нет обучающей базы размеченных данных. Таким образом, благодаря кластеризации можно определить неявные связи и выделить новые группы документов, что позволяет обновить типизацию документов и по-новому их систематизировать.
Модели машинного обучения, проводящие классификацию текстовых и голосовых обращений и формирование шаблонов ответов, не обладают собственным интерфейсом. Поэтому формат финальной реализации зависит от предпочтений и нужд заказчика. Из наиболее распространённых вариантов конечного интерфейса, где отображается результат работы моделей, можно выделить: виртуальный ассистент (чат-бот), модуль в системе электронного документооборота, модуль в портальном решении или новая система, разработанная под заказчика.
При автореферировании документов производится анализ текстовой информации; выделение смысловых тем, упоминаемых в документе, и определение вопросов, которых касается документ. После обработки содержимого документа формируется краткое изложение его основных пунктов. Формат изложения может варьироваться, но для более точного понимания моделью сути документа используется экстрактивный метод, выдающий последовательные выдержки из основного текста.
Выбор задачи для решения зависит от конкретной конечной цели. Однако наиболее универсальной задачей, с которой лучше начать, является выделение именованных сущностей (NER). Она служит основой для решения других NLP-задач, а также позволяет осуществить мониторинг упоминаемости объекта, автоматизировать ввод данных в таблицы для учета и сформировать аналитику по объектам.