Автоматический поиск, выделение ошибок и аномалий в договорах

О решении

При работе с текстовыми документами большое значение имеют их анализ и проверка, от чего зависит качество документа и соблюдение необходимых требований. Обработка больших объемов текста трудозатратна и требует как внимательности к мельчайшим деталям, так и абсолютного понимания обязательных элементов положений, договоров и актов. В таких случаях человек нередко совершает ошибки или упускает важные нюансы. Однако технологии искусственного интеллекта, применяющиеся для обработки текстовой информации, помогают избежать ошибок и предупредить их последствия, а также значительно ускорить процесс проверки документов.

Digital Design предлагает собственное решение для автоматизации проверки документов, в основе которого лежит модель машинного обучения, выделяющая аномалии в текстах документов и рекомендующая варианты исправления.

Возможности решения
  • Выявление ошибок и пропущенных частей в тексте.
  • Выдача рекомендаций по исправлению или добавлению текста для корректировки документа.
  • Указание на ранее не встречающиеся пункты в аналогичных документах.
  • Проверка корректности реквизитов.
  • Проверка наличия печати, распознавание ее местоположения и сравнение с эталоном.
  • Работа с различными форматами документов (сканированные документы, файлы в формате doc, docx, pdf и т. д.).
  • Внедрение в систему документооборота (СЭД) и работа в ней.
Принцип работы системы

Для анализа документа система использует технологии машинного обучения с применением метода выявления аномалий в тексте. Так как разные типы документов отличаются по наполнению, структуре и обязательным пунктам, первостепенной задачей является его классификация по типу. Более того, семантика каждой главы документа имеет свою уникальную специфику, поэтому алгоритмы настроены для раздельной работы с ними.

После того как данные прошли этап предподготовки и очистки, текст преобразуется к векторному представлению для дальнейшего анализа с помощью нейронных сетей. После получения данных на выходе (output) происходит измерение схожести предложений с использованием метода косинусного расстояния. Так как при применении нейронных сетей валидация модели является непростой задачей, мы прибегаем к созданию синтетических данных – ошибок и неточностей в тексте, чтобы протестировать работу модели.

 

Принцип работы системы
Возможные области применения
Государственное регулирование
Юридическая функция
Бухгалтерский учет
Делопроизводство и архивное дело
Закупочная деятельность
Финансовое управление
Риск-менеджмент
Преимущества
  • Снижение финансовых и репутационных рисков (в том числе связанных с «закладками» в договорах) и значительное сокращение трудозатрат.
  • Технология помогает менеджерам проводить внутренний аудит, оценивать проделанную сотрудниками работу. В дальнейшем это помогает предотвратить риски, вызванные человеческим фактором.
  • Сотрудники, работающие с договорами, получают инструмент, который помогает им заметить потенциально опасные параметры договора.
Опыт работы Digital Design с договорной базой
Опыт работы Digital Design с договорной базой

 

Данное исследование проводилось для того, чтобы протестировать возможности технологий машинного обучения в выявлении аномалий в тексте и их применимости к реальным документам. Для решения задачи при составлении обучающего текстового корпуса были собраны две базы: собственные договоры Digital Design и договоры с сайта государственных закупок (http://zakupki.gov.ru).

Перед разработкой модели были проанализированы разные виды договоров и выявлены отличия по содержанию, предмету , основным главам и др. Данный анализ послужил основой для классификации договоров.

Для перевода слов в вектора был использован алгоритм word2vec. Слова, которые являются изменяемыми договорах, но имеют одинаковый контекст, были представлены в виде векторов с минимальным расстоянием между ними.

 

Опыт работы Digital Design с договорной базой

 

Для сравнения предложений использовались различные метрики расстояния между точками, включая косинусное расстояние. Благодаря алгоритму определения расстояния между двумя векторами определялась мера схожести предложений.

 

Опыт работы Digital Design с договорной базой

 

После построения модели выделения аномалий в договорах было проведено её тестирование с использованием искусственно созданных ошибок в документах. В результате модель смогла найти ошибки и дать рекомендации по их исправлению; сравнить предложения и найти сходные по смыслу.

 

Опыт работы Digital Design с договорной базой

 

Опыт работы Digital Design с договорной базой
Частые вопросы
Свяжитесь с нами!
Сергей Николаевич Дербенков
Сергей Дербенков
Руководитель направления в области систем документационного управления (СДУ)

Продолжая использовать данный веб-сайт, вы соглашаетесь с Политикой использования файлов cookie и тем,
что группа компаний Digital Design может использовать файлы cookie для оптимизации работы веб-сайта.