При работе с текстовыми документами большое значение имеют их анализ и проверка, от чего зависит качество документа и соблюдение необходимых требований. Обработка больших объемов текста трудозатратна и требует как внимательности к мельчайшим деталям, так и абсолютного понимания обязательных элементов положений, договоров и актов. В таких случаях человек нередко совершает ошибки или упускает важные нюансы. Однако технологии искусственного интеллекта, применяющиеся для обработки текстовой информации, помогают избежать ошибок и предупредить их последствия, а также значительно ускорить процесс проверки документов.
Digital Design предлагает собственное решение для автоматизации проверки документов, в основе которого лежит модель машинного обучения, выделяющая аномалии в текстах документов и рекомендующая варианты исправления.
Для анализа документа система использует технологии машинного обучения с применением метода выявления аномалий в тексте. Так как разные типы документов отличаются по наполнению, структуре и обязательным пунктам, первостепенной задачей является его классификация по типу. Более того, семантика каждой главы документа имеет свою уникальную специфику, поэтому алгоритмы настроены для раздельной работы с ними.
После того как данные прошли этап предподготовки и очистки, текст преобразуется к векторному представлению для дальнейшего анализа с помощью нейронных сетей. После получения данных на выходе (output) происходит измерение схожести предложений с использованием метода косинусного расстояния. Так как при применении нейронных сетей валидация модели является непростой задачей, мы прибегаем к созданию синтетических данных – ошибок и неточностей в тексте, чтобы протестировать работу модели.
Данное исследование проводилось для того, чтобы протестировать возможности технологий машинного обучения в выявлении аномалий в тексте и их применимости к реальным документам. Для решения задачи при составлении обучающего текстового корпуса были собраны две базы: собственные договоры Digital Design и договоры с сайта государственных закупок (http://zakupki.gov.ru).
Перед разработкой модели были проанализированы разные виды договоров и выявлены отличия по содержанию, предмету , основным главам и др. Данный анализ послужил основой для классификации договоров.
Для перевода слов в вектора был использован алгоритм word2vec. Слова, которые являются изменяемыми договорах, но имеют одинаковый контекст, были представлены в виде векторов с минимальным расстоянием между ними.
Для сравнения предложений использовались различные метрики расстояния между точками, включая косинусное расстояние. Благодаря алгоритму определения расстояния между двумя векторами определялась мера схожести предложений.
После построения модели выделения аномалий в договорах было проведено её тестирование с использованием искусственно созданных ошибок в документах. В результате модель смогла найти ошибки и дать рекомендации по их исправлению; сравнить предложения и найти сходные по смыслу.
Решение помогает выделить следующие типы аномалий:
Одним из типов аномалий, выявляемых с помощью данной системы, служат ошибки и пропуски в тексте, которые сопоставляются с эталоном документа. Договор является частным случаем документа и, более того, представляется наиболее легким для решения задачи выделения аномалий из-за структурированности информации в нем.
Решение не подразумевает автоматическое исправление ошибки или нетипичной части текста, оставляя принятие решения о внесении изменения в текст за ответственным сотрудником. Однако система выделяет различными цветными маркерами ошибки и неточности и предлагает возможный вариант исправления, который сотрудник может одобрить и применить к документу.
Для проведения анализа текста с целью выявления аномалий в документах (в частности, в договорах) необходимо собрать базу документов, включая: