Top.Mail.Ru
Интеллектуальный анализ текстов

Интеллектуальный анализ текстов

Извлечение сущностей, фактов и связей между ними

В основе технологии интеллектуального анализа текстов PROMT лежат

  • алгоритмы глубокого семантико-синтаксического анализа текста
  • сложно-структурированная словарная база русского и английского языков специального формата

Словарная база включает информацию о сотнях семантических классов , тысячах морфологических характеристик, сотнях тысяч основ его слов и оборотов, а также их возможных синтаксических ролях в предложении. База не является статичной и может быть расширена пользовательскими данными (онтологиями, списками синонимов, имен, топонимов и т.п.) для повышения качества разбора текстов, интересующих пользователя.

Основные возможности:

  • Выделение именованных сущностей с учетом контекста и корректная трактовка омонимичных конструкций
  • Выделение фактов – действий и высказываний
  • Определение тональности текста, отдельных высказываний, тональной характеристики сущностей
  • Выделение смысловой структуры документа
  • Выделение сущностей и фактов из текстов на иностранных языках через промежуточный перевод на русский язык с сохранением их названий на исходном языке


Преимущества использования глубокого семантико-синтаксического анализа перед машинным обучением

  • Возможность использования на ограниченном объеме обучающих данных

    Нейронная сеть перед тем как начать эффективно работать должна быть обучена на очень большом объеме данных, которые предварительно должны быть классифицированы и размечены человеком, что не требуется для семантико-синтаксической модели.

  • Надежность и предсказуемость результата

    Нейронная сеть может вести себя непредсказуемо, особенно при работе с материалом, который не попал в обучающую выборку. Семантико-синтаксический подход, ориентируясь на синтаксическую структуру текста на естественном языки и семантические связи между его элементами, успешно справляется с обработки сущностей, даже в том случае, если они не были ранее известны и не попали в лингвистическую базу данных системы.

  • Невысокие требования к вычислительным ресурсам

    Использование нейронной сети требует наличия специального дорогостоящего оборудования, обеспечивающего большой объем параллельных вычислений. Для работы семантико-синтаксической модели можно использовать стандартное оборудование.

  • Способность тонкого выделения связей между объектами документа, позволяющая более точно и полно определять его смысловую структуру

Семантико-синтаксический подход, благодаря использованию алгоритмов и сложно-структурированных словарных баз данных позволяет учитывать нюансы употребления тех или иных языковых единиц в текстах разной тематики.