Яндекс купил у ранее широко неизвестной компании Cognitive Technologies программный продукт для синтаксического анализа текста. Если не ошибаюсь, компания Cognitive Technologies сотрудничает с МФТИ – пожалуй, лучшим IT ВУЗом страны.
Пишут о том, что софт позволяет определять тематику текста на основе смысловой нагрузки не отдельных слов, а их синтаксической связи в предложениях. Это нужно, например, для определения значения омонимов – разных по значению, но одинаковых по написанию и звучанию слов (пример – в скалах забил ключ и ключ от дома).
Анализ повторяющихся конструкций и связей слов также позволяет сравнивать тексты на предмет похожести. Отмечается, что на основе проданного комплекса создано несколько продуктов, в том числе и по определению авторства документа.
Позволю себе предположить, что это должно дать возможность найти рерайты заданного текста, и на основе информации о стилистике и авторских особенностях других документов определить первоисточник. Подозреваю, что пострадают синонимайзеры и некачественный рерайт, но это – ИМХО.
Источник