Алгоритмы, методы и системы обработки данных

Электронный научный журнал
www.amisod.ru

Сравнительный анализ структур данных для приближенного поиска ближайшего соседа

Пономаренко Александр Александрович

старший преподаватель кафедры "Прикладная математика и информатика", ФГАОУ ВПО «Национальный исследовательский университет  «Высшая школа экономики», г. Нижний Новгород.

Аврелин Никита Сергеевич

магистрант кафедры "Прикладная математика и информатика", ФГАОУ ВПО «Национальный исследовательский университет  «Высшая школа экономики», г. Нижний Новгород.

Найдан Билэгсайхан

аспирант кафедры "Прикладная математика и информатика", ФГАОУ ВПО «Национальный исследовательский университет  «Высшая школа экономики», г. Нижний Новгород.

Бойцов Леонид Моисеевич

аспирант кафедры "Прикладная математика и информатика", ФГАОУ ВПО «Национальный исследовательский университет  «Высшая школа экономики», г. Нижний Новгород.

Аннотация:

Поиск по похожести широко применяется в различных областях компьютерных наук. Множество методов было предложено для решения задачи в точной постановке, однако все они подвержены "проклятью" размерности и не эффективны для данных высокой размерности. Приближенные алгоритмы отчасти позволяют справиться с "проклятьем". Однако из-за сложной стохастической природы, теоретические оценки для большинства приближенных алгоритмов отсутствуют. Более того, на данный момент времени, в литературе не существует работ, включающих всесторонний эмпирический анализ современных методов для поиска по подобию.  Как правило, авторы алгоритмов ограничиваются небольшими численными экспериментами, сравнивая свой алгоритм с одним ранее известным методом. С целью устранения этого пробела в научном знании, в настоящей работе мы приводим результаты такого эмпирического анализа для методов:  Vantage Point Tree, Locality Sensitive Hashing, List of Clusters, Метризованный Тесный Мир и несколько вариаций Permutation Index. Проведенные эксперименты показывают, что Метризованный Тесный Мир имеет наилучшее соотношение между вычислительной сложностью и точностью, как для метрических, так и для не метрическихй пространств.

Ключевые слова:

поиск ближайшего соседа, метрическое пространство, неметрический поиск, приближенный поиск, графы тесного мира.

Шифры классификации:

УДК: 004.043, 004.057.4

ГРНТИ: 20.23.19

ВАК: 05.13.01

Скачать

powered by social2s

ISSN

2220-878X (Online)

Последний выпуск

2 (40)

ДЕКАБРЬ, 2019

Выпуск в работе

1 (41)

ДЕКАБРЬ, 2020

Поступившие заявки

Партнерство

АМиСОД в eLIBRARY.RU

Лицензия

Creative Commons License

Публикации журнала лицензируются в сосответствии с
Creative Commons Attribution 4.0 International License.
Полный текст лицензии.
Яндекс.Метрика Система Orphus Анализ веб сайтов