ivdon3@bk.ru
Рассмотрены и использованы методы и технологии для решения задачи визуализации патентного ландшафта на основе кластерного анализа патентного массива. Разработаны алгоритмы загрузки патентных архивов, парсинга патентных документов, кластеризации патентов и визуализации патентного ландшафта. Реализован программный модуль для кластеризации патентных документов на основе модели латентного размещения Дирихле и визуализации патентного ландшафта на данных кластеризации с использованием библиотек gensim, PySpark, sklearn. Программный модуль апробирован на патентах, выданных ведомством по патентам и товарным знакам США.
Ключевые слова: патенты, извлечение информации, кластеризация, патентный ландшафт, инновационный потенциал