ivdon3@bk.ru
Ежегодный рост нагрузки на центры обработки данных увеличивается в многократных размерах, что обусловлено возрастающим ростом пользователей информационно-телекоммуникационной сети Интернет. Пользователи обращаются к различным ресурсам и источникам, используя для этого поисковые системы и сервисы. Установка оборудования, которое обрабатывает телекоммуникационный трафик быстрее, требует значительных финансовых затрат, а так же может существенно увеличить время простоя центра обработки данных за счет возможных проблем во время проведения регламентных технических работ. Целесообразнее сосредоточить ресурс на улучшении программной, а не аппаратной части оборудования. В статье приводится алгоритм, за счёт которого возможно снизить нагрузку на телекоммуникационное оборудование за счет поиска информации внутри определённой предметной области, а также путём использования особенностей естественного языка и процесса образования в нём слов, предложений и текстов. Анализировать запрос предложено на основании формирования префиксного дерева и кластеризации, а также путём расчета вероятности возникновения нужного слова на основе правила трёх сигм и Закона Ципфа.
Ключевые слова: правило трёх сигм, Закон Ципфа, кластеры, анализ языка, морфемы, префиксное дерево, распределение вероятностей