ivdon3@bk.ru
В статье описываются возможности, достоинства и отличия систем машинного обучения без учителя от обучения по шаблонам. Также дается определение понятию кластеризации с указанием основных методов и задач, решаемых данным алгоритмом машинного обучения. Подробно расписывается алгоритм распознавания данных из документов посредством технологии OCR, формируются цели и задачи использования технологии OCR в бизнес – процессах IT – компаний. Далее приводятся инструменты решения проблемы распознавания и кластеризации данных из сканов документов PDF посредством библиотек машинного обучения Nanonets и Tesseract. В заключении к данной статье описываются достоинства и недостатки использования данных библиотек в решении проблемы распознавания и кластеризации данных из сканов документов.
Ключевые слова: машинное обучение, кластеризация, распознавание данных, библиотека Nanonets, библиотека Tesseract
1.2.2 - Математическое моделирование, численные методы и комплексы программ , 2.3.1 - Системный анализ, управление и обработка информации