ivdon3@bk.ru
В данной статье описывается создание гибридной системы для задачи распознавания различных видов персональных данных в неструктурированных текстах. В основу системы легла нейронная сеть архитектуры ELMo-BiLSTM-CRF и регулярные выражения. Для обучения и валидации нейронной сети был использован специализированный русскоязычный набор данных для задачи распознавания именованных сущностей, созданный на основе наборов Nerus и WiNER. Полученная гибридная модель позволит снизить издержки организаций на хранение и обработку текстовых данных, а также сохранить конфиденциальность пользователей в случае утечек.
Ключевые слова: персональные данные, обработка естественного языка, распознавание именованных сущностей, условное случайное поле, нейронная сеть, рекуррентная нейронная сеть, регулярное выражение
1.2.2 - Математическое моделирование, численные методы и комплексы программ , 5.1.3 - Частноправовые (цивилистичеcкие) науки