Гибридный алгоритм активного обучения для определения намерений в диалоговых системах с неразмеченными и шумными данными

Статья

Авторы:

Дранга Д. И.

DOI:

10.23859/1994-0637-2023-5-116-3

Полный текст:

Аннотация

В статье исследуется оптимизация отбора данных для решения задачи классификации намерений в целеориентированных диалоговых системах. Для обучения модели требуются данные, размеченные асессорами, извлеченные из неразмеченных диалогов. Процесс отбора объектов для аннотации представляет особенную сложность, поскольку целевой набор намерений представляет собой лишь часть из возможных намерений, присутствующих в клиентских сообщениях. Дополнительную трудность представляет тот факт, что множество сообщений не несут в себе конкретных намерений. В статье предлагается гибридный алгоритм, учитывающий особенности задачи и объединяющий в себе методы обучения без учителя и с учителем, чтобы решить проблему отбора данных для разметки. Эксперименты на реальных диалогах показали эффективность алгоритма по сравнению с альтернативными подходами. Алгоритм применим к различным моделям классификации.

Об авторах

Дранга Даниил Игоревич

Аспирант
https://orcid.org/0000-0002-3929-8161
dranga.daniil@gmail.com
Национальный исследовательский технологический университет МИСиС (д. 4, Ленинский проспект, 119049 Москва, Россия)

Список литературы

Demir E., et al. Unsupervised Active Learning For Video Annotation // ICML Active Learning Workshop. 2015. 2015.
Gal Y., Islam R., Ghahramani Z. Deep Bayesian active learning with image data. International conference on machine learning // PMLR. 2017. P. 1183 - 1192.
Hoi S. C. H., Jin R., Lyu M. R. Large-scale text categorization by batch mode active learning.
Proceedings of the 15[th] international conference on World Wide Web. 2006. P. 633 - 642.
Lewis D. D. A sequential algorithm for training text classifiers: Corrigendum and additional data // Sigir Forum. 1995. Vol. 29, No. 2. P. 13 - 19.
Liu B., Lane I. Attention-based recurrent neural network models for joint intent detection and slot filling. 2016. P. 685 - 689. DOI:10.21437/Interspeech.2016-1352.
Perez F., Lebret R., Aberer K. Weakly supervised active learning with cluster annotation, 2018. Ren F., Xue S. Intention detection based on Siamese neural network with triplet loss. IEEE Access. 2020. Vol. 8. P. 82242 - 82254.
Shen Y., et al. Enhancing the generalization for Intent Classification and Out-of-Domain Detection in SLU, 2021.
Souza V., et al. Unsupervised active learning techniques for labeling training sets: an experimental evaluation on sequential data. Intelligent Data Analysis. 2017. Vol. 21. No. 5. P. 1061 - 1095.
Tong S., Koller D. Support vector machine active learning with applications to text classification.
Journal of machine learning research. 2001. Vol. 2. November. P. 45 - 66.
Wang T., Chen S., Jia R. One-round active learning. arXiv preprint arXiv:2104.11843. 2021. Zhdanov F. Diverse mini-batch active learning. arXiv preprint arXiv:1901.05954. 2019.
Zhou, Meng, Zechen Li, and Pengtao Xie. Self-supervised regularization for text classification // Transactions of the Association for Computational Linguistics. 2021. No. 9. P. 641 - 656.

Ключевые слова:

активное машинное обучение, модульные диалоговые агенты, кластеризация, классификация намерений, неразмеченные данные, шумные данные

Для цитирования:

Дранга Д. И. Гибридный алгоритм активного обучения для определения намерений в диалоговых системах с неразмеченными и шумными данными // Вестник Череповецкого государственного университета. 2023. № 5 (116). С. 39–51. https://doi.org/10.23859/1994-0637-2023-5-116-3

Контент доступен под лицензией Creative Commons Attribution 4.0 License.