Гегемония английского в ИИ-моделях: что делать

Алексей Сергеев, руководитель практики «Машинное обучение и искусственный интеллект» Axenix
Любой, кто работал с ИИ, основанным на больших языковых моделях (LLM), включая ChatGPT, замечал, что результаты зависят от языка общения с моделью. Запросы на английском и русском языках могут приводить к различным ответам. В чем причина?

Развитие языковых моделей генеративного ИИ требует доступа к большому и разнообразному массиву текстов. Наибольший объем таких данных доступен на английском языке.

Менее распространенные региональные языки сталкиваются с нехваткой текстовых данных для обучения ИИ-моделей. Возникает вопрос о возможной языковой дискриминации в цифровом пространстве — и ответ на него неоднозначен.

Объем имеет значение

Качество и эффективность языковых моделей зависят от объема и разнообразия обучающего материала.

Большой текстовый корпус, охватывающий широкий спектр тем и стилей, позволяет ИИ-моделям лучше понимать и обрабатывать язык. Важно обеспечивать не только количество текстов, но и их качество, а также представленность различных диалектов и стилей.

Региональные языки, которые часто используются в устной форме и редко фиксируются в письменных документах, создают сложности для сбора обширных и разнообразных текстовых корпусов. Многие документы и официальная переписка в таких регионах ведутся на более распространенных языках, что уменьшает видимость региональных языков в цифровом пространстве.

Английский язык является наиболее подходящим для задач обучения крупных языковых моделей благодаря его распространенности и разнообразию контента. Даже китайский не достигает такого уровня охвата по темам. Остальные языки значительно уступают английскому по степени представленности и разнообразию данных.

Для английского языка доступен широкий спектр корпусов: художественная литература, научные публикации, учебники, материалы из СМИ. Также используются посты в социальных сетях и комментарии под видеороликами.

Чем разнообразнее и богаче корпус текста, чем шире представлен язык в цифровом пространстве, тем качественнее будут языковые модели, обученные на этом корпусе, в понимании, обработке и генерации новых текстов.

Недостаток текстов на некоторых языках существенно влияет на эффективность языковых моделей. Это отражается на таких задачах, как суммаризация текстов, поиск и извлечение фактов, а также на качестве генерации текстов.

Если модель обучена на ограниченном наборе тем, ее производительность снижается при работе с запросами, выходящими за рамки этих тем. Например, модель, обученная в основном на текстах о цифровых технологиях, может испытывать трудности с вопросами, касающимися биологии или искусства.

В областях с узкоспециализированной лексикой, таких как медицина и юриспруденция, исследователи, разработчики генеративного ИИ могут сталкиваться с недостатком данных для создания качественной модели. Это может приводить к ошибкам в использовании терминологии и понимании контекста.

Решения: в теории...

Для устранения дисбаланса между английским и другими языками необходимо стимулировать интерес среди носителей этих языков к использованию и разработке технологий на основе ИИ.

Важно также поддерживать создание и расширение качественных текстовых корпусов. Ключевыми шагами для улучшения ситуации являются оцифровка библиотек, консолидация и очистка дата-сетов для обеспечения их доступности в сети.

Разработка специализированных инструментов и платформ для упрощения создания и обработки текстовых данных также окажет значительное влияние на повышение качества языковых моделей.

Для устранения дефицита корпусов по менее распространенным языкам можно использовать методы синтетической генерации текстов или автоматический перевод для расширения региональных языковых текстовых массивов.

…и на практике

В реальности спрос на технологию является главным драйвером её зрелости.

Для носителей определенного языка или специфической профессиональной или иной лексики существует потребность в цифровых сервисах. В ответ ИТ-сообщество начинает разрабатывать ИИ/ML-модели и развивать их по мере возможности. Для этого требуется сбор и подготовка корпусов текстов.

Здесь возникает важный момент: часто дефицита текстов на определенных языках нет. Проблема в том, что никто систематически не занимался их сбором и обработкой для создания корпусов, пригодных для обучения языковых моделей.

Существует множество страниц в интернете, которые необходимо предобработать и создать из них дата-сеты, например, ряд высказываний на определенную тему для обучения релевантной ИИ-модели.

Таким образом, запрос общества — конкретные сценарии применения ИИ в бизнесе и частных задачах — трансформируется в действия, развитие технологии.

В успешном развитии языковых моделей для региональных языков играют ключевую роль различные факторы.

Необходимо обеспечить наличие не только носителей языка и специалистов по обработке данных, исследователей в области машинного обучения, которые могут способствовать развитию языковых моделей, но и экспертов предметной области, способных оценивать качество ответов моделей и участвовать в создании высококачественных содержательных наборов данных.

Таким образом, развитие больших языковых моделей (LLM) для региональных языков — трудоемкий процесс, вовлекающий профессионалов различных дисциплин, что определяет высокие требования к качеству образования в регионе, наличию институций, способных воспроизводить первоклассных математиков, медиков, химиков, энергетиков, металлургов и др.

Топ-5 решений

Говоря о конкретных рабочих решениях проблемы текстового дефицита, можно выделить следующий топ-5:

Data Augmentation: использование техник искусственного расширения данных, таких как синтетическая генерация текста или переводы текстов на разные языки, может помочь увеличить объём и разнообразие данных.
Перенос знаний (Transfer Learning): обучение модели на большом наборе данных, а затем дообучение (fine-tuning) на специфических дата-сетах может улучшить качество работы модели в узких областях.
Активное обучение (Active Learning): система может выявлять пробелы в своих знаниях и запрашивать дополнительные данные по этим темам. Это позволяет эффективно использовать доступные ресурсы данных, привлекая к обогащению и разметке данных экспертов.
Сотрудничество и сбор данных: партнерство с университетами, научными институтами и бизнесом может помочь получить доступ к большему количеству и разнообразию данных.
Использование открытых источников: интеграция данных из открытых источников, таких как образовательные и научные базы данных, может значительно расширить возможности обучения языковых ИИ-моделей.

Интересно рассмотреть возможные пути решения проблемы нехватки текстов в перспективе развития генеративных ИИ. Один из таких путей — сотрудничество на уровне сообществ: исследователей в области машинного обучения, ученых-лингвистов, общественных организаций, и, возможно, правительств.

Обмен лучшими практиками в этой области, а также стандартизация методологий сбора и разметки данных, могут сыграть важную роль в улучшении качества и разнообразия данных для обучения ИИ-моделей.