До недавнего времени объяснимость в значительной степени рассматривалась как важное, но узко ограниченное требование к завершению процесса разработки модели ИИ. Теперь объяснимость рассматривается как многоуровневое требование, обеспечивающее ценность на протяжении всего жизненного цикла машинного обучения.

Кроме того, помимо обеспечения фундаментальной прозрачности того, как модели машинного обучения принимают решения, инструменты объяснимости теперь также выполняют более широкие оценки качества моделей машинного обучения, например, в отношении надежности, справедливости, концептуальной надежности и стабильности.

Учитывая возросшую важность объяснимости, организации, надеющиеся внедрить машинное обучение в больших масштабах, особенно те, которые имеют высокие ставки или регулируемые варианты использования, должны уделять больше внимания качеству своих подходов и решений, допускающих объяснение.

Существует множество вариантов с открытым исходным кодом для решения конкретных аспектов проблемы объяснимости. Однако сложно объединить эти инструменты в единое решение корпоративного уровня, которое было бы надежным, внутренне согласованным и хорошо работающим на разных моделях и платформах разработки.

Решение объяснимости корпоративного уровня должно соответствовать четырем ключевым критериям:

  1. Объясняет ли это результаты, которые имеют значение?
  2. Это внутренне непротиворечиво?
  3. Может ли он надежно работать в масштабе?
  4. Может ли он удовлетворить быстро меняющиеся ожидания?

Объясняет ли это результаты, которые имеют значение?

Поскольку модели машинного обучения все чаще используются для влияния или определения результатов, имеющих большое значение в жизни людей, таких как утверждения ссуд, заявления о приеме на работу и прием в школу, важно, чтобы подходы к объяснимости предоставляли надежные и заслуживающие доверия объяснения того, как модели приходят к их решениям. .

Объяснение решения о классификации (решение да / нет) часто сильно расходится с объяснением вероятностного результата или оценки риска модели. «Почему Джейн отказали в ссуде?» это принципиально отличается от вопроса «Почему Джейн получила оценку риска 0,63?»

Хотя условные методы, такие как TreeSHAP, точны для оценок модели, их можно крайне неточен для результатов классификации. В результате, хотя они могут быть удобны для базовой отладки модели, они не могут объяснить «понятные для человека» последствия оценки модели, такие как решения о классификации.

Вместо TreeSHAP, рассмотрите количественное входное влияние, QII. QII имитирует нарушение корреляций между функциями модели, чтобы измерить изменения в выходных данных модели. Этот метод более точен для более широкого диапазона результатов, включая не только оценки и вероятности модели, но и более эффективные результаты классификации.

Объяснения, ориентированные на результат, очень важны для вопросов, связанных с несправедливой предвзятостью. Например, если модель действительно беспристрастна, ответ на вопрос «Почему Джейн было отказано в ссуде по сравнению со всеми одобренными женщинами?» не должно отличаться от «Почему Джейн было отказано в ссуде по сравнению со всеми утвержденными мужчинами?»

Это внутренне непротиворечиво?

Предложения с открытым исходным кодом для объяснимости ИИ часто ограничены по объему. В Алиби библиотека, например, строится непосредственно поверх SHAP и, таким образом, автоматически ограничивается оценками и вероятностями модели. В поисках более широкого решения некоторые организации создали смесь узких методов с открытым исходным кодом. Однако такой подход может привести к несовместимым инструментам и дать противоречивые результаты по одним и тем же вопросам.

Последовательный подход к объяснимости должен обеспечивать согласованность по трем параметрам:

  1. Объяснение (локальное или глобальное): Возможности глубокой оценки модели и отладки критически важны для развертывания заслуживающего доверия машинного обучения, и для выполнения анализа первопричин важно опираться на последовательную, хорошо обоснованную основу объяснения. Если для генерации локальных и глобальных объяснений используются разные методы, становится невозможным отследить неожиданное поведение объяснения до первопричины проблемы, что исключает возможность ее устранения.
  2. Тип базовой модели (традиционные модели против нейронных сетей): Хорошая структура объяснения в идеале должна уметь работать с разными типами моделей машинного обучения – не только для деревьев решений / лесов, моделей логистической регрессии и деревьев с градиентным усилением, но и для нейронных сетей (RNN, CNN, трансформаторов).
  3. Этап жизненного цикла машинного обучения (разработка, проверка и постоянный мониторинг): Объяснения не нужно относить к последнему этапу жизненного цикла машинного обучения. Они могут выступать в качестве основы для проверок качества моделей машинного обучения при разработке и проверке, а затем также использоваться для постоянного мониторинга моделей в производственных условиях. Например, наблюдение за тем, как объяснения модели меняются со временем, может служить индикатором того, работает ли модель на новых и потенциально не распространяемых образцах. Поэтому очень важно иметь набор инструментов для объяснения, который можно последовательно применять на протяжении всего жизненного цикла машинного обучения.

Может ли он надежно работать в масштабе?

Объяснения, особенно те, которые оценивают значения Шепли, такие как SHAP и QII, всегда будут приблизительными. Все объяснения (за исключением копирования самой модели) повлекут за собой некоторую потерю точности. При прочих равных, более быстрые расчеты объяснения могут способствовать более быстрой разработке и развертыванию модели.

Структура QII может доказать (и практически) предоставить точные объяснения, при этом придерживаясь принципов хорошей структуры объяснения. Но масштабирование этих вычислений между различными формами аппаратного обеспечения и модельными структурами требует значительной поддержки инфраструктуры.

Даже при вычислении объяснений с помощью значений Шепли правильная и масштабируемая реализация этих объяснений может оказаться серьезной проблемой. Общие проблемы реализации включают проблемы с тем, как обрабатываются коррелированные функции, как обрабатываются отсутствующие значения и как выбирается группа сравнения. Незначительные ошибки в этих измерениях могут привести к существенно разным локальным или глобальным объяснениям.

Может ли он удовлетворить быстро меняющиеся потребности?

Вопрос о том, что является хорошим объяснением, быстро развивается. С одной стороны, наука объяснения моделей машинного обучения (и проведения надежных оценок качества моделей, таких как предвзятость, стабильность и концептуальная надежность) все еще развивается. С другой стороны, регулирующие органы всего мира основывают свои ожидания на минимальных стандартах объяснимости и качества моделей. По мере того как модели машинного обучения начинают внедряться в новых отраслях и сценариях использования, меняются и ожидания в отношении объяснений.

Учитывая эту изменяющуюся базовую линию, важно, чтобы инструментарий объяснимости, используемый фирмой, оставался динамичным. Критически важно иметь специальные возможности для исследований и разработок – чтобы понимать меняющиеся потребности и адаптировать или улучшать инструментарий для их удовлетворения.

Разъяснимость моделей машинного обучения играет ключевую роль в укреплении доверия к моделям машинного обучения и обеспечении их широкомасштабного внедрения. Использование смеси различных вариантов с открытым исходным кодом для достижения этого может показаться привлекательным, но объединить их в целостную, последовательную и подходящую для цели структуру остается сложной задачей. Фирмы, стремящиеся к масштабному внедрению машинного обучения, должны потратить время и усилия, чтобы найти правильный вариант для своих нужд.

Шаяк Сен – технический директор и соучредитель Truera. Сен начал создавать модели машинного обучения производственного уровня более 10 лет назад и провел ведущее исследование, чтобы сделать системы машинного обучения более понятными, совместимыми с конфиденциальностью и справедливыми. Имеет докторскую степень. Имеет степень бакалавра компьютерных наук в Университете Карнеги-Меллона и степень бакалавра компьютерных наук в Индийском технологическом институте в Дели.

Анупам Датта, профессор электротехники и компьютерной инженерии в Университете Карнеги-Меллона и главный научный сотрудник Truera, и Дивья Гопинатх, инженер-исследователь Truera, внесли свой вклад в эту статью.

Форум новых технологий предоставляет площадку для изучения и обсуждения новых корпоративных технологий с беспрецедентной глубиной и широтой. Выбор является субъективным и основан на нашем выборе технологий, которые мы считаем важными и представляющими наибольший интерес для читателей InfoWorld. InfoWorld не принимает маркетинговые материалы для публикации и оставляет за собой право редактировать весь предоставленный контент. Все запросы отправляйте по адресу newtechforum@infoworld.com.

Авторские права © 2021 IDG Communications, Inc.


#ключевых #теста #для #вашего #набора #инструментов #объяснимости #ИИ

Source link