5 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Поиск модели и замеры

Модели поиска

Совокупность признаков, на основании которых определяется релевантность документов по отношению к информационному запросу и принимается решение о выдаче или невыдаче данного документа в ответ на поставленный информационный запрос, как уже говорилось, называется критерием выдачи или критерием смыслового соответствия (КСС).

Критерии в совокупности с методами их реализации называют моделями поиска. Здесь под моделью будем понимать логическую или математическую модель, в рамках и терминах которой и формулируется КСС. Принятая модель поиска определяет многие компоненты ИПС и их взаимодействие, в первую очередь, индексирование документов и запросов и тем самым структуру ПОД и ПОЗ, собственно критерий и тем самым результаты поиска. По­исковые образы являются результатом приме­нения некоторой модели информационного массива документов, ориентированной на поиск, к реальному массиву. Алгоритмы сравнения ПОД и ПОЗ реализуют правила вычисления релевантности документа и запроса в соответствии с выбранной моделью. В идеале модели поиска должны включать в себя также и модель пользователя: формализованное описание и обработку при поиске пользователя, типа запроса, целей поиска и т.д.

Модели поиска информации можно охарактеризовать четырьмя параметрами:

представлением документов и запросов;

методами сопоставления, применяемыми для оценки релевантности документа запросу пользователя;

методами ранжирования результатов запроса;

механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Можно утверждать, что главными здесь являются методы сопоставления оценки релевантности ПОД и ПОЗ, которые определяют остальные параметры.

Существует несколько типов моделей поиска информации: теоретико-множественные, логические, векторные (алгебраические), вероятностные и гибридные.

Теоретико-множественные модели являются самыми простыми и основываются на количественном КСС, в частности, на теоретико-множественной операции пересечения множеств терминов ПОД и ПОЗ. Степень такого пересечения выражает степень релевантности документов и запросов.

На­иболее популярной моделью является булева, или логическая, модель, которая трактует термины в запросе как булевы переменные. При наличии термина в документе соответствующая переменная принимает значение «true» (истина). Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели статус выборки равен либо 1, если для данного документа вычисление выражения запроса дает значение «истина», либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

Такая модель проста в реализации и применяется во многих системах. Она позволяет пользователям вводить в свои запросы произвольно сложные выражения, однако эффективность поиска зависит от умения и опыта пользователя и обычно невысока. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Нередко результаты выглядят не очень естественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией AND, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в таких ИПС рекомендуется применять обратную связь с пользователем. Неадекватность собственно логического критерия смыслового соответствия была показана давно. Однако на практике до сих пор превалируют системы с булевой логикой.

Модель, основанная на нечеткой логике (или нечетких множествах),допускает (в отличие от обычной логики и теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, и это роднит ее с вероятностными моделями, а обработка запросов пользователя выполняется аналогично булевой модели, но результат вычисления истинности логических операций принимает значения в диапазоне [0,1].

Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели. Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов.

Векторная модель (другие названия – пространственно-векторная, алгебраическая, линейная) основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из n нормализованных векторов-терминов. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при индексировании (поиске). В пространстве, натянутом на n нормализованных векторов, каждый документ будет представлен n-мерным вектором. При простой векторной модели элемент век­тора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более слож­ных моделях термины взвешиваются – эле­мент вектора равен не 1 или 0, а некоторому числу (весу), отражающему вес термина в документе. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Читать еще:  Размеры кирпича при расчете

Достоинство подобной модели в ее эффективности и простоте. Она позволяет взвешивать термины, ранжировать результаты поиска по релевантности, реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модели. Именно последняя модель в различных модификациях стала наиболее популярной в ИПС сети Интернет.

Наиболее сложной и перспективной считается вероятностная модель. Данная модель базируется на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Кроме того, в этой модели применяются два стоимостных параметра. Они характеризуют соответственно потери, связанные с включением в результат нерелевантного документа, и пропуском релевантного документа. Данная модель требует определения вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, оценить которые довольно сложно. Между тем она выполняет важную функцию, объясняя процесс поиска и предлагая теоретическое обоснование методов, применявшихся ранее эмпирически. Теоретические подходы были сформулированы давно, но практического применения не нашли в силу своей сложности.

Существуют разные вероятностные модели документального поиска. В одних критерии, влияющие на оценку релевантности, являются свойствами потребителя (запроса). Поэтому история, статистика предыдущих поисков здесь оказывается чрезвычайно полезной.

Другой тип вероятностных моделей интерпретирует поисковую ситуацию следующим образом. Имеется массив документов, обладающих различными свойствами: семантическим значением (здесь мы имеем в виду значение в информационно-поисковом понимании: как предметное содержание), лингвистическими характеристиками (лексических единиц), библиографическими характеристиками и т.п. Запрос пользователя выражает информационную потребность в терминах этих свойств. Формальное обнаружение этих поисковых признаков говорит не о релевантности документа и запроса, а только о вероятности, что документ может быть оценен «хозяином» запроса как релевантный.

На практике в реальных информационно-поисковых системах часто применяются гибридные модели, которые совмещают в себе свойства и функции нескольких моделей.

Не нашли то, что искали? Воспользуйтесь поиском:

В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса

Сегодня одним из главных препятствий на пути внедрения машинного обучения в бизнес является несовместимость метрик ML и показателей, которыми оперирует топ-менеджмент. Аналитик прогнозирует увеличение прибыли? Но ведь нужно понять, в каких случаях причиной увеличения станет именно машинное обучение, а в каких — прочие факторы. Увы, но довольно часто улучшение метрик ML не приводит к росту прибыли. К тому же иногда сложность данных такова, что даже опытные разработчики могут выбрать некорректные метрики, на которые нельзя ориентироваться.

Давайте рассмотрим, какие бывают метрики ML и когда их целесообразно использовать. Разберём типичные ошибки, а также расскажем о том, какие варианты постановки задачи могут подойти для машинного обучения и бизнеса.

ML-метрики: зачем их так много?

Метрики машинного обучения весьма специфичны и часто вводят в заблуждение, показывая хорошую мину при плохой игре хороший результат для плохих моделей. Для проверки моделей и их совершенствования нужно выбрать метрику, которая адекватно отражает качество модели, и способы её измерения. Обычно для оценки качества модели используют отдельный тестовый набор данных. И как вы понимаете, выбор правильной метрики — задача сложная.

Какие задачи чаще всего решаются с помощью машинного обучения? В первую очередь это регрессия, классификация и кластеризация. Первые две — так называемое обучение с учителем: есть набор размеченных данных, на основе какого-то опыта нужно предсказать заданное значение. Регрессия — это предсказание какого-то значения: например, на какую сумму купит клиент, какова износостойкость материала, сколько километров проедет автомобиль до первой поломки.

Читать еще:  Виды красок используемых для мангала

Кластеризация — это определение структуры данных с помощью выделения кластеров (например, категорий клиентов), причём у нас нет предположений об этих кластерах. Этот тип задач мы рассматривать не будем.

Алгоритмы машинного обучения оптимизируют (вычисляя функцию потерь) математическую метрику — разность между предсказанием модели и истинным значением. Но если метрика представляет собой сумму отклонений, то при одинаковом количестве отклонений в обе стороны эта сумма будет равна нулю, и мы просто не узнаем о наличии ошибки. Поэтому обычно используют среднюю абсолютную (сумма абсолютных значений отклонений) или среднюю квадратичную ошибку (сумма квадратов отклонений от истинного значения). Иногда формулу усложняют: берут логарифм или извлекают квадратный корень из этих сумм. Благодаря этим метрикам можно оценить динамику качества вычислений модели, но для этого полученный результат нужно с чем-то сравнить.

C этим не возникнет сложностей, если уже есть построенная модель, с которой можно сравнить полученные результаты. А что если вы в первый раз создали модель? В этом случае часто используют коэффициент детерминации, или R2. Коэффициент детерминации выражается как:

Где:
R^2 — коэффициент детерминации,
et^2 — средняя квадратичная ошибка,
yt — верное значение,
yt с крышкой — среднее значение.

Единица минус отношение средней квадратичной ошибки модели к средней квадратичной ошибке среднего значения тестовой выборки.

То есть коэффициент детерминации позволяет оценить улучшение предсказания моделью.

Иногда бывает, что ошибка в одну сторону неравнозначна ошибке в другую. Например, если модель предсказывает заказ товара на склад магазина, то вполне можно ошибиться и заказать чуть больше, товар дождётся своего часа на складе. А если модель ошибётся в другую сторону и закажет меньше, то можно и потерять покупателей. В подобных случаях используют квантильную ошибку: положительные и отрицательные отклонения от истинного значения учитываются с разными весами.

В задаче классификации модель машинного обучения распределяет объекты по двум классам: уйдет пользователь с сайта или не уйдет, будет деталь бракованной или нет, и т.д. Точность предсказания часто оценивают как отношение количества верно определенных классов к общему количеству предсказаний. Однако эту характеристику редко можно считать адекватным параметром.


Рис. 1. Матрица ошибок для задачи предсказания возвращения клиента

Пример: если из 100 застрахованных за возмещением обращаются 7 человек, то модель, предсказывающая отсутствие страхового случая, будет иметь точность 93%, не имея никакой предсказательной силы.


Рис. 2. Пример зависимости фактической прибыли компании от точности модели в случае разбалансированных классов

Для каких-то задач можно применить метрики полноты (количество правильно определенных объектов класса среди всех объектов этого класса) и точности (количество правильных определенных объектов класса среди всех объектов, которые модель отнесла к этому классу). Если необходимо учитывать одновременно полноту и точность, то применяют среднее гармоническое между этими величинами (F1-мера).

С помощью этих метрик можно оценить выполненное разбиение по классам. При этом многие модели предсказывают вероятность отношения модели к определенному классу. С этой точки зрения можно изменять порог вероятности, относительно которого элементы будут присваиваться к одному или другому классу (например, если клиент уйдёт с вероятностью 60 %, то его можно считать остающимися). Если конкретный порог не задан, то для оценки эффективности модели можно построить график зависимости метрик от разных пороговых значений (ROC-кривая или PR-кривая), взяв в качестве метрики площадь под выбранной кривой.


Рис. 3. PR-кривая

Бизнес-метрики

Выражаясь аллегорически, бизнес-метрики — это слоны: их невозможно не заметить, и в одном таком «слоне» может уместиться большое количество «попугаев» машинного обучения. Ответ на вопрос, какие метрики ML позволят увеличить прибыль, зависит от улучшения. По сути, бизнес-метрики так или иначе привязаны к увеличению прибыли, однако нам почти никогда не удаётся напрямую связать с ними прибыль. Обычно применяются промежуточные метрики, например:

  • длительность нахождения товара на складе и количество запросов товара, когда его нет в наличии;
  • количество денег у клиентов, которые собираются уйти;
  • количество материала, которое экономится в процессе производства.
Читать еще:  Как сделать мебель для бани своими руками

Когда речь идёт об оптимизации бизнеса с помощью машинного обучения, всегда подразумевается создание двух моделей: предсказательной и оптимизационной.

Первая сложнее, её результаты использует вторая. Ошибки в модели предсказания вынуждают закладывать больший запас в модели оптимизации, поэтому оптимизируемая сумма уменьшается.

Пример: чем ниже точность предсказания поведения клиентов или вероятности промышленного брака, тем меньше клиентов удаётся удержать и тем меньше объём сэкономленных материалов.

Общепринятые метрики успешности бизнеса (EBITDA и др.) редко получается использовать при постановках задач ML. Обычно приходится глубоко изучать специфику и применять метрики, принятые в той сфере, в который мы внедряем машинное обучение (средний чек, посещаемость и т.д.).

Трудности перевода

По иронии судьбы удобнее всего оптимизировать модели с помощью метрик, которые трудно понять представителям бизнеса. Как площадь под ROC-кривой в модели определения тональности комментария соотносится с конкретным размером выручки? С этой точки зрения перед бизнесом встают две задачи: как измерить и как максимизировать эффект от внедрения машинного обучения?

Первая задача проще в решении, если у вас есть ретроспективные данные и при этом остальные факторы можно нивелировать или измерить. Тогда ничто не мешает сравнить полученные значения с аналогичными ретроспективными данными. Но есть одна сложность: выборка должна быть репрезентативна и при этом максимально похожа на ту, с помощью которой мы апробируем модель.

Пример: нужно найти самых похожих клиентов, чтобы выяснить, увеличился ли у них средний чек. Но при этом выборка клиентов должна быть достаточно большой, чтобы избежать всплесков из-за нестандартного поведения. Эту задачу можно решить с помощью предварительного создания достаточно большой выборки похожих клиентов и на ней проверять результат своих усилий.

Однако вы спросите: как перевести выбранную метрику в функцию потерь (минимизацией которой и занимается модель) для машинного обучения. С наскока эту задачу не решить: разработчикам модели придётся глубоко вникнуть в бизнес-процессы. Но если при обучении модели использовать метрику, которая зависит от бизнеса, качество моделей сразу вырастает. Скажем, если модель предсказывает, какие клиенты уйдут, то в роли бизнес-метрики можно использовать график, где по одной оси отложено количество уходящих, по мнению модели, клиентов, а по другой оси — общий объём средств у этих клиентов. С помощью такого графика бизнес-заказчик может выбрать удобную для себя точку и работать с ней. Если с помощью линейных преобразований свести график к PR-кривой (по одной оси точность, по второй полнота), то можно оптимизировать площадь под этой кривой одновременно с бизнес-метрикой.


Рис. 4. Кривая денежного эффекта

Заключение

Прежде чем ставить задачу для машинного обучения и создавать модель, нужно выбрать разумную метрику. Если вы собираетесь оптимизировать модель, то в качестве функции ошибок можно использовать одну из стандартных метрик. Обязательно согласуйте с заказчиком выбранную метрику, её веса и прочие параметры, преобразовав бизнес-метрики в модели ML. По длительности это может быть сравнимо с разработкой самой модели, но без этого не имеет смысла приступать к работе. Если привлечь математиков к изучению бизнес-процессов, то можно сильно уменьшить вероятность ошибок в метриках. Эффективная оптимизация модели невозможна без понимания предметной области и совместной постановки задачи на уровне бизнеса и статистики. И уже после проведения всех расчётов вы сможете оценить полученную прибыль (или экономию) в зависимости от каждого улучшения модели.

Николай Князев (iRumata), руководитель группы машинного обучения «Инфосистемы Джет»

Ссылка на основную публикацию
Adblock
detector