ЗАМЕТКИ

ML. Ranking&Matching

 

Классификация отвечает на вопрос «какие документы релевантны», но не ранжирует их. Регрессия может использовать какой-то бизнес показатель, например CTR (click-through rate — «показатель кликабельности»), учиться предсказывать такие показатели. Ранжирование выделяется в отдельный класс задач потому что классификация и регрессия, как правило, в один момент времени оперируют только одним объектом. То есть для каждого документа в пару к запросу нужно посчитать независимые от других документов предсказания. В тоже время задача ранжирования решает проблему упорядочивания документов над некоторым множеством объектов.

Мера релевантности — степень соответствия между запросом и документом (или набором документов). Чем выше это соответствие, тем выше в списке ранжирования должен находиться документ.

Набор документов подается в систему. В ответ на запрос из этих документов формируется упорядоченный по релевантности список. Список не обязан содержать все документы, он может быть сильно меньше, то есть точно нерелевантные документы можно отсекать

Процесс ранжирования в ML

\( Q \) — набор запросов \( [q_1, q_2,…,q_m] \)

\( D_i = [d_1, d_2,…,d_m] \) — набор документов релевантных \(i\)-му запросу \(q\)

\( d_{i,j} \) — элемент с индексом \(j\) в \(D_i\)

\( y_i = [y_{i,1}, y_{i,2},…,y_{i,n_i} ]\) — набор оценок релевантности для \(i\)-го запроса

\( S = [(q_i,D_i), y_i]_{i=1}^{m}\) — тренировочный набор данных

\( x_{i,j} = \phi(q_i,d_{i,j}) \) — вектор признаков для \(i\)-го запроса и \(j\)-го документа \( (i = 1, 2,…,m, j = 1, 2,…, n_i) \)

\(\phi\) — функция для получения признаков (ВМ25, PageRank, мультимодальные модели)

\(x_i = [x_{i,1},x_{i,2},…,x{i,n_i}]\) — признаки для набора документов, релевантных \(i\)-му запросу \(q\)

\(f(q,d) = f(x)\) — ранжирующая модель, оценивающая релевантность для пары \(q\), \(d\) на основе признаков \(x\)

\(F(q,D) = D(X)\) — глобальная ранжирующая модель

M25 (Best Matching 25) — это алгоритм ранжирования, который используется для оценки релевантности документов в поисковых системах. Он помогает определить, насколько документ подходит под конкретный запрос пользователя ссылка

Матчинг — ээто процесс сопоставления объектов на основе сранвнеия и расчета некоторой меры схожести, где объекты, с одной стороны, представляют собой «запросы», а с другой — «документы».

МЕТРИКИ

Average Precision (AP) — метрика, которая оценивает производительность моделей обнаружения объектов (детекции). Она предоставляет единое значение, которое суммирует кривую Precision-Recall.

Discounted cumulative gain (DCG)— метрика качества ранжирования, которая учитывает порядок элементов в списке. Она применяет дисконтирование к релевантности элементов, учитывая их позицию в списке рекомендаций. Чем выше позиция (то есть чем ближе к началу списка), тем больший вклад она вносит.