ЗАМЕТКИ
ML. Ranking&Matching
Ranking — процесс составления набора объектов в соответствии с некоторой мерой, то есть задание частично упорядоченного множества. Множество частично упорядоченно, если указано, какие элементы следуют за какими. Learning to rank — класс задач машинного обучения с учителем Supervised Learning или с частичным привлечением учителя Semi-supervised Learning, заключающихся в нахождении модели, целью которой является наилучшее приближение и обобщение способа ранжирования в обучающей выборке на новые данные. Supervised Learning — тип машинного обучения, при котором модель обучают на размеченных данных. Это означает, что каждому входному значению соответствует правильное выходное. Цель Supervised Learning — делать точные прогнозы на новых, невидимых данных. Например, модель, обученная на изображениях рукописных цифр, может распознавать новые цифры, которые она раньше не видела. Semi-supervised learning — обучение на смеси размеченных и неразмеченных данных.Модель учится на размеченных данных, а затем использует неразмеченные данные для улучшения своей производительности, выявляя базовые закономерности или отношения. Few-shot learning — подход в машинном обучении, который позволяет обучать модели на небольшом количестве размеченных данных. Модель учится распознавать новые классы на основе нескольких (обычно от 1 до 5) размеченных примеров, называемых опорным набором.
Классификация отвечает на вопрос «какие документы релевантны», но не ранжирует их. Регрессия может использовать какой-то бизнес показатель, например CTR (click-through rate — «показатель кликабельности»), учиться предсказывать такие показатели. Ранжирование выделяется в отдельный класс задач потому что классификация и регрессия, как правило, в один момент времени оперируют только одним объектом. То есть для каждого документа в пару к запросу нужно посчитать независимые от других документов предсказания. В тоже время задача ранжирования решает проблему упорядочивания документов над некоторым множеством объектов.
Мера релевантности — степень соответствия между запросом и документом (или набором документов). Чем выше это соответствие, тем выше в списке ранжирования должен находиться документ.

Набор документов подается в систему. В ответ на запрос из этих документов формируется упорядоченный по релевантности список. Список не обязан содержать все документы, он может быть сильно меньше, то есть точно нерелевантные документы можно отсекать
Процесс ранжирования в ML
\( Q \) — набор запросов \( [q_1, q_2,…,q_m] \)
\( D_i = [d_1, d_2,…,d_m] \) — набор документов релевантных \(i\)-му запросу \(q\)
\( d_{i,j} \) — элемент с индексом \(j\) в \(D_i\)
\( y_i = [y_{i,1}, y_{i,2},…,y_{i,n_i} ]\) — набор оценок релевантности для \(i\)-го запроса
\( S = [(q_i,D_i), y_i]_{i=1}^{m}\) — тренировочный набор данных
\( x_{i,j} = \phi(q_i,d_{i,j}) \) — вектор признаков для \(i\)-го запроса и \(j\)-го документа \( (i = 1, 2,…,m, j = 1, 2,…, n_i) \)
\(\phi\) — функция для получения признаков (ВМ25, PageRank, мультимодальные модели)
\(x_i = [x_{i,1},x_{i,2},…,x{i,n_i}]\) — признаки для набора документов, релевантных \(i\)-му запросу \(q\)
\(f(q,d) = f(x)\) — ранжирующая модель, оценивающая релевантность для пары \(q\), \(d\) на основе признаков \(x\)
\(F(q,D) = D(X)\) — глобальная ранжирующая модель
M25 (Best Matching 25) — это алгоритм ранжирования, который используется для оценки релевантности документов в поисковых системах. Он помогает определить, насколько документ подходит под конкретный запрос пользователя ссылка
Матчинг — ээто процесс сопоставления объектов на основе сранвнеия и расчета некоторой меры схожести, где объекты, с одной стороны, представляют собой «запросы», а с другой — «документы».
МЕТРИКИ
Average Precision (AP) — метрика, которая оценивает производительность моделей обнаружения объектов (детекции). Она предоставляет единое значение, которое суммирует кривую Precision-Recall.
Discounted cumulative gain (DCG)— метрика качества ранжирования, которая учитывает порядок элементов в списке. Она применяет дисконтирование к релевантности элементов, учитывая их позицию в списке рекомендаций. Чем выше позиция (то есть чем ближе к началу списка), тем больший вклад она вносит.