trec 2019 fair ranking track

HaoPengZhang 2019-08-17 原文

# trec 2019 fair ranking track

——

最近实验室要求参加trec 2019新出的track：fair ranking track。这里整理一下该任务的思想和要求。这次track主要为学术论文数据的排序。

## 1 Protocol

会给定一个query集合Q，其中$q\in Q$。对于每个请求，会有一个query q和一个文档集合$D_q$。你需要做的就是根据q来重排序(rerank)$D_q$,重排序结果是$\pi$。最后把每一个请求都处理完返回$\pi$的集合的$\Pi$。过程如下：

<!–more–>

Algorithm 1 Evaluation protocol

——

$\Pi$←{} for q,$D_q\in Q$ do $\pi$←SYSTEM(q,$D_q$) $\Pi$←$\Pi+[\pi]$ end for return $\Pi$

——

## 2 Evaluation

衡量指标主要分为两部分，相关性(revelance)和公平性(fairness)。 所谓相关性就是document和query的相关性，公平性主要为Author Exposure即论文作者的曝光度。 先介绍如何衡量作者的曝光度：

### 2.1 Measuring Fairness

#### 2.1.1 Measuring Author Exposure for a Single Ranking

先为单个请求的重排序结果$\pi$计算作者的曝光度，某个作者a，在结果$\pi$的曝光度计算如下：

$$e_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]I(\pi_i\in D_a)$$

其中$\gamma$是一个给定的常数，$\gamma^{i-1}$用于表示排序后的document从上到下逐渐衰减的重要程度。$p(s|\pi_j)$表示用户看到排序的第j篇文档停下来的概率，该track假设用户停止的概率$p(s|\pi_j)$=$f(r_d)$,$f(r_d)$是用户被满足的概率，$r_d$是document和query的相关程度，f是一个单调函数。这代表着，document与query相关度越高，用户越容易被满足，所以停下来不再阅读。 $I(\pi_i\in D_a)$是指示函数，当第i篇文档属于作者a，该函数值为1，否则为0。$e^\pi_a$是排序$\pi$中作者a的曝光度(exposure)。 那么在所有结果中，作者a的曝光度如下：

$$e_a=\sum_{\pi\in \Pi}e^\pi_a$$

#### 2.1.2 Measuring Author Relevance for a Single Ranking

上一节是衡量对于作者的曝光度，这一节主要考虑作者的相关性。什么叫作者的相关性呢，它是衡量作者论文在排序中的相关性之和，也就是对作者论文重要性的考量。

$$r^\pi_a=\sum_{d\in D_a}p(s|d)$$

$r_a^\pi$是排序$\pi$中作者a所有文章相关性的求和。

#### 2.1.3 Measuring Group Fairness

上面给出了单个作者的exposure和relevance，每个作者都有从属于的group，按group累加作者的fairness以及relevance就能分别得到group的exposure和relevance。

$$\epsilon_g=\frac{\sum_{a\in A_g}e_a}{\sum_{g’\in G}\sum_{a\in A_{g’}}e_a}$$

$$R_g=\frac{\sum_{a\in A_g}r_a}{\sum_{g’\in G}\sum_{a\in A_{g’}}r_a}$$

所谓公平，就是让不同group的$\epsilon_g$和$R_g$差距尽可能一致。

$$\Delta_g=|\epsilon_g-R_g|$$

最后对所有group求一个Gini coefficient

$\Delta=\frac{\sum_{g,g’\in G}|\Delta_g-\Delta_{g’}|}{2|G|\sum_{g\in G}\Delta_g}$

### 2.2 Measuring Relevance

前面按group计算了exposure，这一节给出相关性$u_a^\pi$的计算。和$e_a^\pi$的公式几乎一样，就是把指示函数换成$p(s|\pi_i)$。

$$u_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]p(s|\pi_i)$$

$$U=\frac{1}{\Pi}\sum_{\pi\in \Pi}u^\pi$$

2.3 Trading Off Fairness and Relevance

按作者给的文档原话说，理论上fairness和relevance能够达到最优，但是实际操作上，可能往往提高fairness会降低relevance。所以最终要按一定比例寻求一个平衡。

本文链接：https://www.cnblogs.com/HaoPengZhang/p/11370594.html

trec 2019 fair ranking track的更多相关文章

Unity 游戏框架搭建 2019 (三十六~三十八) partial与public

在上一篇，我们把菜单的顺序从头到尾整理了一遍。在整理菜单顺序的过程中，记录了一个要做的事情。要做的事情: ( […]...

开启 visio 2019 里面形状的剪切、联合、组合、拆分、相交、剪除等功能

visio 2019 默认对形状的操作仅支持组合/取消组合，并不显示“剪切、联合、组合、拆分、相交、剪除”等 […]...

【转】Revit 2019 LookUp安装详解

Revit 2019 LookUp安装详解多版本下载地址：https://github.com/jeremy […]...

Office 2019 for Mac破解版组件有哪些？

Microsoft Office 2019是微软的一个庞大的办公软件集合，其中包括了Word、Excel、P […]...

2019 年容器生态统计报告发布 | 云原生生态周报 Vol. 26

作者 | 酒祝、天元、元毅、心水、衷源业界要闻 1.2019 年容器生态统计报告发布据报告显示，Kube […]...

AWS re:Invent 2019 召开 | 云原生生态周报 Vol. 30

作者 | 何淋波、宋净超、徐迪业界要闻 1. AWS re:Invent 2019 AWS 年度云计算盛会于 […]...

2019 网络编程面试题

阅读五分钟，每日十点，和您一起终身学习，这里是程序员Android 1.网络分层 OSI七层协议模型主要是： […]...

2019 最新iOS企业证书申请、P12文件的制作

https://www.jianshu.com/p/97f6b8c2b67c?utm_campaign=hug […]...

随机推荐

ARM架构及ARM指令集、Thumb指令集你了解多少？

https://www.sohu.com/a/339622340_100281310 1991 年ARM 公司 […]...

idea关闭，tomcat却没关闭的设置方法

最近，遇到个事，我在打开tomcat时，关闭了idea，再次打开时，运行tomcat时，发现端口占用，查看任务 […]...

Python习题集（二）

每天一习题，提升Python不是问题！！有更简洁的写法请评论告知我！ https://www.cnblogs. […]...

codeblocks软件安装卸载，以及没有编辑器的修复

1.我们安装的时候，需要看清楚自己安装的是带编辑器的还是不带编辑器的。我们需要进入到自己的安装的软件中，进行 […]...

最简单，最实用的数据库CHM文档生成工具——DBCHM

DBCHM支持SqlServer/MySql/Oracle/PostgreSQL等数据库的表列批注维护管理。 […]...

Spring boot security权限管理集成cas单点登录

挣扎了两周，Spring security的cas终于搞出来了，废话不多说，开篇！ Spring boot集成 […]...

区块链，去中心化应用基本知识与开发实践学习

区块链，去中心化应用，代币合约，以太坊区块链基本定义：区块链是分布式数据存储、点对点传输、共识机制、加密算 […]...

Linux用户及权限管理

Linux操作系统对多用户的管理，是非常繁琐的，所以用组的概念来管理用户就变得简单，每个用户可以在一个独立的 […]...

trec 2019 fair ranking track

trec 2019 fair ranking track的更多相关文章

随机推荐

热门专题

目录导航