Lucius Blog

「适志于道 寄骸于迹 而无往不欣」

推荐系统中的协同过滤算法

概述 协同过滤是一种推荐算法,其通常建模为 $m$ 个用户,$n$ 个物品,只有部分用户和部分物品之间有评分数据,其它评分是空白的,此时就要求我们用已有的部分稀疏数据来预测空白的部分,找到评分最高的物品推荐给用户。 协同过滤通常有三种类型: 基于用户 (user-based):考虑用户之间的相似度,基于相似用户的喜好,预测目标用户对相应物品的评分(可能带给用户惊喜); ...

推荐系统召回层算法

整体概述 在推荐系统中,往往有千百万量级的候选物品,对其进行一一排序是不现实的,因此通常的做法是「先筛选再排序」: 筛选部分即召回层,其依据用户信息,从千百万量级的候选物品中筛选出几百个物品的同时,需要保证召回率; 排序部分即排序层,即对筛选出的物品进行排序,该过程需保证准确率(即用户点击率)。 召回层通常有如下几类方法: ...

Detecting and Correcting for Label Shift with Black Box Predictors(BBSE)

概述 首先从一个流感的例子讲起,医院在八月根据当月数据训练了模型 $f$,假设其特征 $\boldsymbol{x}$ 为「有无咳嗽」,预测标签 $y$ 为「有无得流感」。 后续几个月模型 $f$ 运转良好,但到第二年二月时,医院发现 $f$ 预测为「得流感」的人数大幅增加,此时我们知道这与「冬季是流感高发期」有关。但一个问题随即出现了,用八月数据训出的 $f$ 是否在二月也能有效预测,...

模型查搜相关研究

模型查搜相关研究 NCE $\text{NCE}$ 即 Negative Conditional Entropy,其基本设定如下: 源域:模型 $\theta$,输出空间 $\mathcal{Z}$ 目标域:有标记数据 $\mathcal{D}={(x_i,y_i)}_{i=1}^n$,输出空间 $\mathcal{Y}$ 该工作利用负条件...

机器学习中常见性能度量汇总

一、回归 在回归任务上,目前最常用的性能度量方式是均方误差 (Mean Squared Error, $\text{MSE}$): $$ \text{MSE}=\frac{1}{m}\sum_{i=1}^m (f(\boldsymbol{x}_i)-y_i)^2 $$ 其余还有均方根误差 (Root Mean Squared Error, $\text{RMSE}$): $$ ...

Transformer 模型以及自注意力机制 (Self-attention)

在 Transformer 之前,序列翻译任务(或者说与序列、时序相关的任务)通常采用 RNN、CNN 结构,其中 RNN 的缺点在于:(1)使用计算的先后次序,来表征序列中的先后信息,因此只能串行计算(2)长序列早期的信息可能会丢失;CNN 的缺点在于:捕捉相邻信息依赖卷积的窗口,因此对于长序列的信息可能需要很多层卷积。 基于上述问题,Transformer 应运而生,提出新结构,用于实...

目标检测 YOLO 系列模型

YOLO (You Only Look Once) 系列模型追求实时目标检测,因此会在一定程度上牺牲精度,以实现更高的检测速度。 目标检测评价指标 IoU 模型预测框的 IoU 值与 IoU 阈值进行比较,若大于阈值,即为正确的检测,否则为错误的检测。 mAP 目标检测中,每个预测框都对应一个置信度,不同的置信度阈值,意味着最终留下的预测框的不同。 AP 是针对目标检测中某个...

OWLAPI 记录

分析 Ontology 1 2 ontology.getLogicalAxioms().forEach(System.out::println); // 查看所有 Logical Axioms o.getClassesInSignature().forEach(System.out::println); // 查看 Signature 中所有 Class 判断是否为 owl:Nothin...

机器学习讲座记录

《机器学习理论的回顾与展望》 2017 年,北京大学教授王立威在中国人工智能学会AIDL第二期上带来的主题报告,共分为以下四部分: 研究机器学习理论的意义 “非常典型的机器学习的过程:收集数据、建模、做出预测” “研究机器学习理论的目的绝对不是为了证明一个算法的边界如何,而是为了提供对机器学习问题的洞察和理解” VC Theor...

机器学习算法 - 博客收藏

“Everything should be made as simple as possible but no simpler”, Albert Einstein 1. 算法详解 1.1 谱聚类 对比传统聚类算法 K-Means,谱聚类对数据分布的适应性更强,聚类效果也更好,且计算量较小,实现也不复杂,是广泛使用的聚类算法。 参考资料: 谱聚类(spectral cl...