刷论文

介绍

用来记录看过的论文,以发表时间倒序排列。

采用的记录方法【最新】:

  • 文章内容
  • 文章结论
  • 复习点
  • 待看的点
  • 一些想法

论文列表

  • 2019 Classification and regression trees and forests for incomplete data from sample surveys
  • 2019 Subgroup identification for precision medicine- a comparative review of thirteen methods
  • 1992 Identification of active contrasts in unreplicated factorial experiments

2019 Classification and regression trees and forests for incomplete data from sample surveys

文章内容:在问卷调查中估计均值

文章结论:如果参数方法的assumption不正确,CRTF (Classification and Regression Trees and Forests) 算的比参数方法又快又准。如果参数方法的assumption完全正确,则efficiency会低10%~25。

复习的点:

  • 比较预测表现的时候,使用bias和MSE这两个工具。

  • 传统方法采用两个模型的混合使用。使用Logistic Regression来得到Propensity Score,再用IPW + Linear Regression来计算均值。

  • 如果我们的预测值y出现了缺失值,该怎么预测均值?

    • IPW在计算的时候要乘两项,第一项是有多大概率会NA,第二项是这个数据代表的总体占比多少。我们会得到下面的公式:

    (iS1π^i1wi)1iS1π^i1wiyi\left(\sum_{i \in S_{1}} \hat{\pi}_{i}^{-1} w_{i}\right)^{-1} \sum_{i \in S_{1}} \hat{\pi}_{i}^{-1} w_{i} y_{i}

    • 还可以对NA的y进行linear regression填充,公式:

    (kSwk)1(iS1wiyi+jS2wjy^j)\left(\sum_{k \in S} w_{k}\right)^{-1}\left(\sum_{i \in S_{1}} w_{i} y_{i}+\sum_{j \in S_{2}} w_{j} \hat{y}_{j}\right)

    • 最简单的方式是直接用不NA的数据去预测y。这可以看成是IPW中的大家有着同样的有多大概率会NA。也可以看成采用了方法2,对于NA的y,全部由不NA的均值来填充。
    • 邵老师研究了用Nearest-Neighbor来填充,发现会是asymptotic unbiased的。但是如果X有NA的话,方法不可用。
  • Simulation的时候可以有trivial experiment。使用 Y=ϵY = \epsilon 来验证当X没啥用的时候,我们会不会得出来「没啥用」这个结论。

待看的点:

  • Hot Deck:另一种NA填充法,构造了一些Adjustment Cells

    Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis With Missing Data, 2nd Edition. Wiley: New York.

  • 老邵的NA那本书【放在992文件夹里面】

  • Fixed Effect and Random Effect 【总是遇到,再不看有点顶】

  • Doubly Robust Estimator 【Paper里使用了这个方法,已经学过两次,又忘记了…】

  • Surrogate splits in CART 【不知道出现多少次了,必须得看了】

  • BRR (balanced repeated replication)

    Krewski and Rao (1981), Shao (1996), Wolter (2007)

一些想法:

  • 我们是不是可以先把GUIDE当成是一个imputation的R-package?那些AMELIA和MICE获得了那么多引用,虽然方法尚可,但归根结底是在对比的时候很方便。应该尽早把GUIDE放入大家的对比库。
  • 关于树的产生过程中,变量的复用。我们到底是100%的时候都在复用,还是有一些情况是不能复用的?
  • 在最后Simulation对比那里,发现大家都underestimated。正常情况下是不是应该左面也有右面也有?虽然这些方法之间是Highly correlated, 但是都under-estimated是不是也不太正常?会不会可能是因为在我们第一步那里P1≉DP_1 \not\approx D ,这样会不会导致其实算出来的对比结果不对?
  • 关于树预测结果的Variance计算,Loh说这conditional on a specific tree。会不会有一天我们能把Variance写成一个公式?等于节点数 + level数量 + …

2019 Subgroup identification for precision medicine- a comparative review of thirteen methods

文章内容:通过Simulation和真实数据,比较精准医学中Subgroup的13种方法。

文章结论:一些方法比较差劲,可以看文章最后的Table10。

复习点:

  • 用了七个指标去评价:(a) bias in selection of subgroup variables, (b) probability of false discovery (type-I), © probability of identifying correct predictive variables, (d) bias in estimates of subgroup treatment effects, (e) expected subgroup size, (f) expected true treatment effect of subgroups, and (g) subgroup stability

  • Prognosticpredictive的区别:Prognostic直接跟发病率相关,predictive则是和Treatment一起决定了发病率

    • 所以很多时候要找predictive的变量,实际上是要找什么变量和treatment变量有交互作用
    • 因为Prognostic本质上和treatment与否没啥关系,所以我们的subgroup问题主要关注的是predictive的变量。
  • Truncation at ±1\pm 1 可以写成:min(max(X,1),1)\min (\max (X,-1), 1)

待看的点:

  • 关于Simulation的次数,组数,该如何选择?
    • 可以取决于最后要求的精度,还有吗?

一些想法:

  • 复用变量来做splitting,可以产生{a<Xb}\{a \lt X \le b \} 这样的区间。但是实际上,Xa,X>bX \le a, X \gt b 被分到了两个叶子节点而不是一个。我们需要考虑这两个节点的合并问题吗?
  • Variable Selection Bias那里为什么使用根节点的划分变量,而不是最终决定Subgroup的变量?
    • 大概是有一个assumption,第一个划分的最重要吧

1992 Identification of active contrasts in unreplicated factorial experiments

文章内容:

文章结论

复习点

待看的点

一些想法


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!