已测得一种有阳性和阴性之分的疾病的多列数据,请问利用何种数据挖掘或分析方法找出哪些因素与该病有关

可以试一下 Logistic Regression,其中的参数你可以利用一下
■网友
如果你有一部分或者全部数据都已经标注了阴性或阳性的结果,建议用决策树试一试
■网友
用卡方分析和GINI分析看看目标和特征之间的相关关系,低相关的去掉,然后用逻辑回归试试吧,随机森林也可以试试,svm表现不好的话可能是没选好核函数,换一下核试试,你值的不好是达到多少精度了,不要太过追求精度导致过拟合。留一下召回率recall。
■网友
半夜睡不着,第一次答题,提供一些低级别的建议供参考============================这里假设题主已经有了一定量的 labeled data(标记数据)Decision Tree(决策树),优点:如果 feature(特征)也是离散的,或是能较好的用分段函数代表成离散的,可以得到每种因素的对最终结果重要程度的排序;缺点:无法得出重要程度的权值,Decision Tree 还有个机构性缺陷就是,如果在离散化的过程中处理不当,training error(训练失误)就可以达到最大 (k-1)/k,(k是输出的种类个数,此处为2)。所以最后的模型其实很可能变成接近随机。Naive Bayes (朴素贝叶斯)Voted Perceptron (投票感知)Logistic Regression (逻辑回归),这几类大概类似,放在一起粗略说一下。优点:在量度统一前提下(最经典的词频文章分类),可以得出 weighted vector (权重向量);以及数据对模型的更新时候比较方便。缺点:如果量度不统一(有些feature都是几百,有些个位数,有些从一到几百),最后对weighed vector意义解释时候比较麻烦。以及Logistic Regression在对weighed vector的惩罚系数以及手段取舍会引入新的问题。(L2的非稀疏解,Lasso的如何优化问题,这些我handle不了的话题仅此提及一下,不做深入)Dimension Reduction (降维),利用PCA(主元分析),PPCA,FA这些方式找出 eigenvector (特征向量)后有可能去除一些无关因素以及一些潜在的共同作用因素。由于是先期准备,不讨论优缺点,列一些注意因素:降维程度也许不明显,或者发现几乎无法剔除多余 feature,或者降维之后边界不明显。还有些高端用法(PGM等)去追求潜在联系的,超出能力范围,希望其他人给出补充。
■网友
前几天给人处理个数据练练手,也是好多性状,预测阴性阳性。挺多细节需要注意的,我们可以交流下~顺便请教下大神 @肖智博。先处理特征。对于阴性(或者阳性)患者,每一种特征的分布情况要统计一下,看看是不是有显著差异,是不是线性可分。 如果是类别型特征的话,应该做特别的处理。好比说特征甲分为ABC三类。就把甲拆成乙丙丁三个性状,其中A类的这个三个性状分别为(001)B类(010)C类(100)。然后套套算法(别忘记交叉检验)。我觉得如果只是简单套用的话,处理这种问题svm,logistic regression,lda效果都差不多……可能因为逻辑回归的结果是对判为阴性(阳性)概率的估计,解释性最好,医学上一般使用这个算法。如果简单的算法效果不好,数据量又够多的话,可以试试逻辑回归的时候用一下交互项(两个性状相乘),或者svm中的kernel method。我们最后使用的算法中,就是借鉴了一种叫RMI的判决方法,把几个性状重新评分,然后相乘。至于怎么科学的把性状重新评分(非线性处理?)从而让相乘后的新性状区分性能更好,我最后也没想出办法……这种阴阳性的数据,很容易出现阳性案例特别多,阴性案例很少的情况,这时候判决面会倾向于判为阳性。我是把阴性的案例一个按两个来算的,这样两类例数基本平衡,但对我的结果没什么改进……正因为阴阳性案例数目不同,不能只看分类器的准确率,应该看敏感性和特异性,有些严重的病症判决可能对敏感性要求高一些。可以比较下各种分类器的ROC,AUC,YI,最大YI情况下的敏感性,特异性。我想到的大概是这些,欢迎讨论哈~
■网友
LR是二分类器可以对所有参数先做标准化,然后做LR,观察参数系数大小及正负方式看影响性质和大小。如果参数太多可以先做主成分分析再LR。懒得编程可以用无脑SPSS直接得到结果


推荐阅读