重复试验 Superficial Data Analysis

下周要给实验室做R和数据分析的报告,昨天晚上恰好看到《Beautiful Data》中的一篇文章Superficial Data Analysis: Exploring Millions of Social Stereotypes,这篇文章中就是使用R对数据进行分析的,通过文章下载到了网上的数据,按照代码进行了分析,期间遇到了各种小问题,在这里记录下来,当做是学习R的一个脚注。

文章要分析的是FaceStat.com网站上用户对陌生的照片的评价,网站已经不在了,但是数据还在。下载地址:http://data.doloreslabs.com/

尽管这个网站不再了,但是简单说一下,就是用户把自己的照片提交给网站,然后网站的用户就可以评价这个人到底好不好看,看起来是否聪明啊,性感啊,觉得这个人有什么特点啊,和Facebook的初衷一模一样。

网站上的代码比书中的要全面一些,具体的文件名可能有些出入,对一下就好了。

整个分析过程中需要用到的包是:

  • corrgram:Plot a correlogram
  • gclus:Clustering Graphics
  • pixmap:Bitmap Images (“Pixel Maps”)
  • geneplotter:Graphics related functions for Bioconductor
其中geneplotter包不是CRAN上面的,是bioconductor上面的,使用source("http://bioconductor.org/biocLite.R")

 

可以将R中安装包的源从CRAN转到bioconductor。使用

biocLite("geneplotter", dependencies=TRUE)

 

安装geneplotter。安装的时候一定要使用dependencies=TRUE这样在安装的时候会把geneplotter依赖的包自己都装上(geneplotter依赖超多包的)。安装好之后,就都载入进来就好了。

之后继续看代码,读代码,后边的代码质量不是很高,基本上修改一下,有NA的地方替换一下就好了。

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s