标签归档:aapg

利用RCurl抓取AAPG的摘要

最近想练习一下正则,顺带偷懒,于是选择了用R来抓取期刊的摘要,做成endnote等格式的题录。 想想很简单,不外乎是抓取网页,然后解析内容,提取想要的内容,不过过程远比想象的复杂。

1、抓取网页

网上内容很多,随便搜索一下,搜到的一个博客介绍得非常好。

第一步:安装程序包。两行命令,不到一秒时间内完成:

require(XML)

require(RCurl)

第二步:抓取网页的源代码。[......]

Read more