摘要:
大数据时代的科研竞争是数据之争,高质量数据的获取往往决定着研究结论的优劣乃至项目的成败。然而对于科研人员的Web数据自动抓取问题,学界目前尚未有系统性研究成果出现。本文对数据抓取的基本模式进行分析,归纳出四类科研人员Web数据抓取的基本模式:单站静态抓取模式、跨站静态抓取模式、单站动态抓取模式及跨站动态抓取模式及其技术难点。本文同时也提出了科研人员Web数据自动抓取技术的两种开源解决方案:基于开源爬虫和自行定制爬虫,最后详细探讨了各方案的软件架构并给出了基本代码框架。
中图分类号:
张婷婷 刘凯 王伟军. 科研人员Web数据自动抓取模式及其开源解决方案[J]. 信息资源管理学报, 2015, 5(2): 21-27.
Zhang Tingting Liu Kai Wang Weijun. The Mode of Automatically Crawling Web Data and its Open Source Solutions for Researchers[J]. Journal of Information Resources Management, 2015, 5(2): 21-27.