如需要完整文档点击下方 "点击下载文档" 按钮
随着对传统数据库数据资料使用的日益饱和, 为探索特定情境下的研究问题,科研人员开始迫切寻找更加灵活且多样的数据来源, 丰富的 Web 资源为这一需求提供了快捷通道。 为此,针对传统数据采集技术如 Python 的高编程门槛和高内存消耗等缺点,引入基于 C#的 Octoparse 数据采集技术, 分析了该技术在数据采集应用中的原理、优势和不足,并以IPE 公众环境研究中心为实验平台,设计了一套具备高复制性、高拓展性的数据采集规则,对 2004 ~ 2017 年间京津冀、长三角、珠三角地区总计 758 家废水国控重点监控企业的环保处罚记录进行了定向采集。 实验表明,相比 Python, Octoparse数据采集技术的规则设定更加便捷,批量采集更加稳定,数据导出更加多样,不仅可以有效降低编程门槛,而且能够规避由盲视操作导致的数据丢失,实现所见即所得。 该套规则可以为地方环境政策的评估以及区域环境经济的预测提供优质的数据支撑。
如需要完整文档点击下方 "点击下载文档" 按钮
《基于 Octoparse 的 IPE 环境数据采集》
将 完整文档 下载到本地,方便收藏和查阅
文件号:059195
点击下载文档