1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、实现大规模数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作;
3、.研究优化算法,提升爬虫系统的稳定性、可扩展性 ;
4、能独立解决实际开发过程碰到的各类问题 。
任职要求:
1、本科以上学历,2年以上爬虫开发相关经验,熟练使用Python进行开发;
2、 熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
3、 熟悉各种抓取技术,包括代理、PhantomJSselenium、验证码处理; 4、精通一种开源爬框架,如scrapy、webmagic、nutch、heritrix等;
5、熟悉各种反爬虫技术及其应对措施,有分布式爬虫架构经验优先;
6、具有良好的团队协作精神,思维清晰敏捷,逻辑分析能力强。
1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、实现大规模数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作;
3、.研究优化算法,提升爬虫系统的稳定性、可扩展性 ;
4、能独立解决实际开发过程碰到的各类问题 。
任职要求:
1、本科以上学历,2年以上爬虫开发相关经验,熟练使用Python进行开发;
2、 熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
3、 熟悉各种抓取技术,包括代理、PhantomJSselenium、验证码处理; 4、精通一种开源爬框架,如scrapy、webmagic、nutch、heritrix等;
5、熟悉各种反爬虫技术及其应对措施,有分布式爬虫架构经验优先;
6、具有良好的团队协作精神,思维清晰敏捷,逻辑分析能力强。
在求职过程中如果遇到扣押证件、收取押金、提供担保、强迫入股集资、解冻资金、诈骗传销、求职歧视、黑中介、人身攻击、恶意骚扰、恶意营销、虚假宣传或其他违法违规行为。请及时保留证据,立即向平台举报投诉,必要时可以报警、起诉,维护自己的合法权益。