openEA周刊第55期 | 本期推荐:可用来抓数据的开源爬虫软件工具
时间:2023-03-20 08:28:02 | 来源:电子商务
时间:2023-03-20 08:28:02 来源:电子商务
摘要:世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总。
openEA开源社区(ID:openEA)| 出品
小夕 | 编辑
周刊目录新闻资讯
苹果因不带充电器被罚款200万美元;杨笠代言英特尔被抵制,品牌方连夜下架;Linux考虑加入对Rust的支持
开源工具
可用来抓数据的开源爬虫软件工具
深度干货
CTO 说了,还在用 Java Calendar 类处理时间的直接开除
人工智能
百度头条纷纷高调入局!AI芯片到底是什么?
每周一书
《零基础入门学习Python(第2版)》
新闻资讯
◇ 苹果因不带充电器被罚款200万美元;杨笠代言英特尔被抵制,品牌方连夜下架;Linux考虑加入对Rust的支持(点击阅读全文)
来源 | CSDN
01一分钟速览新闻点!
腾讯副总裁姚星离职创业,曾一手筹建腾讯 AI Lab
华为鸿蒙OS 2.0 手机更新官方适配计划曝光:支持 Mate X2/Mate 40/P40 系列等,联发科天玑机型可能无缘
发现抵用券漏洞,两人疯狂 “薅羊毛”获利 770 余万元,被警方采取刑事强制措施
杨笠代言英特尔被男网友抵制,品牌方连夜下架
苹果同意在俄罗斯预装政府批准的应用
马斯克:正考虑建立机器人编程大学
苹果因不带充电器被罚款 200 万美元
Google 准备发布 Fuchsia 的首个开发者版本
Linux:如果没有人站出来维护 WiMAX 代码,将删除 WiMAX
红旗 Linux 社区升级改版,并启用全新域名
http://linuxsir.cnLinux-Next 加入对 Rust 的初步支持
02国内要闻
上海哈喽单车再涨价目前,哈啰单车在上海的收费规则为前 15 分钟 1.5 元,之后每 15 分钟 1 元,相当于 4.5 元/时。而之前,哈啰单车的收费规则是前 30 分钟 1.5 元,之后每 15 分钟 1 元,相当于 3 元/时。
小米造车有望 4 月立项,由王川负责有记者从接近雷军的投资方和车企高管等知情人士处获悉,小米集团正在快速推进造车事项,最快有望在 1-2 个月内立项,初步讨论的品牌定位与小鹏汽车类似,主打强科技属性的中高端市场。该计划的直接负责人为小米老将王川。“去年一年,王川经常往理想汽车跑,如果小米造车的 1 号负责人是雷军, 2 号负责人就是王川。”知情人士表示。
华为鸿蒙OS 2.0 手机更新官方适配计划曝光:支持 Mate X2/Mate 40/P40 系列等,联发科天玑机型可能无缘据微博博主 @菊厂影业 Fans 消息,鸿蒙系统的升级计划内部消息来了。第一批升级名单是 Mate X2、Mate 40 系列、P40 系列。
此前爆料称,首批升级名单中有 Mate X2、P50 系列、新平板系列随后是 Mate 40 系列与 P40 系列。后来由于 P50 系列延期,改为直接搭载,而新平板系列也会直接搭载。
目前已知的联发科天玑芯片暂时不在升级范围内,但是后续会不会升级还是要看官方安排。
腾讯副总裁姚星离职创业,曾一手筹建腾讯 AI Lab
3 月 19 日报道,腾讯集团副总裁、腾讯人工智能实验室 AI LAB 院长姚星现从腾讯离职,姚星离职后,创立元象唯思控股(深圳)有限公司。
在就职腾讯期间,姚星主要负责技术工程事业群的基础技术平台、搜索技术平台和人工智能研发的团队管理和项目开发工作,有着丰富的服务架构方面技术经验,并使用该技术为微信、QQ 和 QQ 空间服务。同时也,他从事计算机视觉、语音识别、自然语言处理、机器学习等AI相关领域的研究工作。
发现抵用券漏洞,两人疯狂 “薅羊毛”获利 770 余万元,被警方采取刑事强制措施
近日在上海,派出所接报案称,他们在定期对公司所运营的 App 后台进行梳理时,发现 2020 年 11 月至 12 月期间,有约 1600 笔利用公司发售的抵用券进行购买的记录存在异常,经后台比对,发现有 2 个客户反复使用同一抵用券进行刷单。
报道称,客户可以利用支付时间差等方式来钻空子,比如,抵用券价值 800 元,他们只要下一个 1000 元的订单,自己支付 200 元的实际费用,就可以拿到 1000 元的货物,再将这 1000 元的货进行转卖或者二手倒卖,就能赚取中间的差价。犯罪嫌疑人朱某、李某利用系统漏洞分别骗取该公司 640 万元、130 万价值的货物。目前,犯罪嫌疑人朱某、李某因涉嫌诈骗罪已被青浦警方依法采取刑事强制措施,案件正在进一步侦办中。
03国际要闻
杨笠代言 Intel 被男网友抵制,品牌方连夜下架
3 月 18 日,英特尔官方微博@英特尔芯品汇 放出了脱口秀演员杨笠的代言宣传片,宣传片中杨笠说道:“英特尔的眼光太高了,比我挑对象的眼光都高。”此前,杨笠就因挑拨男女对立而饱受争议,她那句“他明明那么普通却那么自信”更是惹怒了很多男网友。在网上出现了大量的负面讨论后,英特尔意识到气氛不对,官方微博连夜下架了该代言内容,同时,英特尔官方淘宝店也撤下了与杨笠相关的宣传海报。
苹果同意在俄罗斯预装政府批准的应用
据报道,苹果同意俄罗斯用户首次配置设备时将弹出提示预装政府批准的一组应用。此举旨在遵守俄罗斯最近通过的一项新法律。俄罗斯用户可以拒绝安装其中的特定应用。俄罗斯消费者保护法律 On Consumer Protection 的修正案要求在俄罗斯销售的设备必须预装政府批准的应用,该法律适用于智能手机、平板、笔记本、台式机和智能电视。预装的应用包括杀毒软件、地图、社交媒体、“公共服务”类应用。苹果据报道将从 4 月 1 日执行这一规定。
马斯克:正考虑建立机器人编程大学
3 月 20 日,特斯拉公司首席执行官伊隆·马斯克与中国科学院院士、南方科技大学校长薛其坤在中国发展高层论坛 2021 上进行了对话。马斯克称,特斯拉未来或许也将尝试企业大学的形式,比如机器人编程方面,把教育和产业发展结合起来。
苹果因不带充电器被罚款 200 万美元
Tilt 和 MacRumors 报告称,巴西消费者保护机构 Procon-SP 将对苹果处以 1055 万雷亚尔(约合 200 万美元)的罚款,原因是该产品从 iPhone 12 家族中移除了电源适配器,并且更新了旧版 iPhone 的生产。据监管机构称,苹果的举动违反了该国的《消费者保护法》。
开源工具
◇ 可用来抓数据的开源爬虫软件工具(点击阅读全文)
来源 | openEA_wiki
前言
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。
爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。
Java爬虫
01Arachnid
Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。
特点:微型爬虫框架,含有一个小型HTML解析器
许可证:GPL
02crawlzilla
crawlzilla 是一个帮你轻松建立搜索引擎的自由软件,有了它,你就不用依靠商业公司的搜索引擎,也不用再烦恼公司內部网站资料索引的问题。
由 nutch 专案为核心,并整合更多相关套件,并卡发设计安装与管理UI,让使用者更方便上手。crawlzilla 除了爬取基本的 html 外,还能分析网页上的文件,如( doc、pdf、ppt、ooo、rss )等多种文件格式,让你的搜索引擎不只是网页搜索引擎,而是网站的完整资料索引库。
拥有中文分词能力,让你的搜索更精准。
crawlzilla的特色与目标,最主要就是提供使用者一个方便好用易安裝的搜索平台。
授权协议:Apache License 2
开发语言:Java JavaScript SHELL
操作系统:Linux
项目主页:
https://github.com/shunfa/crawlzilla下载地址:
http://sourceforge.net/projects/crawlzilla/特点:安装简易,拥有中文分词功能
03Ex-Crawler
Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。
授权协议:GPLv3
开发语言:Java
操作系统:跨平台
特点:由守护进程执行,使用数据库存储网页信息
Heritrix
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。
Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。
代码托管:
https://github.com/internetarchive/heritrix3授权协议:Apache
开发语言:Java
操作系统:跨平台
特点:严格遵照robots文件的排除指示和META robots标签
04heyDr
heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架,遵循GNU GPL V3协议。
用户可以通过heyDr构建自己的垂直资源爬虫,用于搭建垂直搜索引擎前期的数据准备。
授权协议:GPLv3
开发语言:Java
操作系统:跨平台
特点:轻量级开源多线程垂直检索爬虫框架
ItSucks
ItSucks是一个java web spider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。
特点:提供swing GUI操作界面
jcrawl
jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.
授权协议:Apache
开发语言:Java
操作系统:跨平台
特点:轻量、性能优良,可以从网页抓取各种类型的文件
深度干货
◇ CTO 说了,还在用 Java Calendar 类处理时间的直接开除(点击阅读全文)
来源 | 码匠笔记
Java 8 已经普遍使用了,可是还在有人用 Java Calendar 处理时间和日期,不仅仅性能差,很切代码很冗余,就不能用 Java 8 提供的新 API 吗?所以 CTO 强制了,必须用 Java 8 处理日期,否则一律开除。下面是整理的 18 种处理日期的方式,可以收藏起来,一定有用。
Java处理日期、日历和时间的方式一直为社区所诟病,将 java.util.Date设定为可变类型,以及SimpleDateFormat的非线程安全使其应用非常受限。
新API基于ISO标准日历系统,java.time包下的所有类都是不可变类型而且线程安全。
人工智能
◇ 百度头条纷纷高调入局!AI芯片到底是什么?(点击阅读全文)
来源 | AI人工智能产业研究
今年央视3·15晚会格外“热闹”,商家滥用AI(人工智能)人脸识别、储存面部信息的恶劣行为曝光,引起舆论哗然。
有网友戏称商家点歪了“科技树”。一些商家会利用这样的AI技术,识别出哪些是新客户、哪些是高消费老客户,甚至谁是暗访的记者、谁是便衣的监管。
AI技术飞速发展,但这样被滥用引发社会思考:我们是不是应该放慢脚步、重新审视AI?
在AI在人脸技术、语音识别等方向的应用被重新审视的同时,另一边AI芯片开发端脚步却没有慢下来,各种技术路线全面开花,全球技术大神火力全开加速研发。
大家为什么对AI芯片这么痴迷?它又将如何改变科技和生活?
字节火速入场,百度昆仑独立融资
3月16日,有媒体发现字节跳动正在招聘多个芯片研发岗工程师,并报道字节正在向云端AI芯片和Arm服务器芯片的自主研发等方向探索。
同一天,字节跳动大方承认“是在组建相关团队,在AI芯片领域做一些探索”。
那厢,百度也加紧了AI芯片业务的步伐。路透社也报道称,“All in AI”、准备在港第二上市的百度旗下AI芯片部门“昆仑”最近完成了一轮独立融资,这部分业务估值约为20亿美元。
百度也高调回应,昆仑芯片业务近期确实已经完成独立融资。
百度的AI芯片率先进入到量产阶段。2021年2月,李彦宏在百度全员信里提到昆仑1代已在搜索引擎、智能云生态伙伴等具体的业务场景得到部署,性能继续提高的昆仑2代将采用7nm制程技术,也即将投入量产。
阿里、腾讯自然也没有缺席这场角逐。阿里含光800 AI芯片于2020年9月面市,腾讯通过股权投资燧原科技的方式切入赛道。还有寒武纪、地平线,在AI芯片领域也是国产企业里的佼佼者。
巨头们都大张旗鼓入场将宝押在这小小的芯片,让巨头们痴迷的AI芯片究竟是什么?
AI芯片究竟是什么?将会用在哪里?
AI芯片可不是利用AI技术来研发或制造芯片,而是为了AI计算而生的芯片,拥有更强的大数据计算能力,可以理解为“AI大脑”。
当下信息时代,社会每天都在产生大量的数据,并且数据量在未来几年还会快速攀升。而如何才能更好地处理这些海量数据,成为首要问题。
软件方面工程师们不断钻研更先进的算法,硬件方面AI芯片首当其冲。
我们不是有芯片么?为什么还需要单弄出来个AI芯片?这是因为AI有海量的数据需要处理,如果用传统的CPU或者GPU去计算,会遇到功耗过大、计算效率低下的瓶颈。专注于大数据分析计算的AI芯片是专攻突破这一瓶颈的神器。
全球科技巨头齐头并进,做大了的AI芯片市场。艾瑞咨询预测,2022年AI芯片市场空间有望超过500亿美元,可谓一片蓝海。
AI芯片将会用在哪里呢?我们将AI芯片分成两类,便于理解。
一类“看得见摸得着”,是用在终端的AI芯片,比如我们的汽车、智能手环等。它们具有低功耗、高性能的特点,不断收集最新的数据、更新最新的算法,来更好地服务。
另一类“看不见摸不着”,是部署在服务器云端的AI芯片,它们拥有非凡的计算能力,可以将无数终端AI芯片收集来的数据进行分析,进化成为“更强大脑”。
评价AI芯片的好坏,工程师们会从同步性、通用性、成本功耗等多个方面去研究。
站在投资者的视角,则需要注意的是,AI芯片虽然可以“颠覆性”提高计算性能,背后却是高昂的研发投入和长达多年的研发周期,相对应的风险也是极高的。
另外目前AI芯片有CPUs、GPUs、ASICs、FPGAs、仿生芯片、量子芯片等多种技术路线,每一家企业只能押宝其中一条进行探索,未来被淘汰的技术路线势将会面临全盘皆输。
反过来讲,突围的龙头企业将拥有较高的技术壁垒,利润前景丰厚。
英伟达领先,AI芯片竞争格局风起云涌
最后,我们再来把目光投向全球,看看AI芯片赛道的角逐情况。
目前Google、Intel、IBM等国际巨头已经全部入场AI芯片的研发,处于领先地位的是英伟达。早在2010年,英伟达就“赌对了”GPU路线并推出一套名为CUDA的计算架构。
CUDA因为极好的适配性被迅速在各个细分领域应用,积累了很多算法和数据,带英伟达完成了从濒临破产到称霸行业的华丽转身。
不过就像上文说的,在数据爆发的时代里,计算需求也呈现爆发式增长,AI芯片还是蓝海一片。资本已经对这一领域表现出浓厚兴趣,必将加速后来者的追赶速度,弯道超车的可能性非常大。
再加上中国市场拥有数据量大这一天然优势,百度、头条们入场,能否在AI芯片领域向国际巨头发起挑战?等着我们的将会是一场好戏。
每周一书
◇ 《零基础入门学习Python(第2版)》(点击阅读全文)
前言时光荏苒,一晃间,距离《零基础入门学习Python》出版(2016年11月)已经过去两年多了,在这段时间里,Python逐步走入了大家的视野,这门语言因其简洁的语法风格,在云计算、金融分析、人工智能、科学运算和自动化运维等领域上都有很好的应用,所以被越来越多的人所认识和接受,其使用率得到了大幅度的提升。
《零基础入门学习Python》一经出版便受到了广大读者的欢迎,累计销售13万册,在出版后两年多的时间里,收到了很多读者朋友们的反馈,大部分的读者朋友给予了很高的评价,小甲鱼在此由衷地感谢大家。同时,也注意到朋友们提出的一些疑问、意见和建议。因此,在第2版中,小甲鱼对所使用的Python版本进行了更新(Python 3.7);对书中存在的不足进行了弥补;引入了更多有趣的案例;添加了更多实用的模块讲解等。
本书特色(1)所有案例均使用Python 3.7版本代替了原来的Python 3.3,改写了大部分知识点的例子,使读者学习起来更富有趣味性。
(2)考虑到现实中的开发场景,增加了一些案例:
· 在爬虫案例部分引入了流行的Request模块;
· 增加了“爬取豆瓣Top250电影排行榜”和“爬取网易云音乐的热门评论”案例;
· Scrapy爬虫框架部分,采用了Anaconda来安装Scrapy,使用Scrapy 1.5.0版本进行演示。
(3)考虑到“正则表达式”和“Scrapy爬虫框架”在实际开发中的应用非常广泛,将其从第1版中的第14章(论一只爬虫的自我修养)中独立出来,添加了更多的示例,使得内容更为翔实、丰富。
(4)修改了第1版中的一些差错,在此要再次感谢各位读者提出的疑问,使 小甲鱼能够发现书中的不足之处。
精彩书评j***3:
这本书用通俗易懂、诙谐幽默的语言为枯燥的编程语言穿上了新衣,让你在一个个小游戏开发设计中学会Python的数据类型、while语句、循环结构等基础内容,真正做到了在实践中掌握知识,在实践中获得编程的快乐和成就感。
j***1
简单易学,条理清晰,语句轻松诙谐,把枯燥的编程语言,像讲故事一样娓娓道来,值得买。
G***0:
之前一直想要学习Python,却不知道从哪里入手,看到了小甲鱼的这本书就想先买回来试试看能不能学懂,没想到书中的内容浅显易懂,小甲鱼以诙谐幽默的方式将知识传递给读者,每节课还有视频课程可以学习,并且之后能在论坛当中找到作业的解答对于自己不懂的问题在论坛中也会有其他好心人帮助你,对于入门学习Python的小白来说真的是非常棒了!
W***巨:
程序书原来还可以这么写,语言生动、有趣,比看国外翻译回来的那些书可读性强多了,作者更加明白入门者想要什么,堪称入门经典。
尐***髙:
非常,非常,非常有意思的一本入门书,如果我买的一本书不是这本书,可能我根本就学不进去Python,十分感谢作者。
u***e:
非常适合零基础,语句通俗、易懂且幽默、风趣,让你爱不释手,废寝忘食,总想着一口气读完。再配上小甲鱼的视频教学,绝了。
小贴士:目前openEA应用市场已经上线啦,如果你手头上刚好有开源项目,欢迎到我们这里展示!
同时周刊已增设开源工具栏目,欢迎联系开源君投稿哦~
开源社区福利多多,欢迎登陆
http://openea.net注册会员哦!
/openEA
开源社区统一认证方案(上)——CAS与LDAP的搭建与集成
/企业应用
让复杂的差旅费用报销简单起来
扫码关注公众号
新浪微博:@openEA开源社区