python爬取搞笑的段子,让你笑到根本停步下来,哈哈哈......
时间:2022-05-06 13:00:02 | 来源:行业动态
时间:2022-05-06 13:00:02 来源:行业动态
今天小编转换风格,给大家讲一个冷笑话,问你们:
大家知道高速公路怎么来的吗?
因为“一只公鹿,它走着走着,越走越快,最后它变成了高速公路(鹿)!!!!” 世界上最远的距离是啥?
“是两个人到了边境,你过去了,我护照忘带了。。” 医生:从X光片上看你的肋骨断裂了。
患者:啊,那怎么办?
医生:没关系,我已经用Photoshop帮你修好了。
下班前的发给你: 客户:“这个图下班之前必须发给我!”
设计师:“好的!” 第二天清早。
客户:“图怎么还没发过来?”
设计师:“我还没下班呢…
我们经常会在一些网站上看到冷笑话提问,然后网友们的回答真是令人叫绝,五花八门,搭不上边,但是仔细一品,还真有一些意犹未尽。
神奇的段子配上神回复,这是在组cp吗?简直就是笑死人,不偿命。 还有很多很多冷笑话等你们去挖掘,一个一个去找,去看回复,太麻烦了,我们年轻人应该用简单粗暴的方法解决问题,在这里小编就python编程整理一下,以知乎为例,接下来一起看看具体程序。
简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很easy?如果你也有这个爱好,可以和小编一起来实现。 爬取知乎回答 我们都知道知乎的问题和回答太多,去挑选是很麻烦的事,所以我们可以选定几个话题,爬取这几个话题里的内容。
下面的函数用于爬取某一个指定话题的内容:
def get_answers_by_page(topic_id, page_no):
offset = page_no * 10
url = topic_url # topic_url是这个话题对应的url
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
}
r = requests.get(url, verify=False, headers=headers)
content = r.content.decode("utf-8")
data = json.loads(content)
is_end = data["paging"]["is_end"]
items = data["data"]
client = pymongo.MongoClient()
db = client["zhihu"]
if len(items) 0:
db.answers.insert_many(items)
db.saved_topics.insert({"topic_id": topic_id, "page_no": page_no})
return is_end
爬下来的内容当中有几个需要注意的字段,下图中用黄框高亮出来了:
这几个字段的含义如下:
question.title:问题的标题。 content:回答的内容。 voteup_count:赞同的数量。 这些代码含义要记住哦,下面的内容还会用到的。
筛选回答: 既然你想要挖掘的话题已经出来了,下面就要筛选回答,话不多说,上代码: client = pymongo.MongoClient()
db = client["zhihu"]
items = db.answers.aggregate([
{"$match": {"target.type": "answer"}},
{"$match": {"target.voteup_count": {"$gte": 1000}}},
{"$addFields": {"answer_len": {"$strLenCP": "$target.content"}}},
{"$match": {"answer_len": {"$lte": 50}}},])
上面的代码会筛选所有赞同大于 1000、字数小于 50 的回答,筛选出来的结果就是短小精辟的神回复
以上就已经完成了全部步骤,是不是简单不能再简单了,当然也得让大家看看最后的展示结果
注意接下来的话,你品,你细细品。 A:中国程序员是否偏爱「冲锋衣 牛仔裤 运动鞋」的衣着?如果是,为何会形成这样的潮流?
B:穿那么好看给程序看吗? A:祈求代码不出 bug 该拜哪个神仙?
B:拜雍正,专治八阿哥。 IT 工程师被叫「码农」时是否会不舒服?
A:计算机系的学生都有哪些口头禅?
B:我电脑上运行的好好的啊⋯⋯ A:假如有一天所有的人都使用计算机语言说话,会是怎样的场景?
B:hello,world。烫烫烫烫烫烫烫�d}��R�0:�v�?. A:计算机世界里有哪些经典谣言?
B:我已阅读并同意该条款。 除了这些神回复,冷笑话也不能缺席: 01、一个程序员抽着烟,向空中吐着烟圈。他的女朋友对吸烟感到愤怒。
女朋友:“难道你不能看到烟盒上的警告吗?吸烟有害健康!”
程序员回答说:“我是一名程序员。我一般不担心警告,只担心错误。”
02、街边,一对情侣在吵架。
女孩对男孩说,“我们分手吧!”
女孩对男孩说,“我们分手吧!”
男孩沉默半天,开口问道,
“我能再说最后一句话吗?”
“说吧,婆婆妈妈的。”
“我会编程……”
“会编程有个屁用啊,现在到处都是会编程的人!”
男孩涨红了脸,接着说道,
“我会编程……我会变成……童话里,你爱的那个天使……”
03、某程序员致电客户:“你好”
客户:“你也好!你是?”
程序员:“我?我是程序员。”
客户:“哦,程先生。”?
程序员:“客气,叫我序员就好。
还有好多好多,敬请期待
如果你想用python爬取到更多网站信息,欢迎关注小编,或者可以去“蚁小二”官网了解哦~