18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > python爬取搞笑的段子,让你笑到根本停步下来,哈哈哈......

python爬取搞笑的段子,让你笑到根本停步下来,哈哈哈......

时间:2022-05-06 13:00:02 | 来源:行业动态

时间:2022-05-06 13:00:02 来源:行业动态

今天小编转换风格,给大家讲一个冷笑话,问你们:

大家知道高速公路怎么来的吗?

因为“一只公鹿,它走着走着,越走越快,最后它变成了高速公路(鹿)!!!!”

世界上最远的距离是啥?

“是两个人到了边境,你过去了,我护照忘带了。。”

医生:从X光片上看你的肋骨断裂了。

患者:啊,那怎么办?

医生:没关系,我已经用Photoshop帮你修好了。

下班前的发给你:

客户:“这个图下班之前必须发给我!”

设计师:“好的!” 第二天清早。

客户:“图怎么还没发过来?”

设计师:“我还没下班呢…



我们经常会在一些网站上看到冷笑话提问,然后网友们的回答真是令人叫绝,五花八门,搭不上边,但是仔细一品,还真有一些意犹未尽。

神奇的段子配上神回复,这是在组cp吗?简直就是笑死人,不偿命。

还有很多很多冷笑话等你们去挖掘,一个一个去找,去看回复,太麻烦了,我们年轻人应该用简单粗暴的方法解决问题,在这里小编就python编程整理一下,以知乎为例,接下来一起看看具体程序。

简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很easy?如果你也有这个爱好,可以和小编一起来实现。

爬取知乎回答 我们都知道知乎的问题和回答太多,去挑选是很麻烦的事,所以我们可以选定几个话题,爬取这几个话题里的内容。

下面的函数用于爬取某一个指定话题的内容:

def get_answers_by_page(topic_id, page_no):

offset = page_no * 10

url = topic_url # topic_url是这个话题对应的url

headers = {

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

}

r = requests.get(url, verify=False, headers=headers)

content = r.content.decode("utf-8")

data = json.loads(content)

is_end = data["paging"]["is_end"]

items = data["data"]

client = pymongo.MongoClient()

db = client["zhihu"]

if len(items) 0:

db.answers.insert_many(items)

db.saved_topics.insert({"topic_id": topic_id, "page_no": page_no})

return is_end

爬下来的内容当中有几个需要注意的字段,下图中用黄框高亮出来了:



这几个字段的含义如下:

question.title:问题的标题。

content:回答的内容。

voteup_count:赞同的数量。

这些代码含义要记住哦,下面的内容还会用到的。



筛选回答: 既然你想要挖掘的话题已经出来了,下面就要筛选回答,话不多说,上代码:

client = pymongo.MongoClient()

db = client["zhihu"]

items = db.answers.aggregate([

{"$match": {"target.type": "answer"}},

{"$match": {"target.voteup_count": {"$gte": 1000}}},

{"$addFields": {"answer_len": {"$strLenCP": "$target.content"}}},

{"$match": {"answer_len": {"$lte": 50}}},])

上面的代码会筛选所有赞同大于 1000、字数小于 50 的回答,筛选出来的结果就是短小精辟的神回复

以上就已经完成了全部步骤,是不是简单不能再简单了,当然也得让大家看看最后的展示结果

注意接下来的话,你品,你细细品。



A:中国程序员是否偏爱「冲锋衣 牛仔裤 运动鞋」的衣着?如果是,为何会形成这样的潮流?

B:穿那么好看给程序看吗?

A:祈求代码不出 bug 该拜哪个神仙?

B:拜雍正,专治八阿哥。

IT 工程师被叫「码农」时是否会不舒服?

A:计算机系的学生都有哪些口头禅?

B:我电脑上运行的好好的啊⋯⋯

A:假如有一天所有的人都使用计算机语言说话,会是怎样的场景?

B:hello,world。烫烫烫烫烫烫烫�d}��R�0:�v�?.

A:计算机世界里有哪些经典谣言?

B:我已阅读并同意该条款。



除了这些神回复,冷笑话也不能缺席:

01、一个程序员抽着烟,向空中吐着烟圈。他的女朋友对吸烟感到愤怒。

女朋友:“难道你不能看到烟盒上的警告吗?吸烟有害健康!”

程序员回答说:“我是一名程序员。我一般不担心警告,只担心错误。”

02、街边,一对情侣在吵架。

女孩对男孩说,“我们分手吧!”

女孩对男孩说,“我们分手吧!”

男孩沉默半天,开口问道,

“我能再说最后一句话吗?”

“说吧,婆婆妈妈的。”

“我会编程……”

“会编程有个屁用啊,现在到处都是会编程的人!”

男孩涨红了脸,接着说道,

“我会编程……我会变成……童话里,你爱的那个天使……”

03、某程序员致电客户:“你好”

客户:“你也好!你是?”

程序员:“我?我是程序员。”

客户:“哦,程先生。”?

程序员:“客气,叫我序员就好。

还有好多好多,敬请期待

如果你想用python爬取到更多网站信息,欢迎关注小编,或者可以去“蚁小二”官网了解哦~

关键词:根本,段子

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭