机票数据采集系统策划方案介绍
时间:2023-05-28 08:09:02 | 来源:网站运营
时间:2023-05-28 08:09:02 来源:网站运营
机票数据采集系统策划方案介绍: 这是一个探码大数据客户案例,根据客户需求,作了如下调研。
基于大数据的理论,机票数据采集系统的软件架构应该是从这三方面来研发的:左边是大量的数据源,中间是大数据平台,后边是对大数据分析处理以后的用途归属。
提供机票数据源的平台很多,包括像携程、去哪儿、艺龙这样的平台,到各个航空公司自己的官网,都可以源源不断的提供实时的机票数据,将这些机票数据汇集在一起,形成一个数据池。
中间的大数据平台是机票数据采集系统的核心,大数据平台将数据池中的数据结构化以后,提供给项目作任何维度的分析和研究,查询和检索,同时根探码大数据平台的业务逻辑进行筛选。
当有了大数据平台以后,探码科技将结构化的数据分发到不同的终端,这种终端可以是公司自有的APP、网站或者微信公共号,也可以是公司的第三方分销平台,如通过携程API上传到携程分销商,通过阿里开发结构对接到阿里旅行。
机票数据是一种实时性要求很高的网络数据,同时机票采集数据的用途也很多,数据采集的量也会相应增加。
机票数据采集系统的核心目的是通过采集[去哪儿]数据源的机票实时价格信息,动态分析出需要的价格内容,并上传到[携程API]。以下的内容是针对机票数据采集系统策划方案的详细介绍。
- 1. 采集去哪儿数据(多线程实时采集)
- 2. 大数据平台管理系统实现
- 3. 开发携程API接口,上传数据
1.采集去哪儿网站机票信息
- 1.1 多线程处理:预计开设300-400条线程,每台服务器至少保证每台服务器能运行100个线程。
- 1.2 数据更新必须及时且准确,速度以杭州为例,循环杭州出港到国内所有城市时间一圈不能超过20分钟。
- 1.3 实现自动化采集,不用人工参与,后台可以人工设置采集城市,采集参数。
2. 大数据平台管理系统实现
- 2.1 构建一个实时大数据分析平台,可以在上面按照各种查询条件分类、筛选出需要的航班机票。
- 2.2 一个数据采集前端队列界面,可以直观的看到目前数据采集的情况,成功的条数,失败的条数,失败的原因,真正排队的任务等。
3. 上传到携程API
- 3.1 学习最新版本的携程API接口,开发上传接口。
- 3.2 完成机票资源共享平台的对接。
总结
探码大数据主要采集数据第一部分:所有航班的详情,采集字段包括航空公司、起飞日期
、起飞机场 、到达机场 、航班号、 使用规定、对应舱位、 对应价格 、剩余座位。
第二部分:最低价格的航班详情,采集字段包括起飞城市三字码、到达城市三字码、
航空公司、起飞日期、起飞机场、 到达机场、 航班号、 使用规定、最低价格、 最低价格舱位 、I舱价格、 最低价剩余座位。
OTA机票数据采集采集目标:
OTA网站机票价格、移动端机票价格,可采集指定网站的数据,按客户要求进行处理,输出所需数据格式.
案例:
http://www.qunar.com、
http://www.ctrip.com、
http://www.kuxun.cn、以及各大航空公司
- 根据线路出发地、目的地获取机票信息
- 自动对比机票价格,获取最低报价
- 根据每天的机票价格生成2-3月报价
- 一键自动更新2-3个月内的价格
- 可自行设定成人地接价、儿童地接价、价格说明
探码大数据服务优势
- 一对一采集服务:满足每个客户单独的数据采集处理方式
- 内容、关键字、链接替换:相近内容、词、链接地址替换
- 支持图片采集下载:自动将内容中的图片换为本地图片
- 分页采集:多页连续横向采集
- 多层嵌套采集:多层嵌套纵向深入采集
- 复杂数据结构组织:数据间复杂逻辑结构自动组织
- 任意编码采集:支持各种语言编码网页的采集
- 多种数据保存格式:Excel/JSON/MySQL/MsSQL/API
- 图片验证码识别:自动识别图片中的信息 中英、中拼自动转换:中英文、中文拼音自动转换
本文转载自探码科技官网:
http://www.tanmer.com/bigdata/157