实战低成本服务器搭建千万级数据采集系统

实战低成本服务器搭建千万级数据采集系统

如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。 有这样一个采集系统的需求,达成指标: * 需要采集**30万关键词**的数据 * 微博必须在**一个小时**采集到 * 覆盖**四大微博**(新浪微博、腾讯微博、网易微博、搜狐微博) 为了节约客户成本,硬件为**普通服务器**:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为**mysql**。 在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容。现通过采集、存储来说明一下如何实现: ## 一、**采集** 目标是在一个小时内把3
阅读 180 次
图片压缩之 WebP

图片压缩之 WebP

WebP(发音 weppy,项目主页),是一种支持有损压缩和无损压缩的图片文件格式,派生自图像编码格式 VP8。根据 Google 的测试,无损压缩后的 WebP 比 PNG 文件少了 45% 的文件大小,即使这些 PNG 文件经过其他压缩工具压缩之后,WebP 还是可以减少 28% 的文件大小。 2010 年发布的 WebP 已经不算是新鲜事物了,在 Google 的明星产品如 Youtube、Gmail、Google Play 中都可以看到 WebP 的身影,而 Chrome 网上商店甚至已完全使用了 WebP。国外公司如 Facebook、ebay 和国内公司如腾讯、淘宝、美团等也早已
阅读 141 次
图片压缩之 ImageMagick

图片压缩之 ImageMagick

对图片进行压缩有几点好处: 1.节省带宽,图片越多节省的带宽越大(你就为公司每月省区几万,你的价值就在体现在这里) 2.加速web页面的响应速度 centos 6.5 yum 默认安装 6.7.2 (yum -y install ImageMagick) 源码: cd /usr/src wget ftp://ftp.imagemagick.org/pub/ImageMagick/ImageMagick-6.9.2-10.tar.gz tar -zxf ImageMagick-6.9.2-10.tar.gz ; cd ImageMagick-6.9.2-10 ./configure && mak
阅读 177 次
tomcat jdbc connect mysql

tomcat jdbc connect mysql

cd /usr/src wget http://ftp.ntu.edu.tw/MySQL/Downloads/Connector-J/mysql-connector-java-5.1.34.tar.gz tar -zxvf mysql-connector-java-5.1.34.tar.gz ; cd mysql-connector-java-5.1.34 ll mysql-connector-java-5.1.34-bin.jar -rw-r--r-- 1 root root 960374 Oct 17 2014 mysql-connector-java-5.1.34-bin.jar jd
阅读 70 次
Crucible 代码审核之安装篇

Crucible 代码审核之安装篇

Crucible是一个用于开发团队的代码检测工具,有了Crucible团队成员可以检查、注释、编辑代码,并记录结果。当发现一个潜在的代码问题,你可以挑选出这条代码行并做注释。 使用Crucible有规律的作代码检查,可以帮助开发人员发现和纠正缺陷,提高代码开发的效率 crucible各版本下载地址:www.atlassian.com/software/crucible/download-archives wget https://downloads.atlassian.com/software/crucible/downloads/crucible-3.10.1.zip 解压安装 unzip
阅读 759 次
jdk1.8 安装篇

jdk1.8 安装篇

下载官网:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-21 33151.html tar -zxf jdk-8u65-linux-x64.tar.gz mv jdk1.8.0_65/ /usr/local/jdk # tail -5 /etc/profile export JRE_HOME=/usr/local/jdk export JAVA_BIN=/usr/local/jdk/bin export PATH=$JRE_HOME/bin:$PATH export CLASSPATH=.:$JRE
阅读 93 次
TcpCopy 压测,漏洞测试之神器

TcpCopy 压测,漏洞测试之神器

**一、Tcpcopy简介** TCPCopy是一种请求复制(所有基于tcp的packets)工具 ,其功能是复制在线数据包,修改TCP/IP头部信息,发送给测试服务器,达到欺骗测试服务器的TCP 程序的目的,从而为欺骗上层应用打下坚实基础。 **二、TCPCopy七大功能** 1)分布式压力测试工具,利用在线数据,可以测试系统能够承受的压力大小(远比ab压力测试工具真实地多),也可以提前发现一些bug 2)普通上线测试,可以发现新系统是否稳定,提前发现上线过程中会出现的诸多问题,让开发者有信心上线 3)对比试验,同样请求,针对不同或不同版本程序,可以做性能对比等试验 4)流量放大功能,可以利
阅读 226 次