本文,我们来看日志采集与数据采集,为什么要做日志采集呢?日志采集最大的作用,就是通过分析用户访问情况。提升系统的性能,从而提高系统承载量,及时发现系统承载瓶颈,也可以方便技术人员基于用户实际的访问情况进行优化。
日志采集也是运维人员的重要工作之一,那么日志都包括哪些呢,又该如何对日志进行采集呢?日志就是日记的意思,它记录了用户访问网站的全过程,哪些人在什么时间,通过什么渠道,比如搜索引擎、网址输入来过,都执行了哪些操作。系统是否产生了错误,甚至包括用户的IP、HTTP请求的时间,用户代理等,这些日志数据可以被写在一个日志文件中,也可以分成不同的日志文件,比如访问日志、错误日志等。
日志采集可以分两种形式。通过Web服务器采集,例如 httpd、Nginx、Tomcat 都自带日志记录功能,同时很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集。如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
自定义采集用户行为。例如用JavaScript代码监听用户的行为、AJAX异步请求后台记录日志等,数据源数据同步,根据同步的方式可以分为,直接数据源同步生成,数据文件同步。数据库日志同步直接数据源同步,是指直接的连接业务数据库,通过规范的接口(如JDBC)去读取目标数据库的数据,这种方式比较容易实现,但是如果业务量比较大的数据源,可能会对性能有所影响。
生成数据文件同步,是指从数据源系统现生成数据文件,然后通过文件系统同步到目标数据库里,这种方式适合数据源比较分散的场景,在数据文件传输前后必须做校验,同时还需要适当进行文件的压缩和加密,以提高效率、保障安全。数据库日志同步,是指基于源数据库的日志文件进行同步。现在大多数数据库都支持生成数据日志文件,并且支持用数据日志文件来恢复数据,因此可以使用这个数据日志文件来进行增量同步。这种方式对系统性能影响较小,同步效率也较高。
总之,数据采集本身不是目的,只有采集到的数据是可用、能用,且能服务于最终应用分析的数据采集才是根本。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2020-03-10 13:35:26
2022-11-21 14:44:06
2022-11-21 14:45:22
2022-11-21 14:45:08
2022-11-21 14:46:17
2022-11-21 14:43:26
甄选10000+数字化产品 为您免费使用
申请试用
评论列表