加增量字段y增量字段可以是时间字段y同时也可以是自增长字段y当</p>
源业务系统中数据新增或者被修改时y增量字段就会产生变化y时间戳</p>
字段就会被修改为相应的系统时间y自增长字段就会增加</p>
每当etl工具进行增量数据获取时y只需比对最近一次数据抽取的增量</p>
字段值y就能判断出来哪些是新增数据y哪些是修改数据。</p>
这章没有结束,请点击下一页继续阅读!</p>
《离语》无错的章节将持续在小说网更新,站内无任何广告,还请大家收藏和推荐!</p>
喜欢离语请大家收藏:离语更新速度全网最快。</p>
这种数据抽取方式的优点是抽取性能比较高y判断过程比较简单yetl</p>
系统设计清晰y源数据抽取相对清楚简单y可以实现数据的递增加载</p>
最大的局限性就是由于某些数据库在进行设计的时候y未考虑到增量字</p>
段y需要对业务系统进行改造y基于数据库其他方面的原因y还有可能</p>
出现漏数据的情况。</p>
3. 全量同步</p>
全量同步又叫 全表删除插入方式</p>
y是指每次抽取前先删除目标表</p>
数据y抽取时全新加载数据该方式实际上将增量抽取等同于全量</p>
抽取对于数据量不大y全量抽取的时间代价小于执行增量抽取的</p>
算法和条件代价时y可以采用该方式。</p>
这种方式的优点是对已有系统表结构不产生影响y不需要修改业务</p>
操作程序y所有抽取规则由etl完成y管理维护统一y可以实现数</p>
据的递增加载y没有风险</p>
缺点是etl比对较复杂y设计较为复杂y速度较慢与触发器和时</p>
间戳方式中的主动通知不同y全表比对方式是被动的进行全表数据</p>
的比对y性能较差当表中没有主键或唯一列且含有重复记录时y</p>
全表比对方式的准确性较差。</p>
日志比对的方式是通过获取数据库层面的日志来捕获到变化的数据y</p>
不需要改变源业务系统数据库相关表结构y数据同步的效率比较高y</p>
同步的及时性也比较快y最大的问题就是不同数据库的日志文件结</p>
构存在较大的差异性y实施分析起来难度比较大y同时y需要具备</p>
访问源业务库日志表文件的权限y存在一定的风险性y所以这种方</p>
式有很大的局限性。</p>
日志比对方式中比较成熟的技术是cdc(change data capture)技术y</p>
作用同样是能够捕获到上一次抽取之后产生的相关变化数据y当</p>
cdc对源业务表进行新增更新和删除等相关操作的时就可以捕获</p>
到相关变化的数据y相对于增量字段方式ycdc方式能够较好地捕</p>
获到删除数据y并写入相关数据库日志表y然后再通过视图或者别</p>
的某种可操作的方式将捕获到的变化同步到数据仓库当中去。</p>
这种方式的优点是etl同步效率较高y不需要修改业务系统表结构y</p>
可以实现数据的递增加载缺点是业务系统数据库版本与产品不统</p>
一y难以统一实现y实现过程相对复杂y并且需深入研究方能实现</p>
这种方式也通过第三方工具实现y但是y一般都是商业软件y费用</p>
较高。</p>
《离语》无错的章节将持续在小说网更新,站内无任何广告,还请大家收藏和推荐!</p>
喜欢离语请大家收藏:离语更新速度全网最快。</p>