1.6_深入领域

elevenqq edited this page Sep 30, 2018 · 4 revisions

领域模型

domain

Contract
契约即规范,是对不同领域内数据类型的高层抽象,其在Datalink中的主要表现形式为Record,如针对关系型数据库有RdbEventRecord、针对Hbase有HRecord。在整个产品规划中,契约处于最顶层,无论采用何种基础设施、何种业务模型、何种开发语言,契约都是一套独立的规范。契约是连接Reader和Writer的纽带,Reader和Writer互不感知,它们通过识别共同的契约实现数据交换。
Business Model
Business Model是对数据交换业务场景的高层抽象,将不同场景的共性需求进行了归纳和总结,抽象出了一套统一的模型定义。当然它不是万能的,不能包含所有的需求点,并且是随着场景的增多不断演化的,但它是必须的,统一的模型抽象可以支撑80%场景下的功能复用。主要模型定义如下:
1. Media:对存储单元的抽象。如:RDBMS中的表,HBase中的表,ElasticSearch中的索引,HDFS中的一个文件路径等,都称之为Media。
2. MediaSource:对存储产品的抽象。如:Mysql,Sqlserver,HBase,Kafka,Hdfs等,都称之为MediaSource。
3. MediaMapping(MediaMappingColumn):对存储单元间数据同步规则的抽象。具体见领域功能介绍部分。
4. MetaMapping:对存储产品间数据类型映射规则的抽象。如:Mysql的varchar映射到ElasticSearch的数据类型是String。

领域功能

本小节对datalink中提供的通用功能做一下介绍

功能项	详述
别名	同步配置中可以为库、表和列配置别名,以支持源和目标名称不一致的场景
黑名单	可以通过黑名单指定不同步某些列
白名单	可以通过白名单指定只同步某些列
通配符	为了简化配置,目前支持了几种类型的通配符 (.) —— 代表所有,一般配置全库同步时使用,所有表只需配置一条映射规则即可 (.)(\[(\d+)\-(\d+)\])(.) —— 一个数字区间,如:db[0-8],table[0000-0032],一般在分库分表场景下使用,所有分库或分表只需配置一条映射规则 (.)${yyyy} —— 按年分表时使用,所有表只需配置一条映射规则即可 (.*)${yyyyMM}—— 按月分表时使用,所有表只需配置一条映射规则即可使用详情可参考:com.ucar.datalink.domain.media.ModeUtils
配置重载	使用通配符很方便,但通配符中包含的个别表也经常有特殊配置需求,如果因为这些特殊需求而放弃使用通配符,显然得不偿失,因此,系统提供了配置重载机制:在使用了通配符时,还可以对表进行单独的配置,系统会用独立的配置重载掉通用配置(注:独立配置处于禁用状态时,也会重载,不会因为禁用了就又采用通用规则了)
优先级	通过配置优先级,可以灵活指定表的同步顺序,系统会按照优先级从小到大的顺序执行优先级的默认值为5,优先级相同时,系统按照数据的原始顺序执行优先级的排序单元是Task,即:优先级排序时,范围只限于同一个Task内,不同Task之间的配置是完全隔离的
拦截器	拦截器是系统提供的扩展机制,用户可以在拦截器中自定义同步逻辑,实现自己的特殊需求,如:过滤特定数据、对数据进行重新组装、反查数据等等。拦截器有两种配置方式:Script和Class,前者是直接配置java源码,系统动态编译并使用;后者是配置Class类名,系统在指定目录中加载class文件并使用
多表聚合	在【同步规则】中可以配置【聚合列】,用来实现多表聚合,即:将【源端】多张表的数据在【目标端】聚合到一张宽表中当然,系统只是提供了该配置项,具体聚合逻辑还得Writer插件自行实现
数据合并	数据合并指的是在数据同步过程中,可以对同一张表的相同pk的数据进行合并,以提升同步性能如:同步Binlog时,将同一条数据的多次update事件合并成一条,这样在目标端执行的时候,只需执行一次即可具体可参见:com.ucar.datalink.worker.api.merge.BuiltInRdbEventRecordMerger
主键跳过	利用该功能可以在同步过程中过滤掉指定主键的数据,目前支持两种配置方式: 1、指定ID,多个以逗号分割,如:100,200,300 2、指定ID区域,多个以逗号分割,如:[100-200],[300-500]
参数扩展	不同场景下的同步规则相差各异,MediaMapping提供了一个扩展参数字段,用来满足不同场景下的配置需求

核心流程

本小节对数据同步的核心流程做一下介绍,此处所说的核心流程指的是系统提供的默认流程,用户自定义的Handler必须继承自com.ucar.datalink.worker.api.handle.AbstractHandler才会使用该流程。当然,用户也可以不继承该Handler,完全自定义同步逻辑,但大部分情况下的同步流程都是类似的,建议优先复用该Handler再考虑自行扩展。

task-flow

上图展示的是一次数据同步的交互流程:同步流程从TaskReader发起,TaskReader将数据放到队列,然后进行callback等待,TaskWriter负责从队列take数据(实际情况可以是多个TaskWriter消费该批次数据,简单起见,上图并没有体现一对多的关系),然后根据Record类型加载对应的Handler,等Handler处理完数据后,不论成功失败进行callback通知,然后TaskReader结束等待,如果成功则执行commit然后发起下一轮同步,如果失败则执行rollback然后重试。基本流程就是这样的,具体细节可参考代码,下面对Handler的内部流程做重点介绍:

Mapping
Record经过Mapping阶段后,有两个重要的变化,其一,如果在MediaMapping中配置了一对多的同步映射关系,一个Record会裂变成多个,其二,Record的metadata中被附加上了MediaMapping信息。Mapping完成之后,所有的Record都有了【目标归属】
Intercept
拦截器是一个扩展机制,执行的是用户配置的自定义逻辑,拦截阶段可以对Record进行任何形式的处理,如:过滤、合并、再加工等,具体做什么主要看实际的业务需求。系统提供的一些默认功能也是靠拦截器实现的,如:主键跳过功能,只不过这些拦截器是内置的。
Merge
对于某些Record,在执行前是可以进行Merge操作的,如RdbEventRecord,我们可以把同一条数据的变更事件合并(如多次update合并成一次update),这样可以大大提升同步性能
Transform
上述阶段完成之后Record已经逃脱了被忽略的命运,Transform阶段将进行最后的组装,别名、黑白名单等规则在此阶段生效,组装之后等待最后的执行
Group
Group的目的是为了并发,一条数据可能同时同步到A,B,C三个数据库,此阶段会按照目标MediaSouce进行分组,后续load阶段,不同分组会并发执行
Load
Load阶段完成最终的写入,需要每个Writer插件在重载Handler的时候自行实现,每个插件根据实际情况,可以对数据再次整合,但该阶段的宏观目标就是【完成写入】

下面通过一个图示,进行更详细的说明:

R_t1_p1在Mapping阶段完成了裂变,因为需要从ucar_admin同步到ucar_driver、ucar_order和ucar_crm三个库
R_t3_p2在Intercept阶段被过滤,因为配置了编号为1的拦截器
R_t2_p1(insert)和R_t2_p1(update),在Merge阶段合并成了一条新的R_t2_p1(insert)
R_t3_p1在Transform阶段变成了R_t33_p1,因为配置了表别名
Group阶段,R_t1_p1和R_t2_p1合并到了一组,因为它们都同步到ucar_driver,另一个R_t1_p1和R_t33_p1合并到了一组,因为它们都同步到ucar_crm
Load阶段R_t33_p1执行完之后,其它的Record才执行(并行执行),因为R_t33_p1优先级高

sync-1 sync-2

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

1.6_深入领域

领域模型

领域功能

核心流程

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally