Commit 6bdcc83

committed

Fix Flex 2 inpaint

1 parent eb4677b commit 6bdcc83Copy full SHA for 6bdcc83

File tree

2 files changed

+35

-15

lines changed

ggml_extend.hpp
stable-diffusion.cpp

2 files changed

+35

-15

lines changed

`‎ggml_extend.hpp‎`

Lines changed: 17 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -375,18 +375,31 @@ __STATIC_INLINE__ void sd_mask_to_tensor(const uint8_t* image_data,`
`375`	`375`
`376`	`376`	`__STATIC_INLINE__ void sd_apply_mask(struct ggml_tensor* image_data,`
`377`	`377`	`struct ggml_tensor* mask,`
`378`		`- struct ggml_tensor* output) {`
	`378`	`+ struct ggml_tensor* output,`
	`379`	`+ float masked_value = 0.5f) {`
`379`	`380`	`int64_t width = output->ne[0];`
`380`	`381`	`int64_t height = output->ne[1];`
`381`	`382`	`int64_t channels = output->ne[2];`
	`383`	`+ for (int ix = 0; ix < mask->ne[0]; ix++) {`
	`384`	`+ for (int iy = 0; iy < mask->ne[1]; iy++) {`
	`385`	`+ float m = ggml_tensor_get_f32(mask, ix, iy);`
	`386`	`+ m = round(m); // inpaint models need binary masks`
	`387`	`+ ggml_tensor_set_f32(mask, m, ix, iy);`
	`388`	`+ }`
	`389`	`+ }`
	`390`	`+ float rescale_mx = mask->ne[0]/output->ne[0];`
	`391`	`+ float rescale_my = mask->ne[1]/output->ne[1];`
`382`	`392`	`GGML_ASSERT(output->type == GGML_TYPE_F32);`
`383`	`393`	`for (int ix = 0; ix < width; ix++) {`
`384`	`394`	`for (int iy = 0; iy < height; iy++) {`
`385`		`- float m = ggml_tensor_get_f32(mask, ix, iy);`
	`395`	`+ int mx = (int)(ix * rescale_mx);`
	`396`	`+ int my = (int)(iy * rescale_my);`
	`397`	`+ float m = ggml_tensor_get_f32(mask, mx, my);`
`386`	`398`	`m = round(m); // inpaint models need binary masks`
`387`		`- ggml_tensor_set_f32(mask, m, ix, iy);`
	`399`	`+ ggml_tensor_set_f32(mask, m, mx, my);`
`388`	`400`	`for (int k = 0; k < channels; k++) {`
`389`		`- float value = (1 - m) * (ggml_tensor_get_f32(image_data, ix, iy, k) - .5) + .5;`
	`401`	`+ float value = ggml_tensor_get_f32(image_data, ix, iy, k);`
	`402`	`+ value = (1 - m) * (value - masked_value) + masked_value;`
`390`	`403`	`ggml_tensor_set_f32(output, value, ix, iy, k);`
`391`	`404`	`}`
`392`	`405`	`}`

`‎stable-diffusion.cpp‎`

Lines changed: 18 additions & 11 deletions

Original file line number	Diff line number	Diff line change
`@@ -1477,10 +1477,10 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,`
`1477`	`1477`	`LOG_INFO("sampling using %s method", sampling_methods_str[sample_method]);`
`1478`	`1478`
`1479`	`1479`	`struct ggml_tensor* control_latent = NULL;`
`1480`		`- if(sd_version_is_control(sd_ctx->sd->version) && image_hint != NULL){`
	`1480`	`+ if(sd_version_is_control(sd_ctx->sd->version) && image_hint != NULL){`
`1481`	`1481`	`if (!sd_ctx->sd->use_tiny_autoencoder) {`
`1482`	`1482`	`struct ggml_tensor* control_moments = sd_ctx->sd->encode_first_stage(work_ctx, image_hint);`
`1483`		`- control_latent = sd_ctx->sd->get_first_stage_encoding(work_ctx, control_moments);`
	`1483`	`+ control_latent = sd_ctx->sd->get_first_stage_encoding(work_ctx, control_moments);`
`1484`	`1484`	`} else {`
`1485`	`1485`	`control_latent = sd_ctx->sd->encode_first_stage(work_ctx, image_hint);`
`1486`	`1486`	`}`
`@@ -1560,7 +1560,7 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx,`
`1560`	`1560`	`}`
`1561`	`1561`	`LOG_INFO("HERE");`
`1562`	`1562`
`1563`		`- cond.c_concat = concat_latent;`
	`1563`	`+ cond.c_concat = concat_latent;`
`1564`	`1564`	`}`
`1565`	`1565`
`1566`	`1566`	`for (int b = 0; b < batch_count; b++) {`
`@@ -1827,16 +1827,23 @@ sd_image_t* img2img(sd_ctx_t* sd_ctx,`
`1827`	`1827`	`} else if (sd_ctx->sd->version == VERSION_FLEX_2) {`
`1828`	`1828`	`mask_channels = 1 + init_latent->ne[2];`
`1829`	`1829`	`}`
`1830`		`- ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);`
`1831`		`- // Restore init_img (encode_first_stage has side effects) TODO: remove the side effects?`
`1832`		`- sd_image_to_tensor(init_image.data, init_img);`
`1833`		`- sd_apply_mask(init_img, mask_img, masked_img);`
`1834`	`1830`	`ggml_tensor* masked_latent_0 = NULL;`
`1835`		`- if (!sd_ctx->sd->use_tiny_autoencoder) {`
`1836`		`- ggml_tensor* moments = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);`
`1837`		`- masked_latent_0 = sd_ctx->sd->get_first_stage_encoding(work_ctx, moments);`
	`1831`	`+ if (sd_ctx->sd->version != VERSION_FLEX_2) {`
	`1832`	`+ // most inpaint models mask before vae`
	`1833`	`+ ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);`
	`1834`	`+ // Restore init_img (encode_first_stage has side effects) TODO: remove the side effects?`
	`1835`	`+ sd_image_to_tensor(init_image.data, init_img);`
	`1836`	`+ sd_apply_mask(init_img, mask_img, masked_img);`
	`1837`	`+ if (!sd_ctx->sd->use_tiny_autoencoder) {`
	`1838`	`+ ggml_tensor* moments = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);`
	`1839`	`+ masked_latent_0 = sd_ctx->sd->get_first_stage_encoding(work_ctx, moments);`
	`1840`	`+ } else {`
	`1841`	`+ masked_latent_0 = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);`
	`1842`	`+ }`
`1838`	`1843`	`} else {`
`1839`		`- masked_latent_0 = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);`
	`1844`	`+ // mask after vae`
	`1845`	`+ masked_latent_0 = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], init_latent->ne[2], 1);`
	`1846`	`+ sd_apply_mask(init_latent, mask_img, masked_latent_0, 0.);`
`1840`	`1847`	`}`
`1841`	`1848`	`concat_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, masked_latent_0->ne[0], masked_latent_0->ne[1], mask_channels + masked_latent_0->ne[2], 1);`
`1842`	`1849`	`for (int ix = 0; ix < masked_latent_0->ne[0]; ix++) {`

0 commit comments

Comments

(0)

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit 6bdcc83

File tree

2 files changed

2 files changed

`‎ggml_extend.hpp‎`

`‎stable-diffusion.cpp‎`

0 commit comments