simd, sse2: make alignment optional for load operations

2026-02-17 03:39:05 +00:00 · 2018-05-08 15:25:23 +03:00
parent 0f339c5c03
commit 252bf925fc
9 changed files with 118 additions and 110 deletions
--- a/include/cglm/simd/sse2/affine.h
+++ b/include/cglm/simd/sse2/affine.h
@@ -18,30 +18,30 @@ glm_mul_sse2(mat4 m1, mat4 m2, mat4 dest) {
  /* D = R * L (Column-Major) */
  __m128 l0, l1, l2, l3, r;

-  l0 = _mm_load_ps(m1[0]);
-  l1 = _mm_load_ps(m1[1]);
-  l2 = _mm_load_ps(m1[2]);
-  l3 = _mm_load_ps(m1[3]);
+  l0 = glmm_load(m1[0]);
+  l1 = glmm_load(m1[1]);
+  l2 = glmm_load(m1[2]);
+  l3 = glmm_load(m1[3]);

-  r = _mm_load_ps(m2[0]);
+  r = glmm_load(m2[0]);
  _mm_store_ps(dest[0],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
                          _mm_mul_ps(_mm_shuffle1_ps1(r, 2), l2)));

-  r = _mm_load_ps(m2[1]);
+  r = glmm_load(m2[1]);
  _mm_store_ps(dest[1],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
                          _mm_mul_ps(_mm_shuffle1_ps1(r, 2), l2)));

-  r = _mm_load_ps(m2[2]);
+  r = glmm_load(m2[2]);
  _mm_store_ps(dest[2],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
                          _mm_mul_ps(_mm_shuffle1_ps1(r, 2), l2)));

-  r = _mm_load_ps(m2[3]);
+  r = glmm_load(m2[3]);
  _mm_store_ps(dest[3],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
@@ -55,24 +55,24 @@ glm_mul_rot_sse2(mat4 m1, mat4 m2, mat4 dest) {
  /* D = R * L (Column-Major) */
  __m128 l0, l1, l2, l3, r;

-  l0 = _mm_load_ps(m1[0]);
-  l1 = _mm_load_ps(m1[1]);
-  l2 = _mm_load_ps(m1[2]);
-  l3 = _mm_load_ps(m1[3]);
+  l0 = glmm_load(m1[0]);
+  l1 = glmm_load(m1[1]);
+  l2 = glmm_load(m1[2]);
+  l3 = glmm_load(m1[3]);

-  r = _mm_load_ps(m2[0]);
+  r = glmm_load(m2[0]);
  _mm_store_ps(dest[0],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
                          _mm_mul_ps(_mm_shuffle1_ps1(r, 2), l2)));

-  r = _mm_load_ps(m2[1]);
+  r = glmm_load(m2[1]);
  _mm_store_ps(dest[1],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
                          _mm_mul_ps(_mm_shuffle1_ps1(r, 2), l2)));

-  r = _mm_load_ps(m2[2]);
+  r = glmm_load(m2[2]);
  _mm_store_ps(dest[2],
               _mm_add_ps(_mm_add_ps(_mm_mul_ps(_mm_shuffle1_ps1(r, 0), l0),
                                     _mm_mul_ps(_mm_shuffle1_ps1(r, 1), l1)),
@@ -86,10 +86,10 @@ void
 glm_inv_tr_sse2(mat4 mat) {
  __m128 r0, r1, r2, r3, x0, x1;

-  r0 = _mm_load_ps(mat[0]);
-  r1 = _mm_load_ps(mat[1]);
-  r2 = _mm_load_ps(mat[2]);
-  r3 = _mm_load_ps(mat[3]);
+  r0 = glmm_load(mat[0]);
+  r1 = glmm_load(mat[1]);
+  r2 = glmm_load(mat[2]);
+  r3 = glmm_load(mat[3]);
  x1  = _mm_set_ps(1.0f, 0.0f, 0.0f, 0.0f);

  _MM_TRANSPOSE4_PS(r0, r1, r2, x1);