Module core::arch::x861.27.0[][src]

This is supported on x86 only.
Expand description

特定于平台的用于 x86 平台的内部函数。

有关更多详细信息,请参见 模块级文档

Structs

__m128bhExperimental

128 位宽的一组 8 个 u16 类型,特定于 x86

__m256bhExperimental

256 位宽的 16 种 u16 类型集,特定于 x86

__m512Experimental

512 位宽的十六种 f32 类型集,特定于 x86

__m512bhExperimental

512 位宽的 32 种 u16 类型集,特定于 x86

__m512dExperimental

八种 f64 类型的 512 位宽集,特定于 x86

__m512iExperimental

512 位宽的整数 vector 类型,特定于 x86

cpuid 指令的结果。

四种 f32 类型的 128 位宽集,特定于 x86

两种 f64 类型的 128 位宽集,特定于 x86

128 位宽的整数 vector 类型,特定于 x86

256 位宽的八种 f32 类型的集合,特定于 x86

256 位宽的四种 f64 类型的集合,特定于 x86

256 位宽的整数 vector 类型,特定于 x86

Constants

_MM_CMPINT_EQExperimental

Equal

_MM_CMPINT_FALSEExperimental

False

_MM_CMPINT_LEExperimental

Less-than-or-equal

_MM_CMPINT_LTExperimental

Less-than

_MM_CMPINT_NEExperimental

Not-equal

_MM_CMPINT_NLEExperimental

不小于等于

_MM_CMPINT_NLTExperimental

不小于

_MM_CMPINT_TRUEExperimental

True

_MM_MANT_NORM_1_2Experimental

间隔 [1,2)

_MM_MANT_NORM_P5_1Experimental

间隔 [0.5,1)

_MM_MANT_NORM_P5_2Experimental

间隔 [0.5,2)

间隔 [0.75,1.5)

_MM_MANT_SIGN_NANExperimental

如果 sign(SRC) =1,则 DEST=NaN

_MM_MANT_SIGN_SRCExperimental

sign = sign(SRC)

_MM_MANT_SIGN_ZEROExperimental

sign = 0

_MM_PERM_AAAAExperimental
_MM_PERM_AAABExperimental
_MM_PERM_AAACExperimental
_MM_PERM_AAADExperimental
_MM_PERM_AABAExperimental
_MM_PERM_AABBExperimental
_MM_PERM_AABCExperimental
_MM_PERM_AABDExperimental
_MM_PERM_AACAExperimental
_MM_PERM_AACBExperimental
_MM_PERM_AACCExperimental
_MM_PERM_AACDExperimental
_MM_PERM_AADAExperimental
_MM_PERM_AADBExperimental
_MM_PERM_AADCExperimental
_MM_PERM_AADDExperimental
_MM_PERM_ABAAExperimental
_MM_PERM_ABABExperimental
_MM_PERM_ABACExperimental
_MM_PERM_ABADExperimental
_MM_PERM_ABBAExperimental
_MM_PERM_ABBBExperimental
_MM_PERM_ABBCExperimental
_MM_PERM_ABBDExperimental
_MM_PERM_ABCAExperimental
_MM_PERM_ABCBExperimental
_MM_PERM_ABCCExperimental
_MM_PERM_ABCDExperimental
_MM_PERM_ABDAExperimental
_MM_PERM_ABDBExperimental
_MM_PERM_ABDCExperimental
_MM_PERM_ABDDExperimental
_MM_PERM_ACAAExperimental
_MM_PERM_ACABExperimental
_MM_PERM_ACACExperimental
_MM_PERM_ACADExperimental
_MM_PERM_ACBAExperimental
_MM_PERM_ACBBExperimental
_MM_PERM_ACBCExperimental
_MM_PERM_ACBDExperimental
_MM_PERM_ACCAExperimental
_MM_PERM_ACCBExperimental
_MM_PERM_ACCCExperimental
_MM_PERM_ACCDExperimental
_MM_PERM_ACDAExperimental
_MM_PERM_ACDBExperimental
_MM_PERM_ACDCExperimental
_MM_PERM_ACDDExperimental
_MM_PERM_ADAAExperimental
_MM_PERM_ADABExperimental
_MM_PERM_ADACExperimental
_MM_PERM_ADADExperimental
_MM_PERM_ADBAExperimental
_MM_PERM_ADBBExperimental
_MM_PERM_ADBCExperimental
_MM_PERM_ADBDExperimental
_MM_PERM_ADCAExperimental
_MM_PERM_ADCBExperimental
_MM_PERM_ADCCExperimental
_MM_PERM_ADCDExperimental
_MM_PERM_ADDAExperimental
_MM_PERM_ADDBExperimental
_MM_PERM_ADDCExperimental
_MM_PERM_ADDDExperimental
_MM_PERM_BAAAExperimental
_MM_PERM_BAABExperimental
_MM_PERM_BAACExperimental
_MM_PERM_BAADExperimental
_MM_PERM_BABAExperimental
_MM_PERM_BABBExperimental
_MM_PERM_BABCExperimental
_MM_PERM_BABDExperimental
_MM_PERM_BACAExperimental
_MM_PERM_BACBExperimental
_MM_PERM_BACCExperimental
_MM_PERM_BACDExperimental
_MM_PERM_BADAExperimental
_MM_PERM_BADBExperimental
_MM_PERM_BADCExperimental
_MM_PERM_BADDExperimental
_MM_PERM_BBAAExperimental
_MM_PERM_BBABExperimental
_MM_PERM_BBACExperimental
_MM_PERM_BBADExperimental
_MM_PERM_BBBAExperimental
_MM_PERM_BBBBExperimental
_MM_PERM_BBBCExperimental
_MM_PERM_BBBDExperimental
_MM_PERM_BBCAExperimental
_MM_PERM_BBCBExperimental
_MM_PERM_BBCCExperimental
_MM_PERM_BBCDExperimental
_MM_PERM_BBDAExperimental
_MM_PERM_BBDBExperimental
_MM_PERM_BBDCExperimental
_MM_PERM_BBDDExperimental
_MM_PERM_BCAAExperimental
_MM_PERM_BCABExperimental
_MM_PERM_BCACExperimental
_MM_PERM_BCADExperimental
_MM_PERM_BCBAExperimental
_MM_PERM_BCBBExperimental
_MM_PERM_BCBCExperimental
_MM_PERM_BCBDExperimental
_MM_PERM_BCCAExperimental
_MM_PERM_BCCBExperimental
_MM_PERM_BCCCExperimental
_MM_PERM_BCCDExperimental
_MM_PERM_BCDAExperimental
_MM_PERM_BCDBExperimental
_MM_PERM_BCDCExperimental
_MM_PERM_BCDDExperimental
_MM_PERM_BDAAExperimental
_MM_PERM_BDABExperimental
_MM_PERM_BDACExperimental
_MM_PERM_BDADExperimental
_MM_PERM_BDBAExperimental
_MM_PERM_BDBBExperimental
_MM_PERM_BDBCExperimental
_MM_PERM_BDBDExperimental
_MM_PERM_BDCAExperimental
_MM_PERM_BDCBExperimental
_MM_PERM_BDCCExperimental
_MM_PERM_BDCDExperimental
_MM_PERM_BDDAExperimental
_MM_PERM_BDDBExperimental
_MM_PERM_BDDCExperimental
_MM_PERM_BDDDExperimental
_MM_PERM_CAAAExperimental
_MM_PERM_CAABExperimental
_MM_PERM_CAACExperimental
_MM_PERM_CAADExperimental
_MM_PERM_CABAExperimental
_MM_PERM_CABBExperimental
_MM_PERM_CABCExperimental
_MM_PERM_CABDExperimental
_MM_PERM_CACAExperimental
_MM_PERM_CACBExperimental
_MM_PERM_CACCExperimental
_MM_PERM_CACDExperimental
_MM_PERM_CADAExperimental
_MM_PERM_CADBExperimental
_MM_PERM_CADCExperimental
_MM_PERM_CADDExperimental
_MM_PERM_CBAAExperimental
_MM_PERM_CBABExperimental
_MM_PERM_CBACExperimental
_MM_PERM_CBADExperimental
_MM_PERM_CBBAExperimental
_MM_PERM_CBBBExperimental
_MM_PERM_CBBCExperimental
_MM_PERM_CBBDExperimental
_MM_PERM_CBCAExperimental
_MM_PERM_CBCBExperimental
_MM_PERM_CBCCExperimental
_MM_PERM_CBCDExperimental
_MM_PERM_CBDAExperimental
_MM_PERM_CBDBExperimental
_MM_PERM_CBDCExperimental
_MM_PERM_CBDDExperimental
_MM_PERM_CCAAExperimental
_MM_PERM_CCABExperimental
_MM_PERM_CCACExperimental
_MM_PERM_CCADExperimental
_MM_PERM_CCBAExperimental
_MM_PERM_CCBBExperimental
_MM_PERM_CCBCExperimental
_MM_PERM_CCBDExperimental
_MM_PERM_CCCAExperimental
_MM_PERM_CCCBExperimental
_MM_PERM_CCCCExperimental
_MM_PERM_CCCDExperimental
_MM_PERM_CCDAExperimental
_MM_PERM_CCDBExperimental
_MM_PERM_CCDCExperimental
_MM_PERM_CCDDExperimental
_MM_PERM_CDAAExperimental
_MM_PERM_CDABExperimental
_MM_PERM_CDACExperimental
_MM_PERM_CDADExperimental
_MM_PERM_CDBAExperimental
_MM_PERM_CDBBExperimental
_MM_PERM_CDBCExperimental
_MM_PERM_CDBDExperimental
_MM_PERM_CDCAExperimental
_MM_PERM_CDCBExperimental
_MM_PERM_CDCCExperimental
_MM_PERM_CDCDExperimental
_MM_PERM_CDDAExperimental
_MM_PERM_CDDBExperimental
_MM_PERM_CDDCExperimental
_MM_PERM_CDDDExperimental
_MM_PERM_DAAAExperimental
_MM_PERM_DAABExperimental
_MM_PERM_DAACExperimental
_MM_PERM_DAADExperimental
_MM_PERM_DABAExperimental
_MM_PERM_DABBExperimental
_MM_PERM_DABCExperimental
_MM_PERM_DABDExperimental
_MM_PERM_DACAExperimental
_MM_PERM_DACBExperimental
_MM_PERM_DACCExperimental
_MM_PERM_DACDExperimental
_MM_PERM_DADAExperimental
_MM_PERM_DADBExperimental
_MM_PERM_DADCExperimental
_MM_PERM_DADDExperimental
_MM_PERM_DBAAExperimental
_MM_PERM_DBABExperimental
_MM_PERM_DBACExperimental
_MM_PERM_DBADExperimental
_MM_PERM_DBBAExperimental
_MM_PERM_DBBBExperimental
_MM_PERM_DBBCExperimental
_MM_PERM_DBBDExperimental
_MM_PERM_DBCAExperimental
_MM_PERM_DBCBExperimental
_MM_PERM_DBCCExperimental
_MM_PERM_DBCDExperimental
_MM_PERM_DBDAExperimental
_MM_PERM_DBDBExperimental
_MM_PERM_DBDCExperimental
_MM_PERM_DBDDExperimental
_MM_PERM_DCAAExperimental
_MM_PERM_DCABExperimental
_MM_PERM_DCACExperimental
_MM_PERM_DCADExperimental
_MM_PERM_DCBAExperimental
_MM_PERM_DCBBExperimental
_MM_PERM_DCBCExperimental
_MM_PERM_DCBDExperimental
_MM_PERM_DCCAExperimental
_MM_PERM_DCCBExperimental
_MM_PERM_DCCCExperimental
_MM_PERM_DCCDExperimental
_MM_PERM_DCDAExperimental
_MM_PERM_DCDBExperimental
_MM_PERM_DCDCExperimental
_MM_PERM_DCDDExperimental
_MM_PERM_DDAAExperimental
_MM_PERM_DDABExperimental
_MM_PERM_DDACExperimental
_MM_PERM_DDADExperimental
_MM_PERM_DDBAExperimental
_MM_PERM_DDBBExperimental
_MM_PERM_DDBCExperimental
_MM_PERM_DDBDExperimental
_MM_PERM_DDCAExperimental
_MM_PERM_DDCBExperimental
_MM_PERM_DDCCExperimental
_MM_PERM_DDCDExperimental
_MM_PERM_DDDAExperimental
_MM_PERM_DDDBExperimental
_MM_PERM_DDDCExperimental
_MM_PERM_DDDDExperimental
_XABORT_CAPACITYExperimental

事务终止,因为事务使用了过多的内存。

_XABORT_CONFLICTExperimental

由于与另一个线程发生内存冲突而导致事务终止。

_XABORT_DEBUGExperimental

事务由于调试陷阱而终止。

_XABORT_EXPLICITExperimental

使用 xabort 显式中止了事务。 传递给 xabort 的参数可用于 _xabort_code(status)

_XABORT_NESTEDExperimental

内部嵌套事务中的事务终止。

_XABORT_RETRYExperimental

事务重试是可能的。

_XBEGIN_STARTEDExperimental

事务成功开始。

相等 (有序,无信号)

相等 (有序,发信号)

相等 (无序,无信号)

相等 (无序,发信号)

错误 (有序,无信号)

错误 (有序,发信号)

大于或等于 (有序,无信号)

大于或等于 (有序,发信号)

大于 (有序,无信号)

大于 (有序,发信号)

小于或等于 (有序,无信号)

小于或等于 (有序,发信号)

小于 (有序,无信号)

小于 (有序,发信号)

不相等 (有序,无信号)

不相等 (有序,发信号)

不相等 (无序,无信号)

不相等 (无序,发信号)

不大于等于 (无序,无信号)

不大于等于 (无序,发信号)

不大于 (无序,无信号)

不大于 (无序,发信号)

不小于等于 (无序,无信号)

不小于等于 (无序,发信号)

不少于 (无序,无信号)

不少于 (无序,发信号)

订购 (无信号)

订购 (发信号)

真 (无序,无信号)

真 (无序,发信号)

无序 (无信号)

无序 (发信号)

向上舍入并且不抑制异常

使用 MXCSR.RC; 请参见 vendor::_MM_SET_ROUNDING_MODE

四舍五入,不抑制异常

使用 MXCSR.RC 并抑制异常; 请参见 vendor::_MM_SET_ROUNDING_MODE

四舍五入到最接近,不排除异常

抑制异常

不要抑制异常

使用 MXCSR.RC 且不抑制异常; 请参见 vendor::_MM_SET_ROUNDING_MODE

四舍五入到最接近的

截断并且不抑制异常

仅掩码: 返回位掩码

对于 a 中的每个字符,查找它是否在 b(默认)

ab 定义的字符串相等

在目标中搜索定义的子字符串

对于 a 中的每个字符,确定 b[0] <= c <= b[1] or b[1] <= c <= b[2]...

仅索引: 返回最低有效位 (默认)

仅在字符串结尾之前取反结果

不要在字符串结尾之前取反结果

仅索引: 返回最高有效位

不取消结果 (默认)

字符串包含带符号的 8 位字符

字符串包含无符号的 16 位字符

字符串包含无符号的 8 位字符 (默认)

仅掩码: 返回字节掩码

字符串包含无符号的 16 位字符

XFEATURE_ENABLED_MASKXCR

Functions

_MM_SHUFFLEExperimental

一个实用程序函数,用于创建与 Intel 重排和置换内部函数一起使用的掩码。

_kadd_mask32Experimentalavx512bw

在 a 和 b 中添加 32 位掩码,并将结果存储在 k 中。

_kadd_mask64Experimentalavx512bw

在 a 和 b 中添加 64 位掩码,并将结果存储在 k 中。

_kand_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_kand_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_kand_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_kandn_mask16Experimentalavx512f

计算 16 位掩码 a 的按位非,然后与 b 计算 AND,并将结果存储在 k 中。

_kandn_mask32Experimentalavx512bw

计算 32 位掩码 a 的按位非,然后与 b 计算 AND,并将结果存储在 k 中。

_kandn_mask64Experimentalavx512bw

计算 64 位掩码 a 的按位非,然后与 b 进行与运算,并将结果存储在 k 中。

_knot_mask16Experimentalavx512f

计算 16 位掩码 a 的按位非,并将结果存储在 k 中。

_knot_mask32Experimentalavx512bw

计算 32 位掩码 a 的按位非,并将结果存储在 k 中。

_knot_mask64Experimentalavx512bw

计算 64 位掩码 a 的按位非,并将结果存储在 k 中。

_kor_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_kor_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_kor_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_kxnor_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_kxnor_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_kxnor_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_kxor_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_kxor_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_kxor_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_load_mask32Experimentalavx512bw

将内存中的 32 位掩码加载到 k 中。

_load_mask64Experimentalavx512bw

将内存中的 64 位掩码加载到 k 中。

_mm256_abs_epi64Experimentalavx512f,avx512vl

计算 a 中包装的带符号的 64 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm256_aesdec_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 解密流程。

_mm256_aesdeclast_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 解密流程。

_mm256_aesenc_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 加密流程。

_mm256_aesenclast_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 加密流程。

_mm256_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 64 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并将低 32 字节 (8 个元素) 存储在 dst 中。

_mm256_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并将低 32 字节 (4 个元素) 存储在 dst 中。

_mm256_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm256_broadcast_f32x4Experimentalavx512f,avx512vl

从 a 广播 4 个包装的单精度 (32-bit) 浮点元素到 dst 的所有元素。

_mm256_broadcast_i32x4Experimentalavx512f,avx512vl

将 4 个包装的 32 位整数从 a 广播到 dst 的所有元素。

_mm256_broadcastmb_epi64Experimentalavx512cd,avx512vl

将输入掩码 k 的低 8 位广播到 dst 的所有 64 位元素。

_mm256_broadcastmw_epi32Experimentalavx512cd,avx512vl

将输入掩码 k 的低 16 位广播到 dst 的所有 32 位元素。

_mm256_clmulepi64_epi128Experimentalavx512vpclmulqdq,avx512vl

在 2 个 128 位 lanes 中的每个 lanes 中,在有限域 GF(2^k) 上执行两个 64 位多项式的无进位乘法。

_mm256_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装带符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装有符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 64 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm256_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得出小于或等于的结果,并将结果存储在掩码 vector k 中。

_mm256_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm256_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm256_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得到小于,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装后的无符号 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_conflict_epi32Experimentalavx512cd,avx512vl

测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_conflict_epi64Experimentalavx512cd,avx512vl

测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_cvtepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_cvtepi64_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm256_cvtepu32_pdExperimentalavx512f,avx512vl

将 A 中的包装的无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 256 位 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存入 a

_mm256_cvtneps_pbhExperimentalavx512bf16,avx512vl

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存储在 dst 中。 Intel’s documentation

_mm256_cvtpd_epu32Experimentalavx512f,avx512vl

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvtph_psExperimentalf16c

将 128 位 vector a 中的 8 x 16 位半精度浮点值转换为存储在 256 位宽 vector 中的 8 x 32 位浮点值。

_mm256_cvtps_epu32Experimentalavx512f,avx512vl

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvtps_phExperimentalf16c

将 256 位 vector a 中的 8 x 32 位浮点值转换为 8 x 16 位半精度浮点值存储在 128 位宽的 vector 中。

_mm256_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 A 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi64_epi8Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi64_epi16Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi64_epi32Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并将结果存储在 dst 中。

_mm256_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装无符号 32 位整数转换为具有无符号饱和度的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 A 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并将结果存储在 dst 中。

_mm256_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并将 16 位结果存储在 dst 中。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm256_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素相加,并将结果存储在 dst 中。

_mm256_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm256_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用有符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm256_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm256_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm256_extractf32x4_psExperimentalavx512f,avx512vl

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并将结果存储在 dst 中。

_mm256_extracti32x4_epi32Experimentalavx512f,avx512vl

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM1 选中,结果存入 dst。

_mm256_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm256_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm256_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm256_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm256_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。 此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。 尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值: _MM_MANT_NORM_1_2 // interval [1, 2) _MM_MANT_NORM_p5_2 // interval [0.5, 2) _MM_MANT_NORM_p5_1 // interval [0.5, 1) _MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5) The sign is determined by sc which can take the following values:

_mm256_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm256_insertf32x4Experimentalavx512f,avx512vl

将 a 复制到 dst,然后将 b 中的 128 位 (由 4 个压缩单精度 (32 位) 浮点元素组成) 插入到 dst 中 imm8 指定的位置。

_mm256_inserti32x4Experimentalavx512f,avx512vl

将 a 复制到 dst,然后将 b 中的 128 位 (由 4 个压缩的 32 位整数组成) 插入到 dst 中 imm8 指定的位置。

_mm256_load_epi32Experimentalavx512f,avx512vl

将 256 位 (由 8 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_load_epi64Experimentalavx512f,avx512vl

将 256 位 (由 4 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_loadu_epi8Experimentalavx512bw,avx512vl

将 256 位 (由 32 个包装的 8 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_loadu_epi16Experimentalavx512bw,avx512vl

将 256 位 (由 16 个包装的 16 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_loadu_epi32Experimentalavx512f,avx512vl

将 256 位 (由 8 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_loadu_epi64Experimentalavx512f,avx512vl

将 256 位 (由 4 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm256_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm256_madd52hi_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的高 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm256_madd52lo_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的低 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm256_mask2_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm256_mask2_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm256_mask2_permutex2var_epi32Experimentalavx512f,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm256_mask2_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm256_mask2_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)

_mm256_mask2_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的对应选择器和索引在 a 和 b 中的 lanes 中对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm256_mask3_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm256_mask3_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm256_mask3_fmaddsub_pdExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm256_mask3_fmaddsub_psExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm256_mask3_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm256_mask3_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm256_mask3_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm256_mask3_fmsubadd_psExperimentalavx512f,avx512vl

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm256_mask3_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm256_mask3_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm256_mask3_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 c 复制元素)。

_mm256_mask3_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm256_mask_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 writemask k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_abs_epi64Experimentalavx512f,avx512vl

计算 a 中包装的带符号的 64 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_add_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_add_epi32Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并使用写掩码 k 将低 16 个字节存储在 dst 中 (当相应的屏蔽位未置位时,从 src 复制元素)。

_mm256_mask_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 writemask k 将低 32 字节 (8 个元素) 存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 writemask k 将低 32 字节 (4 个元素) 存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_and_epi32Experimentalavx512f,avx512vl

在包装的 a 和 b 的 32 位整数元素之间执行逐个元素的按位 AND,使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm256_mask_blend_epi8Experimentalavx512bw,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_epi16Experimentalavx512bw,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_epi32Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_epi64Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_pdExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装后的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_mask_blend_psExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_mask_broadcast_f32x4Experimentalavx512f,avx512vl

使用写掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcast_i32x4Experimentalavx512f,avx512vl

使用写掩码 k 将 a 的 4 个包装的 32 位整数广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastb_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 d 的低包装的 8 位整数广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastd_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastq_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastsd_pdExperimentalavx512f,avx512vl

使用写掩码 k 将低双精度 (64-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastss_psExperimentalavx512f,avx512vl

使用写掩码 k 将低单精度 (32-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastw_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否等于或大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果使用零掩码 k1 存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数以得到小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_mask_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_epi32Experimentalavx512f,avx512vl

将活跃的 32 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_epi64Experimentalavx512f,avx512vl

将活跃的 64 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_pdExperimentalavx512f,avx512vl

将活跃的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位在写掩码 k 中设置) 到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_psExperimentalavx512f,avx512vl

将活跃的单精度 (32-bit) 浮点元素连续存储在 dst 中 (将其各自的位设置在写掩码 k 中的那些元素中) 存储到 dst,并通过 src 中的其余元素。

_mm256_mask_conflict_epi32Experimentalavx512cd,avx512vl

使用写掩码 k (当未设置相应的掩码位时,将从 src 复制元素),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_mask_conflict_epi64Experimentalavx512cd,avx512vl

使用写掩码 k 测试 a 的每个 64 位元素是否与所有其他元素相等 (更接近最低有效位) (当未设置相应的掩码位时,将从 src 复制元素)。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_mask_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一: (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi8_epi32Experimentalavx512f,avx512vl

符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 4 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装后的 16 位整数从 a 扩展为包装后的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi16_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装的 32 位整数在 a 中转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi32_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 32 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带有截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepi64_storeu_epi8Experimentalavx512f,avx512vl

将 a 中包装的 64 位整数转换为包装的 8 位整数并截断,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm256_mask_cvtepi64_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi64_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 8 字节到包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 4 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数 a 的低 8 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在单个 vector dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtneps_pbhExperimentalavx512bf16,avx512vl

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装带符号的 16 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtsepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的有符号 16 位整数转换为有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtsepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtsepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvttps_epi32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的无符号 16 位整数转换为具有无符号饱和的包装的无符号 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的无符号 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cvtusepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm256_mask_cvtusepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 64 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中的无符号 8 位整数与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并使用写掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm256_mask_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_div_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间的单精度 (32-bit) 浮点元素与 src 中的元素相加,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm256_mask_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_expand_epi32Experimentalavx512f,avx512vl

从 a 加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_expand_epi64Experimentalavx512f,avx512vl

从 a 加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_expand_pdExperimentalavx512f,avx512vl

从 a 加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_extractf32x4_psExperimentalavx512f,avx512vl

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_extracti32x4_epi32Experimentalavx512f,avx512vl

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM1 选中,用 writemask k 将结果存入 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm256_mask_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm256_mask_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm256_mask_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm256_mask_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm256_mask_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm256_mask_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm256_mask_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm256_mask_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm256_mask_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm256_mask_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm256_mask_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm256_mask_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm256_mask_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm256_mask_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm256_mask_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm256_mask_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_mask_getmant_psExperimentalavx512f,avx512vl

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_mask_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_mask_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_mask_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm256_mask_insertf32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后将 b 中的 128 位 (由 4 个压缩单精度 (32 位) 浮点元素组成) 插入到 tmp 中 imm8 指定的位置。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_inserti32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 writemask k 将结果打包到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并使用写掩码 k 将饱和结果包装到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 32 位整数从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 64 位整数从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_pdExperimentalavx512f,avx512vl

使用写掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_psExperimentalavx512f,avx512vl

使用写掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并使用写掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用写掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 writemask k 将位 [16:1] 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用写掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用写掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 writemask k (元素当相应的屏蔽位未设置时,从 src 复制)。

_mm256_mask_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 的双精度 (64-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 的单精度 (32-bit) 浮点元素打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm256_mask_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_psExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 a 和 b 中的 lanes 上对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex_epi64Experimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位 lanes 内将 64 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutex_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位 lanes 内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨 lanes 的 a 中打乱 8 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutexvar_epi32Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 32 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutexvar_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中随机排列 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutexvar_pdExperimentalavx512f,avx512vl

使用 idx 中的相应索引对跨 lanes 中的双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_permutexvar_psExperimentalavx512f,avx512vl

使用 idx 中的相应索引对跨 lanes 中的单精度 (32-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_mask_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_mask_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_mask_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm256_mask_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 对应元素 b 中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的对应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_ror_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_ror_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的对应元素中指定的位数,然后使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_roundscale_pdExperimentalavx512f,avx512vl

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_roundscale_psExperimentalavx512f,avx512vl

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_set1_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_set1_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 向 dst 的所有元素广播 16 位整数 a (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_set1_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_set1_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 writemask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 writemask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 writemask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 writemask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 writemask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 writemask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shuffle_epi8Experimentalavx512bw,avx512vl

使用 b 中相应的 8 位元素中的控件在 128 位 lane 内对 a 中的 8 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件将 128 位 lane 中的 32 位整数随机排列,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_f32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_f64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_i32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 重排,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_i64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位 lane 中的双精度 (64-bit) 浮点元素进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的高 64 位中,将 128 位 lanes 的低 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的低 64 位中,128 位 lanes 的高 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sll_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数向左移动 imm8,同时向零移动,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sllv_epi32Experimentalavx512f,avx512vl

将填充的 32 位整数向左移动计数中相应元素指定的数量,同时将其移位为零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sllv_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数向左移动 count 中相应元素指定的数量,同时将其移位为零,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srl_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srlv_epi32Experimentalavx512f,avx512vl

向右移动包装的 32 位整数整数 (由 count 中相应元素指定的数量),同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 8 位整数减去 b 中的包装 8 位有符号整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每一位,使用 src、a、b 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 writemask k 在 32 位粒度 (当相应的掩码位未设置时,从 src 复制 32 位元素)。

_mm256_mask_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 src、a、b 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 writemask k 在 64 位粒度 (当相应的掩码位未设置时,从 src 复制 64 位元素)。

_mm256_mask_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_maskz_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 zeromask k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_abs_epi64Experimentalavx512f,avx512vl

计算 a 中包装的带符号的 64 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 imm8 字节,并使用零掩码 k 将低 16 字节存储在 dst 中 (当未设置相应的掩码位时,元素将被清零))。

_mm256_maskz_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 64 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 zeromask k 将低 32 字节 (8 个元素) 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 zeromask k 将低 32 字节 (4 个元素) 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_and_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后计算 b 中的 AND,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcast_f32x4Experimentalavx512f,avx512vl

使用零掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcast_i32x4Experimentalavx512f,avx512vl

使用零掩码 k 将 4 的包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcastb_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 8 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcastd_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcastq_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcastsd_pdExperimentalavx512f,avx512vl

使用零掩码 k 将低双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcastss_psExperimentalavx512f,avx512vl

使用零掩码 k 将低单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcastw_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm256_maskz_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm256_maskz_compress_epi32Experimentalavx512f,avx512vl

将活跃的 32 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm256_maskz_compress_epi64Experimentalavx512f,avx512vl

将活跃的 64 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm256_maskz_compress_pdExperimentalavx512f,avx512vl

将活跃的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm256_maskz_compress_psExperimentalavx512f,avx512vl

将活跃的单精度 (32-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm256_maskz_conflict_epi32Experimentalavx512cd,avx512vl

使用零掩码 k (当未设置相应的掩码位时,元素将被清零),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_maskz_conflict_epi64Experimentalavx512cd,avx512vl

使用零掩码 k (当未设置相应的掩码位时,元素将被清零),测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_maskz_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi8_epi32Experimentalavx512f,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 4 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数 a 的低 8 字节到包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 4 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数 a 的低 8 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在单个 vector dst 中 (当对应的掩码位不存在时,元素归零放)。

_mm256_maskz_cvtneps_pbhExperimentalavx512bf16,avx512vl

将包装的单精度 (32-bit) 浮点元素在 a 中转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm256_maskz_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 64 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvttps_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs) 的总和,并使用零掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm256_maskz_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_div_psExperimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存储在 dst 中使用 zeromask k (当对应的掩码为位未设置)。

_mm256_maskz_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果使用 zeromask k 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数用带符号饱和求和,并将包装的 32 位结果用 zeromask k 存储在 dst 中 (当对应的掩码位未设置时,元素被清零)。

_mm256_maskz_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_expand_epi32Experimentalavx512f,avx512vl

从 a 中加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_expand_epi64Experimentalavx512f,avx512vl

从 a 中加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_expand_pdExperimentalavx512f,avx512vl

从 a 中加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_extractf32x4_psExperimentalavx512f,avx512vl

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_extracti32x4_epi32Experimentalavx512f,avx512vl

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM1 选择,结果用 zeromask k 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

_mm256_maskz_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

_mm256_maskz_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm256_maskz_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm256_maskz_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_maskz_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_maskz_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_maskz_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_maskz_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm256_maskz_insertf32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后将 b 中的 128 位 (由 4 个压缩单精度 (32 位) 浮点元素组成) 插入到 tmp 中 imm8 指定的位置。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm256_maskz_inserti32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm256_maskz_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 zeromask k 将结果打包到 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平添加相邻的一对中间有符号 16 位整数,并使用 zeromask k 将饱和结果打包到 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mov_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mov_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mov_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 32 位整数从 a 移至 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mov_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 64 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mov_pdExperimentalavx512f,avx512vl

使用零掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mov_psExperimentalavx512f,avx512vl

使用零掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低位有符号 32 位整数相乘,并使用零掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用零掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 zeromask k 将位 [16:1] 存储到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用零掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 zeromask k (元素当相应的屏蔽位未设置时被清零)。

_mm256_maskz_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 中的双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 的单精度 (32-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 64 位整数进行混洗,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_pdExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引将 a 和 b 中的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex_epi64Experimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位 lanes 内将 64 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位 lanes 内将双精度 (64-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨 lanes 的 a 中打乱 8 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_epi32Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 32 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 64 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_pdExperimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_psExperimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_maskz_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_maskz_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_maskz_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm256_maskz_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_ror_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_ror_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_roundscale_pdExperimentalavx512f,avx512vl

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_roundscale_psExperimentalavx512f,avx512vl

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中的包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_set1_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_set1_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_set1_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_set1_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_epi8Experimentalavx512bw,avx512vl

根据 b 的相应 8 位元素中的打乱控制掩码对 a 中的包装 8 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 中的 32 位整数中混洗 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_f32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_f64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_i32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_i64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位 lane 内的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的高 64 位中,将 128 位 lanes 的低 64 位从 a 复制到 dst,使用 zeromask k (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的低 64 位中,128 位 lanes 的高 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_maskz_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sll_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移由 count 中的相应元素指定的数量,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sllv_epi32Experimentalavx512f,avx512vl

在将移位的 32 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sllv_epi64Experimentalavx512f,avx512vl

在将移位的 64 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移由 count 中的相应元素指定的数量,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数右移由 count 中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srl_epi32Experimentalavx512f,avx512vl

将移位的 32 位整数右移,同时移零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移计数,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srlv_epi32Experimentalavx512f,avx512vl

向右移动已包装的 32 位整数,偏移量为相应元素在计数中指定的数量,同时向零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时移位为零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 32 位粒度的 zeromask k (当未设置相应的掩码位时,32 位元素会被清零)。

_mm256_maskz_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 64 位粒度的 zeromask k (当未设置相应的掩码位时,64 位元素将被清零)。

_mm256_maskz_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最大值存储在 dst 中。

_mm256_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最大值存储在 dst 中。

_mm256_min_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最小值存储在 dst 中。

_mm256_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最小值存储在 dst 中。

_mm256_movepi8_maskExperimentalavx512bw,avx512vl

根据 a 中相应包装的 8 位整数的最高有效位设置掩码寄存器 k 的每个位。

_mm256_movepi16_maskExperimentalavx512bw,avx512vl

根据 a 中相应的包装的 16 位整数的最高有效位设置掩码寄存器 k 的每一位。

_mm256_movm_epi8Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 8 位整数设置为全 1 或全 0。

_mm256_movm_epi16Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 16 位整数设置为全 1 或全 0。

_mm256_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并将 8 个组装字节存储到 dst 的相应 64 位元素。

_mm256_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并将结果存储在 dst 中。

_mm256_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并将结果存储在 dst 中。

_mm256_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并将结果存储在 dst 中。

_mm256_permutex2var_epi16Experimentalavx512bw,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm256_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm256_permutex2var_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm256_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm256_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm256_permutex_epi64Experimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位 lanes 中的 a 内随机排列 64 位整数,并将结果存储在 dst 中。

_mm256_permutex_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位 lanes 内对双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm256_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引将 a 中的 8 位整数打乱到 lanes 中,并将结果存储在 dst 中。

_mm256_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm256_permutexvar_epi32Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm256_permutexvar_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm256_permutexvar_pdExperimentalavx512f,avx512vl

使用 idx 中的相应索引在跨 lanes 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm256_permutexvar_psExperimentalavx512f,avx512vl

使用 idx 中的相应索引对跨 lanes 中的单精度 (32-bit) 浮点元素进行打乱。

_mm256_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm256_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm256_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm256_rol_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm256_rol_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm256_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_ror_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并将结果存储在 dst 中。

_mm256_ror_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm256_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_roundscale_pdExperimentalavx512f,avx512vl

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并将高 16 位存储在 dst 中)。

_mm256_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并将高 32 位存储在 dst 中。

_mm256_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并将高 64 位存储在 dst 中)。

_mm256_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的对应元素中指定的量,并将高 16 位存储在 dst 中。

_mm256_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的对应元素中指定的量,并将高 32 位存储在 dst 中。

_mm256_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的对应元素中指定的量,并将高 64 位存储在 dst 中。

_mm256_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并将低 16 位存储在 dst 中。

_mm256_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并将低 32 位存储在 dst 中。

_mm256_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并将低 64 位存储在 dst 中。

_mm256_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的对应元素中指定的量,并将低 16 位存储在 dst 中。

_mm256_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的对应元素中指定的量,并将低 32 位存储在 dst 中。

_mm256_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的对应元素中指定的量,并将低 64 位存储在 dst 中。

_mm256_shuffle_f32x4Experimentalavx512f,avx512vl

imm8 从 a 和 b 中随机选择 128 位 (由 4 个单精度 (32-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm256_shuffle_f64x2Experimentalavx512f,avx512vl

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm256_shuffle_i32x4Experimentalavx512f,avx512vl

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成),并将结果存储在 dst 中。

_mm256_shuffle_i64x2Experimentalavx512f,avx512vl

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成),并将结果存储在 dst 中。

_mm256_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并将结果存储在 dst 中。

_mm256_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时按计数右移包装的 64 位整数,并将结果存储在 dst 中。

_mm256_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm256_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时移入符号位,然后将结果存储在 dst 中。

_mm256_srav_epi64Experimentalavx512f,avx512vl

将移位的 64 位整数向右移动计数中相应元素指定的数量,同时移入符号位,并将结果存储在 dst 中。

_mm256_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并将结果存储在 dst 中。

_mm256_store_epi32Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 8 个包装的 32 位整数组成) 存储到内存中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_store_epi64Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 4 个包装的 64 位整数组成) 存储到内存中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的 256 位 (由 32 个包装的 8 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_storeu_epi16Experimentalavx512bw,avx512vl

将 a 中的 256 位 (由 16 个包装的 16 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 8 个包装的 32 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_storeu_epi64Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 4 个包装的 64 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每个位,来自 a,b 和 c 的相应位用于形成到 imm8 的 3 位索引,并且将 imm8 中该位的值写入 dst 中的相应位。

_mm256_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的对应位。

_mm256_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间的 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并将结果存储在 dst 中。

_mm256_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并将结果存储在 dst 中。

_mm512_abs_epi8Experimentalavx512bw

计算 a 中包装的带符号的 8 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm512_abs_epi16Experimentalavx512bw

计算 a 中包装的带符号的 16 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm512_abs_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的绝对值。

_mm512_abs_epi64Experimentalavx512f

计算 a 中包装的带符号的 64 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm512_abs_pdExperimentalavx512f

查找 v2 中每个包装的双精度 (64-bit) 浮点元素的绝对值,并将结果存储在 dst 中。

_mm512_abs_psExperimentalavx512f

查找 v2 中每个包装的单精度 (32-bit) 浮点元素的绝对值,并将结果存储在 dst 中。

_mm512_add_epi8Experimentalavx512bw

将包装的 8 位整数添加到 a 和 b 中,并将结果存储在 dst 中。

_mm512_add_epi16Experimentalavx512bw

将包装的 16 位整数添加到 a 和 b 中,并将结果存储在 dst 中。

_mm512_add_epi32Experimentalavx512f

在 a 和 b 中添加包装的 32 位整数,并将结果存储在 dst 中。

_mm512_add_epi64Experimentalavx512f

在 a 和 b 中添加包装的 64 位整数,并将结果存储在 dst 中。

_mm512_add_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_add_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_add_round_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_add_round_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_adds_epi8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并将结果存储在 dst 中。

_mm512_adds_epi16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并将结果存储在 dst 中。

_mm512_adds_epu8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并将结果存储在 dst 中。

_mm512_adds_epu16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并将结果存储在 dst 中。

_mm512_aesdec_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 解密流程。

_mm512_aesdeclast_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 解密流程。

_mm512_aesenc_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 加密流程。

_mm512_aesenclast_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 加密流程。

_mm512_alignr_epi8Experimentalavx512bw

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并将低 16 字节存储在 dst 中。

_mm512_alignr_epi32Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 32 位元素,并将低 64 字节 (16 个元素) 存储在 dst 中。

_mm512_alignr_epi64Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 64 位元素,并将低 64 字节 (8 个元素) 存储在 dst 中。

_mm512_and_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,并将结果存储在 dst 中。

_mm512_and_epi64Experimentalavx512f

计算 a 和 b 中 512 位 (由包装的 64 位整数组成) 的按位与,并将结果存储在 dst 中。

_mm512_and_si512Experimentalavx512f

计算 a 和 b 中 512 位 (代表整数数据) 的按位与,并将结果存储在 dst 中。

_mm512_andnot_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并将结果存储在 dst 中。

_mm512_andnot_epi64Experimentalavx512f

计算 a 中的 512 位 (由包装的 64 位整数组成) 的按位非,然后与 b 计算 AND,并将结果存储在 dst 中。

_mm512_andnot_si512Experimentalavx512f

计算 a 中的 512 位 (代表整数数据) 的按位非,然后与 b 计算 AND,并将结果存储在 dst 中。

_mm512_avg_epu8Experimentalavx512bw

将 a 和 b 中包装的无符号 8 位整数平均,然后将结果存储在 dst 中。

_mm512_avg_epu16Experimentalavx512bw

将 a 和 b 中的包装无符号 16 位整数进行平均,然后将结果存储在 dst 中。

_mm512_bitshuffle_epi64_maskExperimentalavx512bitalg

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm512_broadcast_f32x4Experimentalavx512f

从 a 广播 4 个包装的单精度 (32-bit) 浮点元素到 dst 的所有元素。

_mm512_broadcast_f64x4Experimentalavx512f

从 a 广播 4 个包装的双精度 (64-bit) 浮点元素到 dst 的所有元素。

_mm512_broadcast_i32x4Experimentalavx512f

将 4 个包装的 32 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcast_i64x4Experimentalavx512f

将 4 个包装的 64 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastb_epi8Experimentalavx512bw

将低包装的 8 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastd_epi32Experimentalavx512f

将低包装的 32 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastmb_epi64Experimentalavx512cd

将输入掩码 k 的低 8 位广播到 dst 的所有 64 位元素。

_mm512_broadcastmw_epi32Experimentalavx512cd

将输入掩码 k 的低 16 位广播到 dst 的所有 32 位元素。

_mm512_broadcastq_epi64Experimentalavx512f

将低包装的 64 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastsd_pdExperimentalavx512f

从 a 广播低双精度 (64-bit) 浮点元素到 dst 的所有元素。

_mm512_broadcastss_psExperimentalavx512f

将低单精度 (32-bit) 浮点元素从 A 广播到 dst 的所有元素。

_mm512_broadcastw_epi16Experimentalavx512bw

将低包装的 16 位整数从 a 广播到 dst 的所有元素。

_mm512_bslli_epi128Experimentalavx512bw

向左移动 128 位 lane imm8 字节,同时向零移动,并将结果存储在 dst 中。

_mm512_bsrli_epi128Experimentalavx512bw

向右移动 128 位 lane imm8 字节,同时向零移动,并将结果存储在 dst 中。

_mm512_castpd128_pd512Experimentalavx512f

将类型 __m128d 的 vector 强制转换为 __m512d 类型; 结果的高 384 位未定义。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castpd256_pd512Experimentalavx512f

将类型 __m256d 的 vector 强制转换为 __m512d 类型; 结果的高 256 位未定义。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castpd512_pd128Experimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型为 __m128d 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castpd512_pd256Experimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型为 __m256d 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castpd_psExperimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型 __m512。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castpd_si512Experimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型为 __m512i 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castps128_ps512Experimentalavx512f

将类型 __m128 的 vector 转换为 __m512 类型; 结果的高 384 位未定义。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castps256_ps512Experimentalavx512f

将类型为 __m256 的 vector 强制转换为类型 __m512; 结果的高 256 位未定义。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castps512_ps128Experimentalavx512f

将类型为 __m512 的 vector 强制转换为类型为 __m128 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castps512_ps256Experimentalavx512f

将类型为 __m512 的 vector 强制转换为类型 __m256。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castps_pdExperimentalavx512f

将类型为 __m512 的 vector 强制转换为类型为 __m512d 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castps_si512Experimentalavx512f

将类型为 __m512 的 vector 强制转换为类型 __m512i。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castsi128_si512Experimentalavx512f

将类型为 __m128i 的 vector 强制转换为类型 __m512i; 结果的高 384 位未定义。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castsi256_si512Experimentalavx512f

将类型为 __m256i 的 vector 强制转换为类型 __m512i; 结果的高 256 位未定义。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castsi512_pdExperimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型为 __m512d 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castsi512_psExperimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型 __m512。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castsi512_si128Experimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型为 __m128i 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_castsi512_si256Experimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型为 __m256i 的 vector。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_clmulepi64_epi128Experimentalavx512vpclmulqdq,avx512f

在 4 个 128 位 lanes 中的每一个中,在有限域 GF(2^k) 上执行两个 64 位多项式的无进位乘法。

_mm512_cmp_epi8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中的包装带符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epi16_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epi32_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装有符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epi64_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu16_maskExperimentalavx512bw

根据 IMM8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu32_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu64_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 64 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm512_cmp_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm512_cmp_round_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cmp_round_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cmpeq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmple_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数以得出小于或等于的结果,并将结果存储在掩码 vector k 中。

_mm512_cmple_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数小于零,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数小于零,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数以得到小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装后的无符号 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_pd_maskExperimentalavx512f

比较 a 和 b 中包装后的双精度 (64-bit) 浮点元素的小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素的小于,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpnle_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否等于或小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpnle_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否等于或小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpnlt_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素不小于,并将结果存储在掩码 vector k 中。

_mm512_cmpnlt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素不小于,并将结果存储在掩码 vector k 中。

_mm512_cmpord_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,看是否都不是 NaN,并将结果存储在掩码 vector k 中。

_mm512_cmpord_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,看是否都不是 NaN,并将结果存储在掩码 vector k 中。

_mm512_cmpunord_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,以查看其中一个是否为 NaN,并将结果存储在掩码 vector k 中。

_mm512_cmpunord_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,以查看是否为 NaN,并将结果存储在掩码 vector k 中。

_mm512_conflict_epi32Experimentalavx512cd

测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_conflict_epi64Experimentalavx512cd

测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_cvt_roundepi32_psExperimentalavx512f

将包装后的带符号的 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvt_roundepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvt_roundpd_epi32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundpd_epu32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundpd_psExperimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvt_roundph_psExperimentalavx512f

将包装的半精度 (16-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvt_roundps_epi32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundps_epu32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundps_pdExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvt_roundps_phExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtepi8_epi16Experimentalavx512bw

使用符号将包装的 8 位整数从 a 扩展到包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepi8_epi32Experimentalavx512f

使用符号将包装的 8 位整数从 a 扩展到包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepi8_epi64Experimentalavx512f

符号将 a 的低 8 个字节中的包装 8 位整数扩展为包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepi16_epi8Experimentalavx512bw

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtepi16_epi32Experimentalavx512f

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepi16_epi64Experimentalavx512f

使用符号将包装的 16 位整数从 a 扩展到包装的 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_epi8Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_epi16Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_epi64Experimentalavx512f

使用符号将包装的 32 位整数从 a 扩展到包装的 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_pdExperimentalavx512f

将包装后的带符号的 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepi32_psExperimentalavx512f

将包装后的带符号的 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepi32lo_pdExperimentalavx512f

将 v2 中包装的 32 位整数整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,将元素进行逐元素转换,并将结果存储在 dst 中。

_mm512_cvtepi64_epi8Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtepi64_epi16Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带有截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepi64_epi32Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带有截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepu8_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数零扩展为包装 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepu8_epi32Experimentalavx512f

将 a 中的包装无符号 8 位整数零扩展为包装 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepu8_epi64Experimentalavx512f

将低 8 字节 sof 中的包装无符号 8 位整数零扩展到包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepu16_epi32Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepu16_epi64Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepu32_epi64Experimentalavx512f

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepu32_pdExperimentalavx512f

将 A 中的包装的无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepu32lo_pdExperimentalavx512f

将 v2 中包装的 32 位无符号整数整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,将每个元素进行逐元素转换,并将结果存储在 dst 中。

_mm512_cvtne2ps_pbhExperimentalavx512bf16,avx512f

将两个 512 位 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存入 a

_mm512_cvtneps_pbhExperimentalavx512bf16,avx512f

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存储在 dst 中。 Intel’s documentation

_mm512_cvtpd_epi32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtpd_epu32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvtpd_psExperimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtpd_psloExperimentalavx512f

将 v2 中的包装的双精度 (64-bit) 浮点元素执行逐元素转换为单精度 (32-bit) 浮点元素并将其存储在 dst 中。元素存储在结果 vector 的下半部分中,而其余的上半部分位置设置为 0。

_mm512_cvtph_psExperimentalavx512f

将包装的半精度 (16-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtps_epi32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtps_epu32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvtps_pdExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtps_phExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtpslo_pdExperimentalavx512f

对 v2 中包装的单精度 (32-bit) 浮点元素的下半部分到包装的双精度 (64-bit) 浮点元素的下半部分进行逐元素转换,并将结果存储在 dst 中。

_mm512_cvtsepi16_epi8Experimentalavx512bw

将 A 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi32_epi8Experimentalavx512f

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi32_epi16Experimentalavx512f

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi64_epi8Experimentalavx512f

将包装的带符号的 64 位整数转换为带符号饱和的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi64_epi16Experimentalavx512f

将包装的带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi64_epi32Experimentalavx512f

将包装的带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtsi512_si32Experimentalavx512f

将 a 中的低 32 位整数复制到 dst。

_mm512_cvtt_roundpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtt_roundpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtt_roundps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtt_roundps_epu32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvttpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvttpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvttps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvttps_epu32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi16_epi8Experimentalavx512bw

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi32_epi8Experimentalavx512f

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi32_epi16Experimentalavx512f

将 A 中的包装无符号 32 位整数转换为具有无符号饱和度的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi64_epi8Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi64_epi16Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi64_epi32Experimentalavx512f

将 A 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并将结果存储在 dst 中。

_mm512_dbsad_epu8Experimentalavx512bw

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并将 16 位结果存储在 dst 中。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm512_div_pdExperimentalavx512f

将 b 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后将结果存储在 dst 中。

_mm512_div_psExperimentalavx512f

将 b 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后将结果存储在 dst 中。

_mm512_div_round_pdExperimentalavx512f

将 b 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,并将结果存储在 dst 中。

_mm512_div_round_psExperimentalavx512f

将 b 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后将结果存储在 dst 中。

_mm512_dpbf16_psExperimentalavx512bf16,avx512f

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素累加,结果存储在 BF16 (16-bit) 浮点对的 dst.Compute 点积中 b、将中间的单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存入 dst。

_mm512_dpbusd_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm512_dpbusds_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用有符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm512_dpwssd_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm512_dpwssds_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm512_extractf32x4_psExperimentalavx512f

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并将结果存储在 dst 中。

_mm512_extractf64x4_pdExperimentalavx512f

从 a 提取 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),并用 imm8 进行选择,并将结果存储在 dst 中。

_mm512_extracti32x4_epi32Experimentalavx512f

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM2 选中,结果存入 dst。

_mm512_extracti64x4_epi64Experimentalavx512f

从 a 中提取 256 位 (由 4 个包装的 64 位整数组成),用 IMM1 选择,并将结果存储在 dst 中。

_mm512_fixupimm_pdExperimentalavx512f

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fixupimm_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fixupimm_round_pdExperimentalavx512f

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fixupimm_round_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmaddsub_pdExperimentalavx512f

在 a 和 b 中乘以包装的双精度 (64-bit) 浮点元素,或者在中间结果中乘以 c to/from 的包装的元素,然后将结果存储在 dst 中。

_mm512_fmaddsub_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c to/from 中的包装的元素相加或相减,得到中间结果,并将结果存储在 dst 中。

_mm512_fmaddsub_round_pdExperimentalavx512f

在 a 和 b 中乘以包装的双精度 (64-bit) 浮点元素,或者在中间结果中乘以 c to/from 的包装的元素,然后将结果存储在 dst 中。

_mm512_fmaddsub_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c to/from 中的包装的元素相加或相减,得到中间结果,并将结果存储在 dst 中。

_mm512_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并将结果存储在 dst 中。

_mm512_fmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并将结果存储在 dst 中。

_mm512_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 c from/to 中的包装后的元素相减并相加,然后将结果存储在 dst 中。

_mm512_fmsubadd_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c from/to 中的包装的元素相减并相加,得到中间结果,并将结果存储在 dst 中。

_mm512_fmsubadd_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 c from/to 中的包装后的元素相减并相加,然后将结果存储在 dst 中。

_mm512_fmsubadd_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c from/to 中的包装的元素相减并相加,得到中间结果,并将结果存储在 dst 中。

_mm512_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,然后将结果存储在 dst 中。

_mm512_fnmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fnmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,然后将结果存储在 dst 中。

_mm512_getexp_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm512_getexp_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm512_getexp_round_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_getexp_round_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_getmant_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_getmant_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。 此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。 尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值: _MM_MANT_NORM_1_2 // interval [1, 2) _MM_MANT_NORM_p5_2 // interval [0.5, 2) _MM_MANT_NORM_p5_1 // interval [0.5, 1) _MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5) The sign is determined by sc which can take the following values:

_mm512_getmant_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_getmant_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512f

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm512_i32gather_epi32Experimentalavx512f

使用 32 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32gather_epi64Experimentalavx512f

使用 32 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32gather_pdExperimentalavx512f

使用 32 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32gather_psExperimentalavx512f

使用 32 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_epi32Experimentalavx512f

使用 32 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_epi64Experimentalavx512f

使用 32 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_pdExperimentalavx512f

使用 32 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_psExperimentalavx512f

使用 32 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64gather_epi32Experimentalavx512f

使用 64 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64gather_epi64Experimentalavx512f

使用 64 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64gather_pdExperimentalavx512f

使用 64 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64gather_psExperimentalavx512f

使用 64 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_epi32Experimentalavx512f

使用 64 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_epi64Experimentalavx512f

使用 64 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_pdExperimentalavx512f

使用 64 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_psExperimentalavx512f

使用 64 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放),且受掩码 k 限制 (未设置相应的掩码位时不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_insertf32x4Experimentalavx512f

将 a 复制到 dst,然后将 b 中的 128 位 (由 4 个压缩单精度 (32 位) 浮点元素组成) 插入到 dst 中 imm8 指定的位置。

_mm512_insertf64x4Experimentalavx512f

将 a 复制到 dst,然后将 b 中的 256 位 (由 4 个压缩双精度 (64 位) 浮点元素组成) 插入到 dst 中 imm8 指定的位置。

_mm512_inserti32x4Experimentalavx512f

将 a 复制到 dst,然后将 b 中的 128 位 (由 4 个压缩的 32 位整数组成) 插入到 dst 中 imm8 指定的位置。

_mm512_inserti64x4Experimentalavx512f

将 a 复制到 dst,然后在 imm8 指定的位置将 256 位 (由 4 个包装的 64 位整数组成) 插入 dst。

_mm512_int2maskExperimentalavx512f

将整数掩码转换为位掩码,并将结果存储在 dst 中。

_mm512_kandExperimentalavx512f

计算 16 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_mm512_kandnExperimentalavx512f

计算 16 位掩码 a 的按位非,然后与 b 计算 AND,并将结果存储在 k 中。

_mm512_kmovExperimentalavx512f

将 16 位掩码 a 复制到 k。

_mm512_knotExperimentalavx512f

计算 16 位掩码 a 的按位非,并将结果存储在 k 中。

_mm512_korExperimentalavx512f

计算 16 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_mm512_kortestcExperimentalavx512f

在 k1 和 k2 之间执行按位或运算,将结果存储在 dst 中。如果 dst 全为 1,则设置 CF 标志。

_mm512_kunpackbExperimentalavx512f

从掩码 a 和 b 解包并交织 8 位,并将 16 位结果存储在 k 中。

_mm512_kxnorExperimentalavx512f

计算 16 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_mm512_kxorExperimentalavx512f

计算 16 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_mm512_load_epi32Experimentalavx512f

将 512 位 (由 16 个包装的 32 位整数组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_epi64Experimentalavx512f

将 512 位 (由 8 个包装的 64 位整数组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_pdExperimentalavx512f

将 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_psExperimentalavx512f

将 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_si512Experimentalavx512f

将 512 位整数数据从内存加载到 dst 中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_loadu_epi8Experimentalavx512bw

将 512 位 (由 64 个包装的 8 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_epi16Experimentalavx512bw

将 512 位 (由 32 个包装的 16 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_epi32Experimentalavx512f

将 512 位 (由 16 个包装的 32 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_epi64Experimentalavx512f

将 512 位 (由 8 个包装的 64 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_pdExperimentalavx512f

从内存中加载 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 到结果中。

_mm512_loadu_psExperimentalavx512f

从内存中将 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 加载到结果中。

_mm512_loadu_si512Experimentalavx512f

将 512 位整数数据从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm512_lzcnt_epi32Experimentalavx512cd

计算 a 中每个包装的 32 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm512_lzcnt_epi64Experimentalavx512cd

计算 a 中每个包装的 64 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm512_madd52hi_epu64Experimentalavx512ifma

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的高 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm512_madd52lo_epu64Experimentalavx512ifma

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的低 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm512_madd_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将相邻的 32 位中间整数对水平相加,并将结果打包到 dst 中。

_mm512_maddubs_epi16Experimentalavx512bw

将 a 中的每个无符号 8 位整数与 b 中对应的有符号 8 位整数垂直相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并将饱和结果包装到 dst 中。

_mm512_mask2_permutex2var_epi8Experimentalavx512vbmi

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)

使用 idx 中的对应选择器和索引在 a 和 b 中的 lanes 中对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm512_mask2intExperimentalavx512f

将位掩码 k1 转换为整数值,并将结果存储在 dst 中。

_mm512_mask3_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm512_mask3_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm512_mask3_fmaddsub_pdExperimentalavx512f

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm512_mask3_fmaddsub_psExperimentalavx512f

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm512_mask3_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm512_mask3_fmsubadd_psExperimentalavx512f

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm512_mask3_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm512_mask3_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm512_mask3_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 c 复制元素)。

_mm512_mask3_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 c 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm512_mask_abs_epi8Experimentalavx512bw

计算 a 中包装的带符号的 8 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_abs_epi16Experimentalavx512bw

计算 a 中包装的带符号的 16 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_abs_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的绝对值,并使用写掩码 k 将无符号结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm512_mask_abs_epi64Experimentalavx512f

计算 a 中包装的带符号的 64 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_abs_pdExperimentalavx512f

查找 v2 中每个包装的双精度 (64-bit) 浮点元素的绝对值,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_abs_psExperimentalavx512f

查找 v2 中每个包装的单精度 (32-bit) 浮点元素的绝对值,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_epi8Experimentalavx512bw

在 a 和 b 中添加包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_epi16Experimentalavx512bw

在 a 和 b 中添加包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_epi32Experimentalavx512f

在 a 和 b 中添加包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_epi64Experimentalavx512f

在 a 和 b 中添加包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_round_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_add_round_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_adds_epi8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_adds_epi16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_adds_epu8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_adds_epu16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_alignr_epi8Experimentalavx512bw

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并使用写掩码 k 将低 16 个字节存储在 dst 中 (当相应的屏蔽位未置位时,从 src 复制元素)。

_mm512_mask_alignr_epi32Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 32 位元素,并使用写掩码 k 将低 64 字节 (16 个元素) 存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_alignr_epi64Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 64 位元素,并使用写掩码 k 将低 64 字节 (8 个元素) 存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_and_epi32Experimentalavx512f

在包装的 a 和 b 的 32 位整数元素之间执行逐个元素的按位 AND,使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_and_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_andnot_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_andnot_epi64Experimentalavx512f

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_avg_epu8Experimentalavx512bw

将 a 和 b 中包装的无符号 8 位整数平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_avg_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_bitshuffle_epi64_maskExperimentalavx512bitalg

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm512_mask_blend_epi8Experimentalavx512bw

使用控制掩码 k 混合 a 和 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_epi16Experimentalavx512bw

使用控制掩码 k 混合来自 a 和 b 的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_epi32Experimentalavx512f

使用控制掩码 k 混合 a 和 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_epi64Experimentalavx512f

使用控制掩码 k 混合 a 和 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_pdExperimentalavx512f

使用控制掩码 k 混合来自 a 和 b 的包装后的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_mask_blend_psExperimentalavx512f

使用控制掩码 k 混合来自 a 和 b 的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

使用写掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将 4 个包装的双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将 a 的 4 个包装的 32 位整数广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将 a 的 4 个包装的 64 位整数广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcastb_epi8Experimentalavx512bw

使用写掩码 k 将 d 的低包装的 8 位整数广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将低双精度 (64-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将低单精度 (32-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

使用写掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cmp_epi8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmp_epi16_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_epu8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmp_epu16_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmp_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cmpeq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 16 位整数是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpeq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 16 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpeq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpeq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpge_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 16 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 32 位整数是否等于或大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpge_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpgt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果使用零掩码 k1 存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpgt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 32 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmple_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 16 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 32 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmple_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 32 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmple_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmple_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmplt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 16 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 32 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的带符号的 64 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmplt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 16 位整数以得到小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 64 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmplt_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素的小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmplt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将清零)。

比较 a 和 b 中包装的无符号 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否等于或小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否等于或小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,看是否都不是 NaN,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,看是否都不是 NaN,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素以查看是否为 NaN,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,看是否为 NaN,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_compress_epi8Experimentalavx512vbmi2

将 a 中的活动 8 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_epi16Experimentalavx512vbmi2

将 a 中的活动 16 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

将活跃的 32 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

将活跃的 64 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_pdExperimentalavx512f

将活跃的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位在写掩码 k 中设置) 到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_psExperimentalavx512f

将活跃的单精度 (32-bit) 浮点元素连续存储在 dst 中 (将其各自的位设置在写掩码 k 中的那些元素中) 存储到 dst,并通过 src 中的其余元素。

_mm512_mask_conflict_epi32Experimentalavx512cd

使用写掩码 k (当未设置相应的掩码位时,将从 src 复制元素),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_mask_conflict_epi64Experimentalavx512cd

使用写掩码 k 测试 a 的每个 64 位元素是否与所有其他元素相等 (更接近最低有效位) (当未设置相应的掩码位时,将从 src 复制元素)。每个元素的比较在 dst 中形成零扩展位 vector。

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtepi8_epi16Experimentalavx512bw

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepi8_epi32Experimentalavx512f

符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepi8_epi64Experimentalavx512f

符号将 a 的低 8 个字节中的包装 8 位整数扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepi16_epi8Experimentalavx512bw

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

符号将包装后的 16 位整数从 a 扩展为包装后的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepi32_epi8Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepi32_pdExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepi32_psExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装的 32 位整数在 a 中转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装的 32 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepi32lo_pdExperimentalavx512f

将 v2 中包装的 32 位整数整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,进行逐元素转换,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepi64_epi8Experimentalavx512f

将 a 中的包装的 64 位整数转换为带有截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中包装的 64 位整数转换为包装的 8 位整数并截断,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

将 a 中的包装的 64 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装的 64 位整数转换为带截断的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepu8_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepu8_epi32Experimentalavx512f

将 a 中的包装无符号 8 位整数零扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepu8_epi64Experimentalavx512f

将 a 的低 8 个字节中的包装无符号 8 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 16 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepu32_pdExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtepu32lo_pdExperimentalavx512f

将 v2 中 32 位无符号整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtne2ps_pbhExperimentalavx512bf16,avx512f

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在单个 vector dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtneps_pbhExperimentalavx512bf16,avx512f

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtpd_epi32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtpd_epu32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtpd_psExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtpd_psloExperimentalavx512f

将 v2 中的包装的双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,将其逐个元素转换,并使用 writemask k 将它们存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。元素存储在结果 vector 的下半部分中,而其余的上半部分位置设置为 0。

_mm512_mask_cvtph_psExperimentalavx512f

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtps_epi32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtps_pdExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtps_phExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtpslo_pdExperimentalavx512f

将 v2 中包装的单精度 (32-bit) 浮点元素的下半部分转换为包装的双精度 (64-bit) 浮点元素的下半部分进行逐元素转换,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtsepi16_epi8Experimentalavx512bw

将 a 中的包装带符号的 16 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装在 a 中的有符号 16 位整数转换为有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvttpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvttpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvttps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvttps_epu32Experimentalavx512f

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cvtusepi16_epi8Experimentalavx512bw

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装在 a 中的无符号 16 位整数转换为具有无符号饱和的包装的无符号 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

将包装在 a 中的无符号 64 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_dbsad_epu8Experimentalavx512bw

计算 a 中的无符号 8 位整数与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并使用写掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm512_mask_div_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_div_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_div_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_div_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_dpbf16_psExperimentalavx512bf16,avx512f

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间的单精度 (32-bit) 浮点元素与 src 中的元素相加,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_dpbusd_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm512_mask_dpbusds_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_dpwssd_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_dpwssds_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_expand_epi8Experimentalavx512vbmi2

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_expand_epi16Experimentalavx512vbmi2

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_expand_epi32Experimentalavx512f

从 a 加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_expand_epi64Experimentalavx512f

从 a 加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_expand_pdExperimentalavx512f

从 a 加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_expand_psExperimentalavx512f

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 提取 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),并用 imm8 进行选择,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM2 选中,用 writemask k 将结果存入 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 中提取 256 位 (由 4 个包装的 64 位整数组成),用 IMM1 选中,用 writemask k 将结果存入 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_fixupimm_pdExperimentalavx512f

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm512_mask_fixupimm_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm512_mask_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm512_mask_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm512_mask_fmaddsub_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm512_mask_fmaddsub_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm512_mask_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm512_mask_fmsub_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm512_mask_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm512_mask_fmsubadd_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm512_mask_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm512_mask_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm512_mask_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm512_mask_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm512_mask_getexp_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm512_mask_getexp_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_getmant_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_mask_getmant_psExperimentalavx512f

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_mask_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_mask_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512f

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

使用 32 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

使用 32 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32gather_pdExperimentalavx512f

使用 32 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32gather_psExperimentalavx512f

使用 32 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

使用 32 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例中的因子进行缩放) 受掩码 k 的约束 (未设置相应掩码位时,不存储元素)。小数位数应为 1、2、4 或 8。

使用 32 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址中,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例中的因子进行缩放) 受掩码 k 的约束 (未设置相应掩码位时,不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32scatter_pdExperimentalavx512f

使用 32 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址中,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例中的因子进行缩放) 受掩码 k 的约束 (未设置相应掩码位时,不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32scatter_psExperimentalavx512f

使用 32 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例中的因子进行缩放) 受掩码 k 的约束 (未设置相应掩码位时,不存储元素)。小数位数应为 1、2、4 或 8。

使用 64 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

使用 64 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64gather_pdExperimentalavx512f

使用 64 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64gather_psExperimentalavx512f

使用 64 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放)。使用 writemask k 将收集的元素合并到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。小数位数应为 1、2、4 或 8。

使用 64 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放),且受掩码 k 限制 (未设置相应的掩码位时不存储元素)。小数位数应为 1、2、4 或 8。

使用 64 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址中,并由 vindex 中的每个 64 位元素偏移 (每个索引按比例中的因子进行缩放) 受掩码 k 的约束 (当相应掩码位未设置时,不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64scatter_pdExperimentalavx512f

使用 64 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址中,并由 vindex 中的每个 64 位元素偏移 (每个索引按比例中的因子进行缩放) 受掩码 k 的约束 (当相应掩码位未设置时,不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64scatter_psExperimentalavx512f

使用 64 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引都按比例因子进行缩放),且受掩码 k 限制 (未设置相应的掩码位时不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_insertf32x4Experimentalavx512f

将 a 复制到 tmp,然后将 b 中的 128 位 (由 4 个压缩单精度 (32 位) 浮点元素组成) 插入到 tmp 中 imm8 指定的位置。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_insertf64x4Experimentalavx512f

将 a 复制到 tmp,然后将 b 中的 256 位 (由 4 个压缩双精度 (64 位) 浮点元素组成) 插入到 tmp 中 imm8 指定的位置。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_inserti32x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_inserti64x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置将 b 的 256 位 (由 4 个包装的 64 位整数组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_lzcnt_epi32Experimentalavx512cd

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_lzcnt_epi64Experimentalavx512cd

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_madd_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 writemask k 将结果打包到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_maddubs_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并使用写掩码 k 将饱和结果包装到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_max_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_max_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_min_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_min_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_min_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_mov_epi8Experimentalavx512bw

使用写掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_epi16Experimentalavx512bw

使用写掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_epi32Experimentalavx512f

使用写掩码 k 将包装的 32 位整数从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_epi64Experimentalavx512f

使用写掩码 k 将包装的 64 位整数从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_pdExperimentalavx512f

使用写掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_psExperimentalavx512f

使用写掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_movedup_pdExperimentalavx512f

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_movehdup_psExperimentalavx512f

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_moveldup_psExperimentalavx512f

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mul_epi32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并使用写掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mul_epu32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用写掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mul_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mul_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mul_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mul_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mulhi_epi16Experimentalavx512bw

将 a 和 b 中包装的带符号的 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mulhi_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mulhrs_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 writemask k 将位 [16:1] 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mullo_epi16Experimentalavx512bw

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用写掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mullo_epi32Experimentalavx512f

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用写掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mullox_epi64Experimentalavx512f

将包装的 64 位整数 vectors a 和 b 中的元素相乘,使用写掩码 k 将结果的低 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 writemask k (元素当相应的屏蔽位未设置时,从 src 复制)。

_mm512_mask_or_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_or_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_packs_epi16Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_packs_epi32Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_packus_epi16Experimentalavx512bw

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_packus_epi32Experimentalavx512bw

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_permute_pdExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_permute_psExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 idx 中的相应索引在跨 lanes 中对 32 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。请注意,与过去使用 permutevar 名称的内部函数不同,该内部函数在 128 位 lane 上进行了重排。这个内部函数和 _mm512_mask_permutexvar_epi32 是一样的,建议您用那个内部函数名。

_mm512_mask_permutevar_pdExperimentalavx512f

使用 b 中的控件在 128 位 lane 内将 a 的双精度 (64-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_permutevar_psExperimentalavx512f

使用 b 中的控件在 128 位 lane 内将 a 的单精度 (32-bit) 浮点元素打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_permutex2var_epi8Experimentalavx512vbmi

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

使用对应的选择器和 idx 中的索引在 a 和 b 中的 lanes 上对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

使用 imm8 中的控件在 256 位 lanes 内将 64 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_permutex_pdExperimentalavx512f

使用 imm8 中的控件在 256 位 lanes 内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_permutexvar_epi8Experimentalavx512vbmi

使用 idx 中的相应索引在跨 lanes 的 a 中打乱 8 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 idx 中的相应索引在跨 lanes 中对 32 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 idx 中的相应索引在跨 lanes 中随机排列 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 idx 中的相应索引对跨 lanes 中的双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 idx 中的相应索引对跨 lanes 中的单精度 (32-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_popcnt_epi8Experimentalavx512bitalg

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_mask_popcnt_epi16Experimentalavx512bitalg

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_mask_popcnt_epi32Experimentalavx512vpopcntdq

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_mask_popcnt_epi64Experimentalavx512vpopcntdq

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm512_mask_rcp14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_rcp14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

使用掩码 k 通过加法来减少 a 中包装的 32 位整数。返回 a 中所有活动元素的总和。

使用掩码 k 通过加法来减少 a 中包装的 64 位整数。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_add_pdExperimentalavx512f

通过使用掩膜 k 加法来减少包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_add_psExperimentalavx512f

通过使用掩码 k 加法来减少包装的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的总和。

使用掩码 k 按位与减少包装的 32 位整数。返回 a 中所有活动元素的按位与。

使用掩码 k 通过加法来减少 a 中包装的 64 位整数。返回 a 中所有活动元素的总和。

使用掩码 k 最多减少 a 中的包装有符号 32 位整数。返回 a 中所有活动元素的最大值。

使用掩码 k 最大减少包装的带符号的 64 位整数。返回 a 中所有活动元素的最大值。

使用掩码 k 最大减少包装的无符号 32 位整数。返回 a 中所有活动元素的最大值。

使用掩码 k 最大减少包装的无符号 64 位整数。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_pdExperimentalavx512f

使用掩码 k 最多减少 a 中包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_psExperimentalavx512f

最多使用掩码 k 减少包装后的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的最大值。

使用掩码 k 最多减少 a 中的包装有符号 32 位整数。返回 a 中所有活动元素的最小值。

使用掩码 k 最大减少包装的带符号的 64 位整数。返回 a 中所有活动元素的最小值。

使用掩码 k 最大减少包装的无符号 32 位整数。返回 a 中所有活动元素的最小值。

使用掩码 k 最大减少包装的带符号的 64 位整数。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_pdExperimentalavx512f

使用掩码 k 最多减少 a 中包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_psExperimentalavx512f

最多使用掩码 k 减少包装后的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的最小值。

使用掩码 k 通过乘以减少 a 中包装的 32 位整数。返回 a 中所有活动元素的乘积。

使用掩码 k 通过乘以减少 a 中包装的 64 位整数。返回 a 中所有活动元素的乘积。

_mm512_mask_reduce_mul_pdExperimentalavx512f

使用掩码 k 通过乘以减少 a 中包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的乘积。

_mm512_mask_reduce_mul_psExperimentalavx512f

使用掩码 k 通过乘以减少 a 中包装的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的乘积。

使用掩码 k 按位或减少包装的 32 位整数。返回 a 中所有活动元素的按位或。

使用掩码 k 按位或减少包装的 64 位整数。返回 a 中所有活动元素的按位或。

_mm512_mask_rol_epi32Experimentalavx512f

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_rol_epi64Experimentalavx512f

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_rolv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 b 对应元素 b 中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_rolv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 b 的对应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_ror_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_ror_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_rorv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 b 的对应元素中指定的位数,然后使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_rorv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_roundscale_pdExperimentalavx512f

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_mask_roundscale_psExperimentalavx512f

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_mask_rsqrt14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_rsqrt14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_scalef_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_scalef_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_set1_epi8Experimentalavx512bw

使用写掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_set1_epi16Experimentalavx512bw

使用写掩码 k 向 dst 的所有元素广播 16 位整数 a (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_set1_epi32Experimentalavx512f

使用写掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_set1_epi64Experimentalavx512f

使用写掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shldi_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 writemask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shldi_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 writemask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shldi_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 writemask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shldv_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shldv_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shldv_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shrdi_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 writemask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shrdi_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 writemask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shrdi_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 writemask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shrdv_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shrdv_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shrdv_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shuffle_epi8Experimentalavx512bw

使用 b 中相应的 8 位元素中的控件在 128 位 lane 内对 a 中的 8 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_epi32Experimentalavx512f

使用 imm8 中的控件将 128 位 lane 中的 32 位整数随机排列,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_f32x4Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_f64x2Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_i32x4Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 重排,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_i64x2Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_pdExperimentalavx512f

使用 imm8 中的控件对 128 位 lane 中的双精度 (64-bit) 浮点元素进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shuffle_psExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shufflehi_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的高 64 位中,将 128 位 lanes 的低 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_shufflelo_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的低 64 位中,128 位 lanes 的高 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sll_epi16Experimentalavx512bw

将包装的 16 位整数按计数左移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sll_epi32Experimentalavx512f

将包装的 32 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sll_epi64Experimentalavx512f

将包装的 64 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_slli_epi16Experimentalavx512bw

将包装的 16 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_slli_epi32Experimentalavx512f

将包装的 32 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_slli_epi64Experimentalavx512f

将包装的 64 位整数向左移动 imm8,同时向零移动,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sllv_epi16Experimentalavx512bw

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sllv_epi32Experimentalavx512f

将填充的 32 位整数向左移动计数中相应元素指定的数量,同时将其移位为零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sllv_epi64Experimentalavx512f

将填充的 64 位整数向左移动 count 中相应元素指定的数量,同时将其移位为零,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sqrt_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sqrt_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sqrt_round_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sqrt_round_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sra_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sra_epi32Experimentalavx512f

在移动符号位的同时右移计数包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sra_epi64Experimentalavx512f

在移动符号位的同时右移计数包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srai_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srai_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srai_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srav_epi16Experimentalavx512bw

将包装的 16 位整数右移 count 中相应元素指定的数量,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srav_epi32Experimentalavx512f

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srav_epi64Experimentalavx512f

在移入符号位的同时,将包装的 64 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srl_epi16Experimentalavx512bw

将包装的 16 位整数右移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srl_epi32Experimentalavx512f

将包装的 32 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srl_epi64Experimentalavx512f

将包装的 64 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srli_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srli_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srli_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srlv_epi16Experimentalavx512bw

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srlv_epi32Experimentalavx512f

向右移动包装的 32 位整数整数 (由 count 中相应元素指定的数量),同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_srlv_epi64Experimentalavx512f

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_epi8Experimentalavx512bw

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_epi16Experimentalavx512bw

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_epi32Experimentalavx512f

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_epi64Experimentalavx512f

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_round_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_sub_round_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_subs_epi8Experimentalavx512bw

使用饱和度将 b 中的包装 8 位整数减去 b 中的包装 8 位有符号整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_subs_epi16Experimentalavx512bw

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_subs_epu8Experimentalavx512bw

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_subs_epu16Experimentalavx512bw

使用 a 饱和度从 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每一位,使用 src、a、b 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 writemask k 在 32 位粒度 (当相应的掩码位未设置时,从 src 复制 32 位元素)。

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 src、a、b 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 writemask k 在 64 位粒度 (当相应的掩码位未设置时,从 src 复制 64 位元素)。

_mm512_mask_test_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_test_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_testn_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_unpackhi_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpackhi_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpackhi_pdExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpackhi_psExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpacklo_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpacklo_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpacklo_pdExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_unpacklo_psExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_xor_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_xor_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_maskz_abs_epi8Experimentalavx512bw

计算 a 中包装的带符号的 8 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_abs_epi16Experimentalavx512bw

计算 a 中包装的带符号的 16 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_abs_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_abs_epi64Experimentalavx512f

计算 a 中包装的带符号的 64 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi8Experimentalavx512bw

在 a 和 b 中添加包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi16Experimentalavx512bw

将包装的 16 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi32Experimentalavx512f

将包装的 32 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi64Experimentalavx512f

在 a 和 b 中添加包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_round_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_round_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_adds_epi8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_adds_epi16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_adds_epu8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_adds_epu16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_alignr_epi8Experimentalavx512bw

将 a 和 b 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 imm8 字节,并使用零掩码 k 将低 16 字节存储在 dst 中 (当未设置相应的掩码位时,元素将被清零))。

_mm512_maskz_alignr_epi32Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 32 位元素,并使用零掩码 k 将低 64 字节 (16 个元素) 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_alignr_epi64Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 64 位元素,并使用零掩码 k 将低 64 字节 (8 个元素) 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_and_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_and_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_andnot_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的按位 NOT,然后计算 b 中的 AND,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_andnot_epi64Experimentalavx512f

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_avg_epu8Experimentalavx512bw

将 a 和 b 中包装的无符号 8 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_avg_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将 4 个包装的双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将 4 的包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将 4 个包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将低包装的 8 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将低双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将低单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_compress_epi8Experimentalavx512vbmi2

将 a 中的活动 8 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm512_maskz_compress_epi16Experimentalavx512vbmi2

将 a 中的活动 16 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

将活跃的 32 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

将活跃的 64 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm512_maskz_compress_pdExperimentalavx512f

将活跃的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm512_maskz_compress_psExperimentalavx512f

将活跃的单精度 (32-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm512_maskz_conflict_epi32Experimentalavx512cd

使用零掩码 k (当未设置相应的掩码位时,元素将被清零),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_maskz_conflict_epi64Experimentalavx512cd

使用零掩码 k (当未设置相应的掩码位时,元素将被清零),测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtepi8_epi16Experimentalavx512bw

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

符号将 a 的低 8 个字节中的包装 8 位整数扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi16_epi8Experimentalavx512bw

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi32_pdExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi32_psExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将带有 a 的包装的 64 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将带有 a 的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepu8_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 8 位整数零扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 的低 8 个字节中的包装无符号 8 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 16 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepu32_pdExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtne2ps_pbhExperimentalavx512bf16,avx512f

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在单个 vector dst 中 (当对应的掩码位不存在时,元素归零放)。

_mm512_maskz_cvtneps_pbhExperimentalavx512bf16,avx512f

将包装的单精度 (32-bit) 浮点元素在 a 中转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtpd_epi32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtpd_epu32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtpd_psExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtph_psExperimentalavx512f

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtps_epi32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtps_pdExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtps_phExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtsepi16_epi8Experimentalavx512bw

将 a 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

将 a 中的包装有符号 64 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装单精度 (32-bit) 浮点元素转换为带有截断的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvttpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvttpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvttps_epi32Experimentalavx512f

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvttps_epu32Experimentalavx512f

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_dbsad_epu8Experimentalavx512bw

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs) 的总和,并使用零掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm512_maskz_div_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_div_psExperimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_div_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_div_round_psExperimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_dpbf16_psExperimentalavx512bf16,avx512f

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存储在 dst 中使用 zeromask k (当对应的掩码为位未设置)。

_mm512_maskz_dpbusd_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果使用 zeromask k 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_dpbusds_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数用带符号饱和求和,并将包装的 32 位结果用 zeromask k 存储在 dst 中 (当对应的掩码位未设置时,元素被清零)。

_mm512_maskz_dpwssd_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_dpwssds_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_expand_epi8Experimentalavx512vbmi2

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_expand_epi16Experimentalavx512vbmi2

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_expand_epi32Experimentalavx512f

从 a 中加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_expand_epi64Experimentalavx512f

从 a 中加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_expand_pdExperimentalavx512f

从 a 中加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_expand_psExperimentalavx512f

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 提取 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),并用 imm8 进行选择,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM2 选择,结果用 zeromask k 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 中提取 256 位 (由 4 个包装的 64 位整数组成),用 IMM1 选择,结果用 zeromask k 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fixupimm_pdExperimentalavx512f

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

_mm512_maskz_fixupimm_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

_mm512_maskz_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在使用零掩码 k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmaddsub_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmaddsub_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsubadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_getexp_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm512_maskz_getexp_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_getmant_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_maskz_getmant_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_maskz_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_maskz_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512f

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm512_maskz_insertf32x4Experimentalavx512f

将 a 复制到 tmp,然后将 b 中的 128 位 (由 4 个压缩单精度 (32 位) 浮点元素组成) 插入到 tmp 中 imm8 指定的位置。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_insertf64x4Experimentalavx512f

将 a 复制到 tmp,然后将 b 中的 256 位 (由 4 个压缩双精度 (64 位) 浮点元素组成) 插入到 tmp 中 imm8 指定的位置。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_inserti32x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_inserti64x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置将 b 的 256 位 (由 4 个包装的 64 位整数组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_lzcnt_epi32Experimentalavx512cd

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_lzcnt_epi64Experimentalavx512cd

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_madd_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 zeromask k 将结果打包到 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_maddubs_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平添加相邻的一对中间有符号 16 位整数,并使用 zeromask k 将饱和结果打包到 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_max_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_max_round_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_min_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_min_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_min_round_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_mov_epi8Experimentalavx512bw

使用零掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mov_epi16Experimentalavx512bw

使用零掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mov_epi32Experimentalavx512f

使用零掩码 k 将包装的 32 位整数从 a 移至 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mov_epi64Experimentalavx512f

使用零掩码 k 将包装的 64 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mov_pdExperimentalavx512f

使用零掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mov_psExperimentalavx512f

使用零掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_movedup_pdExperimentalavx512f

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_movehdup_psExperimentalavx512f

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_moveldup_psExperimentalavx512f

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_epi32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低位有符号 32 位整数相乘,并使用零掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_epu32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用零掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_round_pdExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mulhi_epi16Experimentalavx512bw

将 a 和 b 中包装的带符号的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mulhi_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mulhrs_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 zeromask k 将位 [16:1] 存储到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mullo_epi16Experimentalavx512bw

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mullo_epi32Experimentalavx512f

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用零掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 zeromask k (元素当相应的屏蔽位未设置时被清零)。

_mm512_maskz_or_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_or_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_packs_epi16Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_packs_epi32Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_packus_epi16Experimentalavx512bw

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_packus_epi32Experimentalavx512bw

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permute_pdExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permute_psExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 b 中的控件在 128 位 lane 内将 a 中的双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 b 中的控件在 128 位 lane 内将 a 的单精度 (32-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutex2var_epi8Experimentalavx512vbmi

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 64 位整数进行混洗,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用对应的选择器和 idx 中的索引将 a 和 b 中的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 imm8 中的控件在 256 位 lanes 内将 64 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutex_pdExperimentalavx512f

使用 imm8 中的控件在 256 位 lanes 内将双精度 (64-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutexvar_epi8Experimentalavx512vbmi

使用 idx 中的相应索引在跨 lanes 的 a 中打乱 8 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 idx 中的相应索引在跨 lanes 中对 32 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 idx 中的相应索引在跨 lanes 中对 64 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 idx 中的相应索引在跨 lanes 中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 idx 中的相应索引在跨 lanes 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_popcnt_epi8Experimentalavx512bitalg

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_maskz_popcnt_epi16Experimentalavx512bitalg

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_maskz_popcnt_epi32Experimentalavx512vpopcntdq

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_maskz_popcnt_epi64Experimentalavx512vpopcntdq

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm512_maskz_rcp14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_rcp14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_rol_epi32Experimentalavx512f

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_rol_epi64Experimentalavx512f

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_rolv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_rolv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_ror_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_ror_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_rorv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_rorv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_maskz_rsqrt14_pdExperimentalavx512f

计算 a 中的包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_rsqrt14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_scalef_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_scalef_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_set1_epi8Experimentalavx512bw

使用零掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_set1_epi16Experimentalavx512bw

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_set1_epi32Experimentalavx512f

使用零掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_set1_epi64Experimentalavx512f

使用零掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shldi_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shldi_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shldi_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shldv_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shldv_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shldv_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shrdi_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shrdi_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shrdi_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shrdv_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shrdv_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shrdv_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shuffle_epi8Experimentalavx512bw

根据 b 的相应 8 位元素中的打乱控制掩码对 a 中的包装 8 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 imm8 中的控件在 128 位 lane 中的 32 位整数中混洗 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shuffle_pdExperimentalavx512f

使用 imm8 中的控件对 128 位 lane 内的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shuffle_psExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的高 64 位中,将 128 位 lanes 的低 64 位从 a 复制到 dst,使用 zeromask k (当未设置相应的掩码位时,元素将被清零)。

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的低 64 位中,128 位 lanes 的高 64 位从 a 复制到 dst,使用 zeromask k (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sll_epi16Experimentalavx512bw

将包装的 16 位整数按计数左移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sll_epi32Experimentalavx512f

将包装的 32 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sll_epi64Experimentalavx512f

将填充的 64 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_slli_epi16Experimentalavx512bw

将包装的 16 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_slli_epi32Experimentalavx512f

将包装的 32 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_slli_epi64Experimentalavx512f

将包装的 64 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sllv_epi16Experimentalavx512bw

将包装的 16 位整数左移由 count 中的相应元素指定的数量,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sllv_epi32Experimentalavx512f

在将移位的 32 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sllv_epi64Experimentalavx512f

在将移位的 64 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sqrt_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sqrt_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sra_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sra_epi32Experimentalavx512f

在移动符号位的同时右移计数包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sra_epi64Experimentalavx512f

在移动符号位的同时右移计数包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srai_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srai_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srai_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srav_epi16Experimentalavx512bw

将包装的 16 位整数右移由 count 中的相应元素指定的数量,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srav_epi32Experimentalavx512f

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srav_epi64Experimentalavx512f

在移入符号位的同时,将包装的 64 位整数右移由 count 中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srl_epi16Experimentalavx512bw

将包装的 16 位整数右移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srl_epi32Experimentalavx512f

将移位的 32 位整数右移,同时移零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srl_epi64Experimentalavx512f

将包装的 64 位整数右移计数,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srli_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srli_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srli_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srlv_epi16Experimentalavx512bw

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srlv_epi32Experimentalavx512f

向右移动已包装的 32 位整数,偏移量为相应元素在计数中指定的数量,同时向零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srlv_epi64Experimentalavx512f

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时移位为零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_epi8Experimentalavx512bw

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_epi16Experimentalavx512bw

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_epi32Experimentalavx512f

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_epi64Experimentalavx512f

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_round_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_round_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_subs_epi8Experimentalavx512bw

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_subs_epi16Experimentalavx512bw

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_subs_epu8Experimentalavx512bw

使用 a 饱和度从 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_subs_epu16Experimentalavx512bw

使用 a 饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 32 位粒度的 zeromask k (当未设置相应的掩码位时,32 位元素会被清零)。

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 64 位粒度的 zeromask k (当未设置相应的掩码位时,64 位元素将被清零)。

_mm512_maskz_unpackhi_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpackhi_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpackhi_pdExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpackhi_psExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpacklo_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpacklo_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpacklo_pdExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_unpacklo_psExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_xor_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_xor_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_max_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最大值存储在 dst 中。

_mm512_max_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最大值存储在 dst 中。

_mm512_max_round_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最大值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_max_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最大值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_min_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最小值存储在 dst 中。 比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最小值存储在 dst 中。

_mm512_min_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最小值存储在 dst 中。

_mm512_min_round_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最小值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_min_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最小值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_movedup_pdExperimentalavx512f

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_movehdup_psExperimentalavx512f

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_moveldup_psExperimentalavx512f

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_movepi8_maskExperimentalavx512bw

根据 a 中相应包装的 8 位整数的最高有效位设置掩码寄存器 k 的每个位。

_mm512_movepi16_maskExperimentalavx512bw

根据 a 中相应的包装的 16 位整数的最高有效位设置掩码寄存器 k 的每一位。

_mm512_movm_epi8Experimentalavx512bw

根据 k 中相应位的值,将 dst 中每个包装的 8 位整数设置为全 1 或全 0。

_mm512_movm_epi16Experimentalavx512bw

根据 k 中相应位的值,将 dst 中每个包装的 16 位整数设置为全 1 或全 0。

_mm512_mul_epi32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并将带符号的 64 位结果存储在 dst 中。

_mm512_mul_epu32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并将无符号 64 位结果存储在 dst 中。

_mm512_mul_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mul_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mul_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mul_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mulhi_epi16Experimentalavx512bw

将包装的带符号的 16 位整数与 a 和 b 相乘,生成中间的 32 位整数,并将中间整数的高 16 位存储在 dst 中。

_mm512_mulhi_epu16Experimentalavx512bw

将包装的无符号 16 位整数与 a 和 b 相乘,生成中间的 32 位整数,并将中间整数的高 16 位存储在 dst 中。

_mm512_mulhrs_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,加 1 舍入,然后将 [16: 1] 位存储到 dst。

_mm512_mullo_epi16Experimentalavx512bw

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并将中间整数的低 16 位存储在 dst 中。

_mm512_mullo_epi32Experimentalavx512f

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并将中间整数的低 32 位存储在 dst 中。

_mm512_mullox_epi64Experimentalavx512f

将包装的 64 位整数 vectors a 和 b 中的元素相乘,将结果的低 64 位存储在 dst 中。

_mm512_multishift_epi64_epi8Experimentalavx512vbmi

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并将 8 个组装字节存储到 dst 的相应 64 位元素。

_mm512_or_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位或,并将结果存储在 dst 中。

_mm512_or_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位或,并将结果存储在 dst 中。

_mm512_or_si512Experimentalavx512f

计算 a 和 b 中 512 位 (代表整数数据) 的按位或,并将结果存储在 dst 中。

_mm512_packs_epi16Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并将结果存储在 dst 中。

_mm512_packs_epi32Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并将结果存储在 dst 中。

_mm512_packus_epi16Experimentalavx512bw

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并将结果存储在 dst 中。

_mm512_packus_epi32Experimentalavx512bw

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并将结果存储在 dst 中。

_mm512_permute_pdExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permute_psExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutevar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨 lanes 中随机排列 32 位整数,并将结果存储在 dst 中。请注意,与过去使用 permutevar 名称的内部函数不同,该内部函数在 128 位 lane 上进行了重排。此内部函数与 _mm512_permutexvar_epi32 相同,建议您使用该内部函数名称。

_mm512_permutevar_pdExperimentalavx512f

使用 b 中的控件在 128 位 lane 内将 a 双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutevar_psExperimentalavx512f

使用 b 中的控件在 128 位 lane 内将 a 单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutex2var_epi8Experimentalavx512vbmi

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并将结果存储在 dst 中。

_mm512_permutex2var_epi16Experimentalavx512bw

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm512_permutex2var_epi32Experimentalavx512f

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm512_permutex2var_epi64Experimentalavx512f

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm512_permutex2var_pdExperimentalavx512f

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_permutex2var_psExperimentalavx512f

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_permutex_epi64Experimentalavx512f

使用 imm8 中的控件在 256 位 lanes 中的 a 内随机排列 64 位整数,并将结果存储在 dst 中。

_mm512_permutex_pdExperimentalavx512f

使用 imm8 中的控件在 256 位 lanes 内对双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutexvar_epi8Experimentalavx512vbmi

使用 idx 中的相应索引将 a 中的 8 位整数打乱到 lanes 中,并将结果存储在 dst 中。

_mm512_permutexvar_epi16Experimentalavx512bw

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm512_permutexvar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨 lanes 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm512_permutexvar_epi64Experimentalavx512f

使用 idx 中的相应索引在跨 lanes 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm512_permutexvar_pdExperimentalavx512f

使用 idx 中的相应索引在跨 lanes 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_permutexvar_psExperimentalavx512f

使用 idx 中的相应索引对跨 lanes 中的单精度 (32-bit) 浮点元素进行打乱。

_mm512_popcnt_epi8Experimentalavx512bitalg

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_popcnt_epi16Experimentalavx512bitalg

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_popcnt_epi32Experimentalavx512vpopcntdq

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_popcnt_epi64Experimentalavx512vpopcntdq

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm512_rcp14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_rcp14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_reduce_add_epi32Experimentalavx512f

通过加法减少包装的 32 位整数。返回 a 中所有元素的总和。

_mm512_reduce_add_epi64Experimentalavx512f

通过加法减少包装的 64 位整数。返回 a 中所有元素的总和。

_mm512_reduce_add_pdExperimentalavx512f

另外,还减少了包装的双精度 (64-bit) 浮点元素。返回 a 中所有元素的总和。

_mm512_reduce_add_psExperimentalavx512f

此外,还减少了包装的单精度 (32-bit) 浮点元素。返回 a 中所有元素的总和。

_mm512_reduce_and_epi32Experimentalavx512f

通过按位 AND 减少包装的 32 位整数。返回 a 中所有元素的按位与。

_mm512_reduce_and_epi64Experimentalavx512f

通过按位 AND 减少包装的 64 位整数。返回 a 中所有元素的按位与。

_mm512_reduce_max_epi32Experimentalavx512f

最多减少包装的带符号 32 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_epi64Experimentalavx512f

最大减少包装的带符号的 64 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_epu32Experimentalavx512f

最多减少包装的无符号 32 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_epu64Experimentalavx512f

最多减少包装的无符号 64 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_pdExperimentalavx512f

最大减少包装的双精度 (64-bit) 浮点元素。返回 a 中所有元素的最大值。

_mm512_reduce_max_psExperimentalavx512f

最大减少包装的单精度 (32-bit) 浮点元素。返回 a 中所有元素的最大值。

_mm512_reduce_min_epi32Experimentalavx512f

将包装的有符号的 32 位整数减少到最小值。返回 a 中所有元素的最小值。

_mm512_reduce_min_epi64Experimentalavx512f

将一个包装的有符号 64 位整数减少到最小值。返回 a 中所有元素的最小值。

_mm512_reduce_min_epu32Experimentalavx512f

将一个包装的无符号 32 位整数减少到最小值。返回 a 中所有元素的最小值。

_mm512_reduce_min_epu64Experimentalavx512f

将一个包装的无符号 64 位整数减少到最小。返回 a 中所有元素的最小值。

_mm512_reduce_min_pdExperimentalavx512f

将一个包装的双精度 (64 位) 浮点元素减少到最小。返回 a 中所有元素的最小值。

_mm512_reduce_min_psExperimentalavx512f

将一个包装的单精度 (32 位) 浮点元素减少到最小。返回 a 中所有元素的最小值。

_mm512_reduce_mul_epi32Experimentalavx512f

通过乘法减少包装的 32 位整数。返回 a 中所有元素的乘积。

_mm512_reduce_mul_epi64Experimentalavx512f

通过乘法减少包装的 64 位整数。返回 a 中所有元素的乘积。

_mm512_reduce_mul_pdExperimentalavx512f

通过乘法减少包装的双精度 (64-bit) 浮点元素。返回 a 中所有元素的乘积。

_mm512_reduce_mul_psExperimentalavx512f

通过乘法减少包装的单精度 (32-bit) 浮点元素。返回 a 中所有元素的乘积。

_mm512_reduce_or_epi32Experimentalavx512f

通过按位 OR 减少包装的 32 位整数。返回 a 中所有元素的按位或。

_mm512_reduce_or_epi64Experimentalavx512f

通过按位 OR 减少包装的 64 位整数。返回 a 中所有元素的按位或。

_mm512_rol_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm512_rol_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm512_rolv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_rolv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_ror_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并将结果存储在 dst 中。

_mm512_ror_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm512_rorv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_rorv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_roundscale_pdExperimentalavx512f

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_roundscale_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_rsqrt14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_rsqrt14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_sad_epu8Experimentalavx512bw

计算 a 和 b 中包装的无符号 8 位整数的绝对差,然后将每个连续的 8 个差水平地求和以生成八个无符号的 16 位整数,并将这些无符号的 16 位整数包装在 64 位元素的低 16 位中在 dst。

_mm512_scalef_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_scalef_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_scalef_round_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_scalef_round_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_set1_epi8Experimentalavx512f

向 dst 的所有元素广播 8 位整数 a。

_mm512_set1_epi16Experimentalavx512f

将低包装的 16 位整数从 a 广播到 dst 的所有所有元素。

_mm512_set1_epi32Experimentalavx512f

dst 的所有元素广播 32 位整数 a

_mm512_set1_epi64Experimentalavx512f

dst 的所有元素广播 64 位整数 a

_mm512_set1_pdExperimentalavx512f

dst 的所有元素广播 64 位浮点数 a

_mm512_set1_psExperimentalavx512f

dst 的所有元素广播 32 位浮点数 a

_mm512_set4_epi32Experimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的 32 位整数。

_mm512_set4_epi64Experimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的 64 位整数。

_mm512_set4_pdExperimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的双精度 (64-bit) 浮点元素。

_mm512_set4_psExperimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的单精度 (32-bit) 浮点元素。

_mm512_set_epi8Experimentalavx512f

使用提供的值在 dst 中设置包装的 8 位整数。

_mm512_set_epi16Experimentalavx512f

使用提供的值在 dst 中设置包装的 16 位整数。

_mm512_set_epi32Experimentalavx512f

使用提供的值在 dst 中设置包装的 32 位整数。

_mm512_set_epi64Experimentalavx512f

使用提供的值在 dst 中设置包装的 64 位整数。

_mm512_set_pdExperimentalavx512f

使用提供的值在 dst 中设置包装的双精度 (64-bit) 浮点元素。

_mm512_set_psExperimentalavx512f

使用提供的值在 dst 中设置包装的 32 位整数。

_mm512_setr4_epi32Experimentalavx512f

在 dst 中设置包装的 32 位整数,并以相反的顺序重复 4 个元素序列。

_mm512_setr4_epi64Experimentalavx512f

在 dst 中设置包装的 64 位整数,并以相反的顺序重复 4 个元素序列。

_mm512_setr4_pdExperimentalavx512f

在 dst 中设置包装的双精度 (64-bit) 浮点元素,并以相反的顺序重复 4 个元素序列。

_mm512_setr4_psExperimentalavx512f

在 dst 中设置包装的单精度 (32-bit) 浮点元素,并以相反的顺序重复 4 个元素。

_mm512_setr_epi32Experimentalavx512f

dst 中设置包装的 32 位整数,并以相反的顺序提供所提供的值。

_mm512_setr_epi64Experimentalavx512f

在 dst 中设置包装的 64 位整数,并以相反的顺序提供所提供的值。

_mm512_setr_pdExperimentalavx512f

在 dst 中设置包装的双精度 (64-bit) 浮点元素,并以相反的顺序提供所提供的值。

_mm512_setr_psExperimentalavx512f

dst 中设置包装的 32 位整数,并以相反的顺序提供所提供的值。

_mm512_setzeroExperimentalavx512f

返回 __m512 类型的 vector,所有元素均设置为零。

_mm512_setzero_epi32Experimentalavx512f

返回类型为 __m512i 的 vector,所有元素均设置为零。

_mm512_setzero_pdExperimentalavx512f

返回 __m512d 类型的 vector,所有元素均设置为零。

_mm512_setzero_psExperimentalavx512f

返回 __m512d 类型的 vector,所有元素均设置为零。

_mm512_setzero_si512Experimentalavx512f

返回 __m512i 类型的 vector,所有元素均设置为零。

_mm512_shldi_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并将高 16 位存储在 dst 中)。

_mm512_shldi_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并将高 32 位存储在 dst 中。

_mm512_shldi_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并将高 64 位存储在 dst 中)。

_mm512_shldv_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的对应元素中指定的量,并将高 16 位存储在 dst 中。

_mm512_shldv_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的对应元素中指定的量,并将高 32 位存储在 dst 中。

_mm512_shldv_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的对应元素中指定的量,并将高 64 位存储在 dst 中。

_mm512_shrdi_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并将低 16 位存储在 dst 中。

_mm512_shrdi_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并将低 32 位存储在 dst 中。

_mm512_shrdi_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并将低 64 位存储在 dst 中。

_mm512_shrdv_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的对应元素中指定的量,并将低 16 位存储在 dst 中。

_mm512_shrdv_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的对应元素中指定的量,并将低 32 位存储在 dst 中。

_mm512_shrdv_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的对应元素中指定的量,并将低 64 位存储在 dst 中。

_mm512_shuffle_epi8Experimentalavx512bw

根据 b 的对应 8 位元素中的打乱控制掩码,将 a 中的包装 8 位整数进行打乱,并将结果存储在 dst 中。

_mm512_shuffle_epi32Experimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_shuffle_f32x4Experimentalavx512f

imm8 从 a 和 b 中随机选择 128 位 (由 4 个单精度 (32-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm512_shuffle_f64x2Experimentalavx512f

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm512_shuffle_i32x4Experimentalavx512f

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成),并将结果存储在 dst 中。

_mm512_shuffle_i64x2Experimentalavx512f

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成),并将结果存储在 dst 中。

_mm512_shuffle_pdExperimentalavx512f

使用 imm8 中的控件对 128 位 lane 中的双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_shuffle_psExperimentalavx512f

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_shufflehi_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lane 的高 64 位中,并从 a 到 dst 复制 128 位的 lanes 的低 64 位。

_mm512_shufflelo_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lane 的低 64 位中,并从 a 到 dst 复制 128 位的 lanes 的高 64 位。

_mm512_sll_epi16Experimentalavx512bw

将包装的 16 位整数按计数左移,同时将零移位,并将结果存储在 dst 中。

_mm512_sll_epi32Experimentalavx512f

将包装的 32 位整数左移计数,同时将零移位,并将结果存储在 dst 中。

_mm512_sll_epi64Experimentalavx512f

将填充的 64 位整数左移计数,同时将零移位,并将结果存储在 dst 中。

_mm512_slli_epi16Experimentalavx512bw

将包装的 16 位整数左移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_slli_epi32Experimentalavx512f

将包装的 32 位整数左移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_slli_epi64Experimentalavx512f

将包装的 64 位整数左移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_sllv_epi16Experimentalavx512bw

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并将结果存储在 dst 中。

_mm512_sllv_epi32Experimentalavx512f

将填充的 32 位整数向左移动 count 中相应元素指定的数量,同时向零移动,并将结果存储在 dst 中。

_mm512_sllv_epi64Experimentalavx512f

将填充的 64 位整数向左移动由 count 中相应元素指定的数量,同时向零移动,并将结果存储在 dst 中。

_mm512_sqrt_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sqrt_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sqrt_round_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sqrt_round_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sra_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将符号位移位,并将结果存储在 dst 中。

_mm512_sra_epi32Experimentalavx512f

在移入符号位的同时按计数右移包装的 32 位整数,并将结果存储在 dst 中。

_mm512_sra_epi64Experimentalavx512f

在移动符号位的同时按计数右移包装的 64 位整数,并将结果存储在 dst 中。

_mm512_srai_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm512_srai_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm512_srai_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm512_srav_epi16Experimentalavx512bw

将包装的 16 位整数右移 count 中相应元素指定的数量,同时移入符号位,然后将结果存储在 dst 中。

_mm512_srav_epi32Experimentalavx512f

在将符号位移位的同时,将已包装的 32 位整数右移由 count 中相应元素指定的数量,然后将结果存储在 dst 中。

_mm512_srav_epi64Experimentalavx512f

将移位的 64 位整数向右移动计数中相应元素指定的数量,同时移入符号位,并将结果存储在 dst 中。

_mm512_srl_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将零移位,并将结果存储在 dst 中。

_mm512_srl_epi32Experimentalavx512f

将计数包装的 32 位整数右移,同时将零移位,并将结果存储在 dst 中。

_mm512_srl_epi64Experimentalavx512f

按计数右移包装的 64 位整数,同时将零移位,并将结果存储在 dst 中。

_mm512_srli_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_srli_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_srli_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_srlv_epi16Experimentalavx512bw

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并将结果存储在 dst 中。

_mm512_srlv_epi32Experimentalavx512f

向右移动已包装的 32 位整数,偏移量为计数中相应元素指定的数量,同时向零移动,并将结果存储在 dst 中。

_mm512_srlv_epi64Experimentalavx512f

向右移位包装的 64 位整数 (由 count 中相应元素指定的数量),同时向零移位,并将结果存储在 dst 中。

_mm512_store_epi32Experimentalavx512f

将 a 中的 512 位 (由 16 个包装的 32 位整数组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_epi64Experimentalavx512f

将 a 中的 512 位 (由 8 个包装的 64 位整数组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_pdExperimentalavx512f

将 a 中的 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_psExperimentalavx512f

将 a 中的 512 位整数数据存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_si512Experimentalavx512f

将 a 中的 512 位整数数据存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_storeu_epi8Experimentalavx512bw

将 a 中的 512 位 (由 64 个包装的 8 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_epi16Experimentalavx512bw

将 a 中的 512 位 (由 32 个包装的 16 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_epi32Experimentalavx512f

将 a 中的 512 位 (由 16 个包装的 32 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_epi64Experimentalavx512f

将 a 中的 512 位 (由 8 个包装的 64 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_pdExperimentalavx512f

将来自 a 的 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

_mm512_storeu_si512Experimentalavx512f

将 a 中的 512 位整数数据存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_stream_pdExperimentalavx512f

使用非临时内存提示将 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_stream_psExperimentalavx512f

使用非临时内存提示将 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_stream_si512Experimentalavx512f

使用非临时内存提示将 512 位整数数据从 a 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_sub_epi8Experimentalavx512bw

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm512_sub_epi16Experimentalavx512bw

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_sub_epi32Experimentalavx512f

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm512_sub_epi64Experimentalavx512f

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm512_sub_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_sub_psExperimentalavx512f

从 a 中的包装的单精度 (32-bit) 浮点元素中减去 b 中的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_sub_round_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_sub_round_psExperimentalavx512f

从 a 中的包装的单精度 (32-bit) 浮点元素中减去 b 中的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_subs_epi8Experimentalavx512bw

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号 8 位整数,并将结果存储在 dst 中。

_mm512_subs_epi16Experimentalavx512bw

使用饱和度从 a 中的包装的 16 位整数减去 b 中的包装的有符号 16 位整数,并将结果存储在 dst 中。

_mm512_subs_epu8Experimentalavx512bw

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_subs_epu16Experimentalavx512bw

使用饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm512_ternarylogic_epi32Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每个位,来自 a,b 和 c 的相应位用于形成到 imm8 的 3 位索引,并且将 imm8 中该位的值写入 dst 中的相应位。

_mm512_ternarylogic_epi64Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的对应位。

_mm512_test_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_test_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_test_epi32_maskExperimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_test_epi64_maskExperimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi32_maskExperimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi64_maskExperimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间的 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_undefinedExperimentalavx512f

返回类型为 __m512 的 vector,其中包含未定义的元素。

_mm512_undefined_epi32Experimentalavx512f

返回类型为 __m512i 的 vector,其中包含未定义的元素。

_mm512_undefined_pdExperimentalavx512f

返回带有未定义元素的 __m512d 类型的 vector。

_mm512_undefined_psExperimentalavx512f

返回带有未定义元素的 __m512 类型的 vector。

_mm512_unpackhi_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_epi32Experimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_epi64Experimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_pdExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包并交织双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_unpackhi_psExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_unpacklo_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的下半部分拆包并交织 8 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位 lane 的下半部分拆包并交织 16 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_epi32Experimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_epi64Experimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织 64 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_pdExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解解包并交织双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_unpacklo_psExperimentalavx512f

从 a 和 b 中每个 128 位 lane 的下半部分解压包并交织单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_xor_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 XOR,并将结果存储在 dst 中。

_mm512_xor_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 XOR,并将结果存储在 dst 中。

_mm512_xor_si512Experimentalavx512f

计算 a 和 b 中 512 位 (代表整数数据) 的按位 XOR,并将结果存储在 dst 中。

_mm512_zextpd128_pd512Experimentalavx512f

将类型 __m128d 的 vector 强制转换为 __m512d 类型; 结果的高 384 位被清零。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_zextpd256_pd512Experimentalavx512f

将类型 __m256d 的 vector 强制转换为 __m512d 类型; 结果的高 256 位被清零。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_zextps128_ps512Experimentalavx512f

将类型 __m128 的 vector 转换为 __m512 类型; 结果的高 384 位被清零。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_zextps256_ps512Experimentalavx512f

将类型为 __m256 的 vector 强制转换为类型 __m512; 结果的高 256 位被清零。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_zextsi128_si512Experimentalavx512f

将类型为 __m128i 的 vector 强制转换为类型 __m512i; 结果的高 384 位被清零。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm512_zextsi256_si512Experimentalavx512f

将类型为 __m256i 的 vector 强制转换为类型 __m512i; 结果的高 256 位被清零。此内部函数仅用于编译,不会生成任何指令,因此具有零延迟。

_mm_add_round_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。

_mm_add_round_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。

_mm_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 32 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并将低 16 字节 (4 个元素) 存储在 dst 中。

_mm_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 32 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并将低 16 字节 (2 个元素) 存储在 dst 中。

_mm_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm_broadcastmb_epi64Experimentalavx512cd,avx512vl

将输入掩码 k 的低 8 位广播到 dst 的所有 64 位元素。

_mm_broadcastmw_epi32Experimentalavx512cd,avx512vl

将输入掩码 k 的低 16 位广播到 dst 的所有 32 位元素。

_mm_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装带符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装有符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 64 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmp_round_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cmp_round_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cmp_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmp_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得出小于或等于的结果,并将结果存储在掩码 vector k 中。

_mm_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并将结果存储在掩码 vector k 中。

_mm_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并将结果存储在掩码 vector k 中。

_mm_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得到小于,并将结果存储在掩码 vector k 中。

_mm_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装后的无符号 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_comi_round_sdExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并返回布尔结果 (0 或 1)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_comi_round_ssExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并返回布尔结果 (0 或 1)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_conflict_epi32Experimentalavx512cd,avx512vl

测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_conflict_epi64Experimentalavx512cd,avx512vl

测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_cvt_roundi32_ssExperimentalavx512f

将带符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvt_roundsd_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsd_si32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsi32_ssExperimentalavx512f

将带符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvt_roundss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将上部的元素从 a 复制到 dst 的上部元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvt_roundss_si32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundu32_ssExperimentalavx512f

将无符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvtepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm_cvtepi64_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm_cvtepu32_pdExperimentalavx512f,avx512vl

将 A 中的包装的无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm_cvti32_sdExperimentalavx512f

将带符号的 32 位整数 b 转换为双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_cvti32_ssExperimentalavx512f

将带符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 128 位 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存入 a

_mm_cvtpd_epu32Experimentalavx512f,avx512vl

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvtph_psExperimentalf16c

将 128 位 vector a 的最低 64 位中的 4 x 16 位半精度浮点值转换为存储在 128 位宽的 vector 中的 4 x 32 位浮点值。

_mm_cvtps_epu32Experimentalavx512f,avx512vl

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvtps_phExperimentalf16c

将 128 位 vector a 中的 4 x 32 位浮点值转换为 4 x 16 位半精度浮点值存储在 128 位 vector 的最低 64 位中。

_mm_cvtsd_i32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。

_mm_cvtsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。

_mm_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 A 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm_cvtsepi64_epi8Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtsepi64_epi16Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并将结果存储在 dst 中。

_mm_cvtsepi64_epi32Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并将结果存储在 dst 中。

_mm_cvtss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。

_mm_cvtss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。

_mm_cvtt_roundsd_i32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundsd_si32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundss_si32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvttsd_i32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。

_mm_cvttsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvttss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。

_mm_cvttss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvtu32_sdExperimentalavx512f

将无符号的 32 位整数 b 转换为双精度 (64-bit) 浮点元素,将结果存储在 dst 的低位元素中,然后将 a 的高位元素复制到 dst 的高位元素。

_mm_cvtu32_ssExperimentalavx512f

将无符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装无符号 32 位整数转换为具有无符号饱和度的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 A 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并将结果存储在 dst 中。

_mm_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并将 16 位结果存储在 dst 中。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm_div_round_sdExperimentalavx512f

将 a 中的下部双精度 (64-bit) 浮点元素除以 b 中的下部双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的元素从 a 复制到 dst 的上部元素。

_mm_div_round_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到上部元素 dst。

_mm_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素相加,并将结果存储在 dst 中。

_mm_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用有符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm_fixupimm_round_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_fixupimm_round_ssExperimentalavx512f

使用 c 中的低 32 位整数修复 a 和 b 中的低位单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 a 的高位元素 dst。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_fixupimm_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。imm8 用于设置所需的标志报告。

_mm_fixupimm_ssExperimentalavx512f

使用 c 中的低 32 位整数修复 a 和 b 中的低位单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 a 的高位元素 dst。imm8 用于设置所需的标志报告。

_mm_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,并将中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。

_mm_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中,然后将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。

_mm_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。将结果存入 dst 的下层元素,将 a 的上层元素复制到 dst 的上层元素。

_mm_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后将求和的中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素中。

_mm_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后将取反的中间结果与较低元素 in c. Store 相加,将结果与 dst 的较低元素相乘,然后将较高的 3 个包装的元素从 a 复制到 dst。

_mm_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。将结果存入 dst 的下层元素,将 a 的上层元素复制到 dst 的上层元素。

_mm_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的下部元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到上部 dst 的元素。

_mm_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm_getexp_round_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,将结果存储在 dst 的低位元素中,并将高位元素从 a 复制到 dst 的上层元素。本质上,此内部函数计算下层元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getexp_round_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,将结果存储在 dst 的较低元素中,并从 a 中复制较高的 3 个包装的元素到 dst 的上层元素。本质上,此内部函数计算下层元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getexp_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,将结果存储在 dst 的低位元素中,并将高位元素从 a 复制到 dst 的上层元素。本质上,此内部函数计算下层元素的 floor(log2(x))。

_mm_getexp_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,将结果存储在 dst 的较低元素中,并从 a 中复制较高的 3 个包装的元素到 dst 的上层元素。本质上,此内部函数计算下层元素的 floor(log2(x))。

_mm_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。 此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。 尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值: _MM_MANT_NORM_1_2 // interval [1, 2) _MM_MANT_NORM_p5_2 // interval [0.5, 2) _MM_MANT_NORM_p5_1 // interval [0.5, 1) _MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5) The sign is determined by sc which can take the following values:

_mm_getmant_round_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getmant_round_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getmant_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getmant_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm_load_epi32Experimentalavx512f,avx512vl

将 128 位 (由 4 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_load_epi64Experimentalavx512f,avx512vl

将 128 位 (由 2 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_loadu_epi8Experimentalavx512bw,avx512vl

将 128 位 (由 16 个包装的 8 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_loadu_epi16Experimentalavx512bw,avx512vl

将 128 位 (由 8 个包装的 16 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_loadu_epi32Experimentalavx512f,avx512vl

将 128 位 (由 4 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_loadu_epi64Experimentalavx512f,avx512vl

将 128 位 (由 2 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm_madd52hi_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的高 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm_madd52lo_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的低 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm_mask2_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm_mask2_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm_mask2_permutex2var_epi32Experimentalavx512f,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm_mask2_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm_mask2_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)

_mm_mask2_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的对应选择器和索引在 a 和 b 中的 lanes 中对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 idx 复制元素)。

_mm_mask3_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm_mask3_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm_mask3_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,并将中间结果与较低的元素 in c. Store 的结果相加,使用 writemask k 在 dst 的较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果存储到 dst 较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,并将中间结果与较低的元素 in c. Store 的结果相加,使用 writemask k 在 dst 的较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果存储到 dst 较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fmaddsub_pdExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm_mask3_fmaddsub_psExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm_mask3_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm_mask3_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm_mask3_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask3_fmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask3_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm_mask3_fmsubadd_psExperimentalavx512f,avx512vl

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm_mask3_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm_mask3_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm_mask3_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将取反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fnmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fnmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将取反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 c 复制元素)。

_mm_mask3_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 c 复制元素)。

_mm_mask3_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask3_fnmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fnmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)

_mm_mask_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 writemask k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_epi32Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_add_round_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并从中复制较高的元素。a 到 dst 的高位元素。

_mm_mask_add_round_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时,该元素是从 src 复制的),并复制高位 3 从 a 到 dst 的高位元素。

_mm_mask_add_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并从中复制较高的元素。a 到 dst 的高位元素。

_mm_mask_add_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时,该元素是从 src 复制的),并复制高位 3 从 a 到 dst 的高位元素。

_mm_mask_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并使用写掩码 k 将低 16 个字节存储在 dst 中 (当相应的屏蔽位未置位时,从 src 复制元素)。

_mm_mask_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 32 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 writemask k 将低 16 字节 (4 个元素) 存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 32 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 writemask k 将低 16 字节 (2 个元素) 存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_and_epi32Experimentalavx512f,avx512vl

在包装的 a 和 b 的 32 位整数元素之间执行逐个元素的按位 AND,使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm_mask_blend_epi8Experimentalavx512bw,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm_mask_blend_epi16Experimentalavx512bw,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的 16 位整数,并将结果存储在 dst 中。

_mm_mask_blend_epi32Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm_mask_blend_epi64Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm_mask_blend_pdExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装后的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm_mask_blend_psExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm_mask_broadcastb_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 d 的低包装的 8 位整数广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_broadcastd_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_broadcastq_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_broadcastss_psExperimentalavx512f,avx512vl

使用写掩码 k 将低单精度 (32-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_broadcastw_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_cmp_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。

_mm_mask_cmp_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。

_mm_mask_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否等于或大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果使用零掩码 k1 存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数以得到小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将清零)。

_mm_mask_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm_mask_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm_mask_compress_epi32Experimentalavx512f,avx512vl

将活跃的 32 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm_mask_compress_epi64Experimentalavx512f,avx512vl

将活跃的 64 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm_mask_compress_pdExperimentalavx512f,avx512vl

将活跃的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位在写掩码 k 中设置) 到 dst,并通过 src 中的其余元素。

_mm_mask_compress_psExperimentalavx512f,avx512vl

将活跃的单精度 (32-bit) 浮点元素连续存储在 dst 中 (将其各自的位设置在写掩码 k 中的那些元素中) 存储到 dst,并通过 src 中的其余元素。

_mm_mask_conflict_epi32Experimentalavx512cd,avx512vl

使用写掩码 k (当未设置相应的掩码位时,将从 src 复制元素),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_mask_conflict_epi64Experimentalavx512cd,avx512vl

使用写掩码 k 测试 a 的每个 64 位元素是否与所有其他元素相等 (更接近最低有效位) (当未设置相应的掩码位时,将从 src 复制元素)。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_mask_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_cvt_roundsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_cvt_roundss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将上层元素从 a 复制到 dst 的上层元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi8_epi32Experimentalavx512f,avx512vl

符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 2 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 writemask k 将结果存入 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装后的 16 位整数从 a 扩展为包装后的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi16_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装的 32 位整数在 a 中转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi32_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 32 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带有截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepi64_storeu_epi8Experimentalavx512f,avx512vl

将 a 中包装的 64 位整数转换为包装的 8 位整数并截断,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm_mask_cvtepi64_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi64_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 4 字节到包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 2 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数 a 的低 4 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在单个 vector dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_cvtsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装带符号的 16 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtsepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的有符号 16 位整数转换为有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtsepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtsepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvttps_epi32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的无符号 16 位整数转换为具有无符号饱和的包装的无符号 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的无符号 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cvtusepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm_mask_cvtusepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 64 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中的无符号 8 位整数与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并使用写掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm_mask_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_div_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_div_round_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_div_round_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 时,该元素从 src 复制 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_div_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_div_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 时,该元素从 src 复制 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间的单精度 (32-bit) 浮点元素与 src 中的元素相加,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm_mask_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_expand_epi32Experimentalavx512f,avx512vl

从 a 加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_expand_epi64Experimentalavx512f,avx512vl

从 a 加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_expand_pdExperimentalavx512f,avx512vl

从 a 加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm_mask_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 a 复制元素)。imm8 用于设置所需的标志报告。

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

使用 c 中的较低 32 位整数修复 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_fixupimm_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。

_mm_mask_fixupimm_ssExperimentalavx512f

使用 c 中的较低 32 位整数修复 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。

_mm_mask_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm_mask_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm_mask_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,并使用 writemask k 将中间结果添加到 dst 较低元素中的较低元素 in c. Store 的结果 (当未使用掩码位 0 时从 a 复制该元素) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果添加到 dst 较低元素中 (当未使用 mask bit 0 时从 a 复制该元素设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fmadd_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,并使用 writemask k 将中间结果添加到 dst 较低元素中的较低元素 in c. Store 的结果 (当未使用掩码位 0 时从 a 复制该元素) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果添加到 dst 较低元素中 (当未使用 mask bit 0 时从 a 复制该元素设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm_mask_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm_mask_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm_mask_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm_mask_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 a 复制该元素),然后将 a 的上部元素复制到 dst 的上部元素。

_mm_mask_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 a 复制该元素),并将 a 上的 3 个包装的元素从 a 复制到 dst 的上层元素。

_mm_mask_fmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 a 复制该元素),然后将 a 的上部元素复制到 dst 的上部元素。

_mm_mask_fmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_mask_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm_mask_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm_mask_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm_mask_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm_mask_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 a 复制 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时,该元素是从 a 复制的 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fnmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 a 复制 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fnmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时,该元素是从 a 复制的 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm_mask_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当当未设置相应的掩码位时,将从 a 复制元素)。

_mm_mask_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高位元素从 a 复制到 dst 的高位元素。

_mm_mask_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_mask_fnmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高位元素从 a 复制到 dst 的高位元素。

_mm_mask_fnmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_mask_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm_mask_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm_mask_getexp_round_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置屏蔽位 0 时),然后将 a 的高位元素复制到 dst 的高位元素。本质上,此内部函数计算下层元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getexp_round_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置掩码位 0 时),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内部函数计算下层元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getexp_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置屏蔽位 0 时),然后将 a 的高位元素复制到 dst 的高位元素。本质上,此内部函数计算下层元素的 floor(log2(x))。

_mm_mask_getexp_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置掩码位 0 时),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内部函数计算下层元素的 floor(log2(x))。

_mm_mask_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_mask_getmant_psExperimentalavx512f,avx512vl

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_mask_getmant_round_sdExperimentalavx512f

标准化 b 中下部双精度 (64-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getmant_round_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制高 3 从 a 到 dst 的上层元素的包装的元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getmant_sdExperimentalavx512f

标准化 b 中下部双精度 (64-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getmant_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制高 3 从 a 到 dst 的上层元素的包装的元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_mask_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_mask_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm_mask_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 writemask k 将结果打包到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并使用写掩码 k 将饱和结果包装到 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_max_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的元素从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_max_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_max_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的元素从 a 到 dst 的高位元素。

_mm_mask_max_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。

_mm_mask_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_min_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制较高的元素从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_min_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_min_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制较高的元素从 a 到 dst 的高位元素。

_mm_mask_min_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。

_mm_mask_mov_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 32 位整数从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 64 位整数从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_pdExperimentalavx512f,avx512vl

使用写掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_psExperimentalavx512f,avx512vl

使用写掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移动到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_move_sdExperimentalavx512f

使用写掩码 k 将低位双精度 (64-bit) 浮点元素从 b 移到 dst 的低位元素 (当未设置掩码位 0 时从 src 复制该元素),并将高位元素从 a 复制到 a 的高位元素 dst。

_mm_mask_move_ssExperimentalavx512f

使用写掩码 k 将低位单精度 (32-bit) 浮点元素从 b 移到 dst 的低位元素 (当未设置掩码位 0 时从 src 复制该元素),并将高 3 个包装的元素从 a 复制到高位 dst 的元素。

_mm_mask_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并使用写掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用写掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mul_round_sdExperimentalavx512f

将 a 和 b 中的下部双精度 (64-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并从中复制上部元素。a 到 dst 的高位元素。

_mm_mask_mul_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制包装后的高 3 位元素从 a 到 dst 的高位元素。

_mm_mask_mul_sdExperimentalavx512f

将 a 和 b 中的下部双精度 (64-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并从中复制上部元素。a 到 dst 的高位元素。

_mm_mask_mul_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制包装后的高 3 位元素从 a 到 dst 的高位元素。

_mm_mask_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 writemask k 将位 [16:1] 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用写掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用写掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 writemask k (元素当相应的屏蔽位未设置时,从 src 复制)。

_mm_mask_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 的双精度 (64-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 的单精度 (32-bit) 浮点元素打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm_mask_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_psExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 a 和 b 中的 lanes 上对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨 lanes 的 a 中打乱 8 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm_mask_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm_mask_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm_mask_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm_mask_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rcp14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 x 元素从 a 到 dst 的高位元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_rcp14_ssExperimentalavx512f

计算 b 中下部单精度 (32-bit) 浮点元素的近似倒数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 对应元素 b 中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的对应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_ror_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_ror_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的对应元素中指定的位数,然后使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_roundscale_pdExperimentalavx512f,avx512vl

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_psExperimentalavx512f,avx512vl

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入为 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将上层元素从 a 复制到 dst 的上层元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入为 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将上层元素从 a 复制到 dst 的上层元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rsqrt14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似平方根,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制从 a 到 dst 的上元素的上元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_rsqrt14_ssExperimentalavx512f

计算 b 中较低单精度 (32-bit) 浮点元素的近似倒数平方根,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制从 a 到 dst 的高位元素的前 3 个包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_scalef_round_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_scalef_round_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素 (未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_scalef_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_scalef_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素 (未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_set1_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_set1_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 向 dst 的所有元素广播 16 位整数 a (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_set1_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_set1_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 writemask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 writemask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 writemask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 writemask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 writemask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 writemask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shuffle_epi8Experimentalavx512bw,avx512vl

使用 b 中相应的 8 位元素中的控件在 128 位 lane 内对 a 中的 8 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件将 128 位 lane 中的 32 位整数随机排列,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位 lane 中的双精度 (64-bit) 浮点元素进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件 shuffle a 中的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的高 64 位中,将 128 位 lanes 的低 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的低 64 位中,128 位 lanes 的高 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sll_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数向左移动 imm8,同时向零移动,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sllv_epi32Experimentalavx512f,avx512vl

将填充的 32 位整数向左移动计数中相应元素指定的数量,同时将其移位为零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sllv_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数向左移动 count 中相应元素指定的数量,同时将其移位为零,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sqrt_round_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_sqrt_round_ssExperimentalavx512f

计算 b 中下部单精度 (32-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_sqrt_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_sqrt_ssExperimentalavx512f

计算 b 中下部单精度 (32-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srl_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srlv_epi32Experimentalavx512f,avx512vl

向右移动包装的 32 位整数整数 (由 count 中相应元素指定的数量),同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_sub_round_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时,该元素是从 src 复制的 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_sub_round_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素减去 b 中的较低单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_sub_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时,该元素是从 src 复制的 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_sub_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素减去 b 中的较低单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 8 位整数减去 b 中的包装 8 位有符号整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每一位,使用 src、a、b 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 writemask k 在 32 位粒度 (当相应的掩码位未设置时,从 src 复制 32 位元素)。

_mm_mask_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 src、a、b 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 writemask k 在 64 位粒度 (当相应的掩码位未设置时,从 src 复制 64 位元素)。

_mm_mask_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包并交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_maskz_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 zeromask k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_round_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从 a 中复制较高的元素到 dst 的上层元素。

_mm_maskz_add_round_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素归零),并复制较高的 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_add_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从 a 中复制较高的元素到 dst 的上层元素。

_mm_maskz_add_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素归零),并复制较高的 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 imm8 字节,并使用零掩码 k 将低 16 字节存储在 dst 中 (当未设置相应的掩码位时,元素将被清零))。

_mm_maskz_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成 32 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 zeromask k 将低 16 字节 (4 个元素) 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 32 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 zeromask k 将低 16 字节 (2 个元素) 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_and_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后计算 b 中的 AND,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_broadcastb_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 8 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_broadcastd_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_broadcastq_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_broadcastss_psExperimentalavx512f,avx512vl

使用零掩码 k 将低单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_broadcastw_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm_maskz_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm_maskz_compress_epi32Experimentalavx512f,avx512vl

将活跃的 32 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm_maskz_compress_epi64Experimentalavx512f,avx512vl

将活跃的 64 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm_maskz_compress_pdExperimentalavx512f,avx512vl

将活跃的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm_maskz_compress_psExperimentalavx512f,avx512vl

将活跃的单精度 (32-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm_maskz_conflict_epi32Experimentalavx512cd,avx512vl

使用零掩码 k (当未设置相应的掩码位时,元素将被清零),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_maskz_conflict_epi64Experimentalavx512cd,avx512vl

使用零掩码 k (当未设置相应的掩码位时,元素将被清零),测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_maskz_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_cvt_roundsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_cvt_roundss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将上层元素从 a 复制到 dst 的上层元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi8_epi32Experimentalavx512f,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 2 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数 a 的后 4 个字节到包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 2 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数在 a 的低 4 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在单个 vector dst 中 (当对应的掩码位不存在时,元素归零放)。

_mm_maskz_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_cvtsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm_maskz_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 64 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvttps_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs) 的总和,并使用零掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。对于每个 64 位 lane,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中 lane 的低 8 位四元组,而后两个 SAD 使用 a 中 lane 的较高 8 位四元组。根据 imm8 中的控件,从 128 位 lane 中选择 b 中的四元组,并且每个 64 位 lanes 中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm_maskz_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_div_psExperimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_div_round_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 为 0 时,该元素归零 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_div_round_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 为 0 时,该元素清零) (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_div_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 为 0 时,该元素归零 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_div_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 为 0 时,该元素清零) (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存储在 dst 中使用 zeromask k (当对应的掩码为位未设置)。

_mm_maskz_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果使用 zeromask k 存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数用带符号饱和求和,并将包装的 32 位结果用 zeromask k 存储在 dst 中 (当对应的掩码位未设置时,元素被清零)。

_mm_maskz_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_expand_epi32Experimentalavx512f,avx512vl

从 a 中加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_expand_epi64Experimentalavx512f,avx512vl

从 a 中加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_expand_pdExperimentalavx512f,avx512vl

从 a 中加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

_mm_maskz_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。imm8 用于设置所需的标志报告。

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当不使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

使用 c 中的较低 32 位整数固定 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当未使用掩码 bit 0 时该元素被清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_fixupimm_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当不使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。

_mm_maskz_fixupimm_ssExperimentalavx512f

使用 c 中的较低 32 位整数固定 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当未使用掩码 bit 0 时该元素被清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。

_mm_maskz_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的结果加到 dst 较低元素中 (当未设置掩码位 0 时该元素归零) ),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的中间结果相加到 dst 较低元素中 (未设置掩码位 0 时该元素归零) ),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fmadd_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的结果加到 dst 较低元素中 (当未设置掩码位 0 时该元素归零) ),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的中间结果相加到 dst 较低元素中 (未设置掩码位 0 时该元素归零) ),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当掩码位 0 未设置时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,元素被清零),并将上层 3 个包装的元素从 a 复制到 dst 的上层元素。

_mm_maskz_fmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当掩码位 0 未设置时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,元素被清零),并将上层 3 个包装的元素从 a 复制到 dst 的上层元素。

_mm_maskz_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fnmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fnmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 中 (当未设置掩码位 0 时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,元素被清零),并将上层 3 个包装的元素从 a 复制到 dst 的上层元素。

_mm_maskz_fnmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 中 (当未设置掩码位 0 时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fnmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,元素被清零),并将上层 3 个包装的元素从 a 复制到 dst 的上层元素。

_mm_maskz_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm_maskz_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。本质上,此内部函数为每个元素计算 floor(log2(x))。

_mm_maskz_getexp_round_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),然后将较高的元素从 a 复制到 dst 的较高的元素。本质上,此内部函数计算下层元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getexp_round_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内部函数计算下层元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getexp_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),然后将较高的元素从 a 复制到 dst 的较高的元素。本质上,此内部函数计算下层元素的 floor(log2(x))。

_mm_maskz_getexp_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内部函数计算下层元素的 floor(log2(x))。

_mm_maskz_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_maskz_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后从中复制较高元素。a 到 dst 的高位元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后复制高位 3 从 a 到 dst 的高位元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getmant_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后从中复制较高元素。a 到 dst 的高位元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getmant_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后复制高位 3 从 a 到 dst 的高位元素。此内部函数本质上计算 ±(2^k)*|x.significand|,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_maskz_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_maskz_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm_maskz_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 zeromask k 将结果打包到 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平添加相邻的一对中间有符号 16 位整数,并使用 zeromask k 将饱和结果打包到 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_max_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_max_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_max_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。

_mm_maskz_max_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。

_mm_maskz_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_min_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_min_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_min_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。

_mm_maskz_min_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。

_mm_maskz_mov_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mov_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mov_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 32 位整数从 a 移至 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mov_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 64 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mov_pdExperimentalavx512f,avx512vl

使用零掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mov_psExperimentalavx512f,avx512vl

使用零掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_move_sdExperimentalavx512f

使用零掩码 k 将较低的双精度 (64-bit) 浮点元素从 b 移动到 dst 的较低元素 (未设置掩码位 0 时将该元素清零),然后将较高的元素从 a 复制到 dst 的较高元素。

_mm_maskz_move_ssExperimentalavx512f

使用零掩码 k 将较低的单精度 (32-bit) 浮点元素从 b 移动到 dst 的较低元素 (未设置掩码位 0 时将该元素清零),然后将较高的 3 个包装的元素从 a 复制到较高的元素 dst。

_mm_maskz_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低位有符号 32 位整数相乘,并使用零掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用零掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_round_sdExperimentalavx512f

将 a 和 b 中的低位双精度 (64-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时该元素归零),然后从 a 中复制高位元素到 dst 的上层元素。

_mm_maskz_mul_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_mul_sdExperimentalavx512f

将 a 和 b 中的低位双精度 (64-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时该元素归零),然后从 a 中复制高位元素到 dst 的上层元素。

_mm_maskz_mul_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 zeromask k 将位 [16:1] 存储到 dst (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用零掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 zeromask k (元素当相应的屏蔽位未设置时被清零)。

_mm_maskz_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 中的双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位 lane 内将 a 的单精度 (32-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 32 位整数进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 64 位整数进行混洗,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_pdExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引将 a 和 b 中的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨 lanes 的 a 中打乱 8 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm_maskz_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm_maskz_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm_maskz_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm_maskz_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rcp14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后复制较高元素从 a 到 dst 的高位元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rcp14_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的近似倒数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素归零),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_ror_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_ror_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_roundscale_pdExperimentalavx512f,avx512vl

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_psExperimentalavx512f,avx512vl

将 a 中包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上一个元素从 a 复制到 dst 的上一个元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入为 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上面的 3 个包装的元素从 a 复制到 dst 的上面的元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上一个元素从 a 复制到 dst 的上一个元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入为 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上面的 3 个包装的元素从 a 复制到 dst 的上面的元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中的包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rsqrt14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后复制从 a 到 dst 的上元素的上元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rsqrt14_ssExperimentalavx512f

计算 b 中较低单精度 (32-bit) 浮点元素的近似倒数平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素归零),然后复制从 a 到 dst 的上层元素的上 3 个包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_scalef_round_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_scalef_round_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_scalef_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_scalef_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_set1_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_set1_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_set1_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_set1_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 16 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 32 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 64 位存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shuffle_epi8Experimentalavx512bw,avx512vl

根据 b 的相应 8 位元素中的打乱控制掩码对 a 中的包装 8 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位 lane 中的 32 位整数中混洗 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位 lane 内的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件对 a 中的单精度 (32-bit) 浮点元素进行打乱,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的高 64 位中,将 128 位 lanes 的低 64 位从 a 复制到 dst,使用 zeromask k (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位 lane 的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位 lanes 的低 64 位中,128 位 lanes 的高 64 位从 a 复制到 dst,使用 writemask k (当未设置相应的掩码位时,将从 src 复制元素)。

_mm_maskz_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sll_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移由 count 中的相应元素指定的数量,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sllv_epi32Experimentalavx512f,avx512vl

在将移位的 32 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sllv_epi64Experimentalavx512f,avx512vl

在将移位的 64 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sqrt_round_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_sqrt_round_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制高 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_sqrt_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_sqrt_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制高 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移由 count 中的相应元素指定的数量,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数右移由 count 中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srl_epi32Experimentalavx512f,avx512vl

将移位的 32 位整数右移,同时移零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移计数,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srlv_epi32Experimentalavx512f,avx512vl

向右移动已包装的 32 位整数,偏移量为相应元素在计数中指定的数量,同时向零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时移位为零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_round_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_sub_round_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素中减去 b 中的较低单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_sub_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_sub_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素中减去 b 中的较低单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 32 位粒度的 zeromask k (当未设置相应的掩码位时,32 位元素会被清零)。

_mm_maskz_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位,使用 64 位粒度的 zeromask k (当未设置相应的掩码位时,64 位元素将被清零)。

_mm_maskz_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位 lane 的下半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最大值存储在 dst 中。

_mm_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最大值存储在 dst 中。

_mm_max_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,将最大值存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_max_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,将最大值存储在 dst 的较低元素中,并将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最小值存储在 dst 中。

_mm_min_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,将最小值存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_min_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,将最小值存储在 dst 的较低元素中,并将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_movepi8_maskExperimentalavx512bw,avx512vl

根据 a 中相应包装的 8 位整数的最高有效位设置掩码寄存器 k 的每个位。

_mm_movepi16_maskExperimentalavx512bw,avx512vl

根据 a 中相应的包装的 16 位整数的最高有效位设置掩码寄存器 k 的每一位。

_mm_movm_epi8Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 8 位整数设置为全 1 或全 0。

_mm_movm_epi16Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 16 位整数设置为全 1 或全 0。

_mm_mul_round_sdExperimentalavx512f

将 a 和 b 中的下部双精度 (64-bit) 浮点元素相乘,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_mul_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并将 8 个组装字节存储到 dst 的相应 64 位元素。

_mm_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并将结果存储在 dst 中。

_mm_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并将结果存储在 dst 中。

_mm_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨 lanes 打乱,并将结果存储在 dst 中。

_mm_permutex2var_epi16Experimentalavx512bw,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 lanes 中的 a 和 b 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm_permutex2var_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在 lanes 中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引将 a 中的 8 位整数打乱到 lanes 中,并将结果存储在 dst 中。

_mm_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨 lanes 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm_rcp14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_rcp14_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的近似倒数,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_rol_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm_rol_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_ror_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并将结果存储在 dst 中。

_mm_ror_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_roundscale_pdExperimentalavx512f,avx512vl

将 a 中包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_round_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_round_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_rsqrt14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数平方根,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_rsqrt14_ssExperimentalavx512f

计算 b 中较低单精度 (32-bit) 浮点元素的近似倒数平方根,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm_scalef_round_sdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_scalef_round_ssExperimentalavx512f

使用 b 中的值缩放 a 中的包装的单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_scalef_sdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_scalef_ssExperimentalavx512f

使用 b 中的值缩放 a 中的包装的单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并将高 16 位存储在 dst 中)。

_mm_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并将高 32 位存储在 dst 中。

_mm_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并将高 64 位存储在 dst 中)。

_mm_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的对应元素中指定的量,并将高 16 位存储在 dst 中。

_mm_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的对应元素中指定的量,并将高 32 位存储在 dst 中。

_mm_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的对应元素中指定的量,并将高 64 位存储在 dst 中。

_mm_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并将低 16 位存储在 dst 中。

_mm_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并将低 32 位存储在 dst 中。

_mm_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并将低 64 位存储在 dst 中。

_mm_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的对应元素中指定的量,并将低 16 位存储在 dst 中。

_mm_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的对应元素中指定的量,并将低 32 位存储在 dst 中。

_mm_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的对应元素中指定的量,并将低 64 位存储在 dst 中。

_mm_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并将结果存储在 dst 中。

_mm_sqrt_round_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的平方根,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。

_mm_sqrt_round_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的平方根,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。

_mm_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时按计数右移包装的 64 位整数,并将结果存储在 dst 中。

_mm_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时移入符号位,然后将结果存储在 dst 中。

_mm_srav_epi64Experimentalavx512f,avx512vl

将移位的 64 位整数向右移动计数中相应元素指定的数量,同时移入符号位,并将结果存储在 dst 中。

_mm_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并将结果存储在 dst 中。

_mm_store_epi32Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 4 个包装的 32 位整数组成) 存储到内存中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_store_epi64Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 2 个包装的 64 位整数组成) 存储到内存中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的 128 位 (由 16 个包装的 8 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_storeu_epi16Experimentalavx512bw,avx512vl

将 a 中的 128 位 (由 8 个包装的 16 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 4 个包装的 32 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_storeu_epi64Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 2 个包装的 64 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_sub_round_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。

_mm_sub_round_ssExperimentalavx512f

从 a 中的下部单精度 (32-bit) 浮点元素中减去 b 中的下部单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到上部元素 dst。

_mm_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每个位,来自 a,b 和 c 的相应位用于形成到 imm8 的 3 位索引,并且将 imm8 中该位的值写入 dst 中的相应位。

_mm_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 64 位整数中的每一位,使用 a、b、c 中对应的位构成 imm8 的 3 位索引,并将 imm8 中该位的值写入 dst 中的对应位。

_mm_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间的 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并将结果存储在 dst 中。

_mm_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并将结果存储在 dst 中。

_store_mask32Experimentalavx512bw

将 32 位掩码从 a 存储到内存中。

_store_mask64Experimentalavx512bw

将 64 位掩码从 a 存储到内存中。

_xabortExperimentalrtm

强制将受限制的事务内存 (RTM) 区域终止。 Intel’s documentation.

_xabort_codeExperimental

_xbegin 的状态设置为 _XABORT_EXPLICIT 标志时,检索传递给 _xabort 的参数。

_xbeginExperimentalrtm

指定受限制的事务性存储器 (RTM) 代码区域的开始,并返回一个指示状态的值。

_xendExperimentalrtm

指定受限制的事务性存储器 (RTM) 代码区域的结尾。 Intel’s documentation.

_xtestExperimentalrtm

查询处理器是在由受限事务存储器 (RTM) 还是硬件锁定扩展 (HLE) 标识的事务区域中执行。

has_cpuidExperimental

主机是否支持 cpuid 指令?

ud2Experimental

生成陷阱指令 UD2

将由 4 行 __m128 组成的 4x4 矩阵转置到位。

返回给定 leaf (EAX) 和 sub_leaf (ECX) 的 cpuid 指令的结果。

返回最高支持的 leaf (EAX) 和子叶 (ECX) cpuid 值。

读取处理器时间戳计数器和 IA32_TSC_AUX MSR 的当前值。

将无符号的 32 位整数 ab 与无符号的 8 位进位 c_in (进位标志) 相加,并将无符号的 32 位结果存储在 out 中,并返回进位 (进位或溢出标志)。

将无符号的 32 位整数 ab 与无符号的 8 位进位 c_in (进位或溢出标志) 相加,并将无符号的 32 位结果存储在 out 中,并返回进位 (进位或溢出标志)。

ab 的按位逻辑 AND

control 指定的 a 的位提取到结果的最低有效位中。

a 提取范围为 [start,start + length) 的位到结果的最低有效位。

返回由 p 寻址的存储器的位置 b 中的位。

返回由 p 寻址的存储器的位置 b 中的位,然后将该位取反。

返回由 p 寻址的存储器的位置 b 中的位,然后将该位重置为 0

返回由 p 寻址的存储器的位置 b 中的位,然后将该位设置为 1

清除 x 的最低有效零位以下的所有位。

清除 x 的最低有效零位以下的所有位。

x 的所有位 (最低有效零位除外) 设置为 1。

x 的所有位 (最低有效零位除外) 设置为 1。

设置 x 的最低有效零位并清除所有其他位。

设置 x 的最低有效零位并清除所有其他位。

设置 x 的最低有效零位,并清除该位上方的所有位。

设置 x 的最低有效零位,并清除该位上方的所有位。

设置 x 的最低有效零位。

设置 x 的最低有效零位。

x 的所有位设置在最低有效位以下。

x 的所有位设置在最低有效位以下。

提取最低位隔离位。

清除最低有效位并设置所有其他位。

清除最低有效位并设置所有其他位。

将掩码提高到最低设置位。

复位 x 的最低位。

返回整数,其字节顺序为 x

a >= index 的高位清零。

从以下位置恢复 XMMMMXMXCSRx87 FPU 寄存器 512 字节长,16 字节对齐的内存区域 mem_addr

x87 FPU,MMX 技术,XMMMXCSR 寄存器保存到 512 字节长,16 字节对齐的内存区域 mem_addr

计算前导最高有效零位。

计算 a 中包装的 8 位整数的绝对值。

计算 a 中包装的 16 位整数的绝对值。

计算 a 中包装的 32 位整数的绝对值。

ab 中添加包装的 8 位整数。

ab 中添加包装的 16 位整数。

ab 中添加包装的 32 位整数。

ab 中添加包装的 64 位整数。

ab 中添加包装的双精度 (64-bit) 浮点元素。

ab 中添加包装的单精度 (32-bit) 浮点元素。

使用饱和度在 ab 中添加包装的 8 位整数。

使用饱和度在 ab 中添加包装的 16 位整数。

使用饱和度在 ab 中添加包装的无符号 8 位整数。

使用饱和度在 ab 中添加包装的无符号 16 位整数。

或者,将a中的包装双精度 (64 位) 浮点元素与b中的包装元素进行加减。

或者,将a中的包装的单精度 (32 位) 浮点元素与b中的包装的元素进行加减。

ab 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 n 字节,然后返回低 16 字节。

计算 ab 中包装的双精度 (64-bit) 浮点元素的按位与。

计算 ab 中包装的单精度 (32-bit) 浮点元素的按位与。

计算 ab 中 256 位 (代表整数数据) 的按位与。

计算 a 中包装的双精度 (64-bit) 浮点元素的按位 NOT,然后计算 b 的 AND。

计算 a 中包装的单精度 (32-bit) 浮点元素的按位非,然后计算 b 的 AND。

计算 a 中 256 位 (代表整数数据) 的按位非,然后计算 b 的与。

ab 中的包装无符号 8 位整数的平均值。

ab 中的包装无符号 16 位整数的平均值。

使用控制掩码 IMM8 混合包装来自 ab 的 16 位整数。

使用控制掩码 IMM8 混合来自 ab 的包装的 32 位整数。

使用控制掩码 imm8 混合来自 ab 的包装后的双精度 (64-bit) 浮点元素。

使用控制掩码 imm8 混合来自 ab 的包装的单精度 (32-bit) 浮点元素。

使用 mask 混合来自 ab 的包装的 8 位整数。

使用 c 作为掩码,混合来自 ab 的包装后的双精度 (64-bit) 浮点元素。

使用 c 作为掩码,混合来自 ab 的包装的单精度 (32-bit) 浮点元素。

将内存中的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 广播到返回的 vector 的所有元素。

从内存 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 向广播的 vector 的所有元素广播 128 位。

从内存向返回的 vector 的所有元素广播双精度 (64-bit) 浮点元素。

从内存向返回的 vector 的所有元素广播单精度 (32-bit) 浮点元素。

a 的低位包装 8 位整数广播到 256 位返回值的所有元素。

a 的低位包装 32 位整数广播到 256 位返回值的所有元素。

a 的低位包装 64 位整数广播到 256 位返回值的所有元素。

将低双精度 (64-bit) 浮点元素从 a 广播到 256 位返回值的所有元素。

从 a 广播 128 位整数数据到 256 位返回值中的所有 128 位 lanes。

将低单精度 (32-bit) 浮点元素从 a 广播到 256 位返回值的所有元素。

将低位包装的 16 位整数从 a 广播到 256 位返回值的所有元素

a 中的 128 位 lanes 向左移 imm8 字节,同时向零移位。

a 中的 128 位 lanes 右移 imm8 字节,同时将其移位为零。

将类型 __m128d 的 vector 转换为 __m256d 类型; 结果的高 128 位未定义。

将类型为 __m256d 的 vector 强制转换为类型为 __m128d 的 vector。

将类型为 __m256d 的 vector 强制转换为类型为 __m256 的 vector。

将类型为 __m256d 的 vector 强制转换为类型为 __m256i 的 vector。

将类型 __m128 的 vector 转换为 __m256 类型; 结果的高 128 位未定义。

将类型为 __m256 的 vector 强制转换为类型为 __m128 的 vector。

将类型为 __m256 的 vector 强制转换为类型为 __m256d 的 vector。

将类型为 __m256 的 vector 强制转换为类型为 __m256i 的 vector。

将类型为 __m128i 的 vector 强制转换为类型 __m256i; 结果的高 128 位未定义。

将类型为 __m256i 的 vector 强制转换为类型为 __m256d 的 vector。

将类型为 __m256i 的 vector 强制转换为类型为 __m256 的 vector。

将类型为 __m256i 的 vector 强制转换为类型为 __m128i 的 vector。

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为正无穷大。

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为正无穷大。

根据 IMM5 指定的比较操作数比较 ab 中包装的双精度 (64-bit) 浮点元素。

根据 IMM5 指定的比较操作数比较 ab 中包装的单精度 (32-bit) 浮点元素。

比较 ab 中的包装 8 位整数是否相等。

比较 ab 中的包装的 16 位整数是否相等。

比较 ab 中的包装 32 位整数是否相等。

比较 ab 中的包装 64 位整数是否相等。

比较 ab 中的包装的 8 位整数是否大于。

比较 ab 中的包装的 16 位整数是否大于。

比较 ab 中的包装的 32 位整数是否大于。

比较 ab 中的包装 64 位整数是否大于。

将 8 位整数符号扩展为 16 位整数。

将 8 位整数符号扩展为 32 位整数。

将 8 位整数符号扩展为 64 位整数。

将 16 位整数符号扩展为 32 位整数。

将 16 位整数符号扩展为 64 位整数。

将 32 位整数符号扩展为 64 位整数。

a 中的包装的 32 位整数转换为包装的双精度 (64-bit) 浮点元素。

a 中的包装的 32 位整数转换为包装的单精度 (32-bit) 浮点元素。

a 中的无符号 8 位整数零扩展为 16 位整数。

a 中的低八位无符号 8 位整数零扩展为 32 位整数。 a 的前八个元素未使用。

a 中的低四位无符号 8 位整数零扩展到 64 位整数。 a 的前十二个元素未使用。

零将 a 中的包装的无符号 16 位整数扩展为包装的 32 位整数,并将结果存储在 dst 中。

a 中的低四位无符号 16 位整数零扩展到 64 位整数。 a 的前四个元素未使用。

a 中的无符号 32 位整数零扩展为 64 位整数。

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数。

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素。

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数。

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素。

返回 [4 x double] 的输入 vector 的第一个元素。

返回 [8 x i32] 的输入 vector 的第一个元素。

返回 [8 x float] 的输入 vector 的第一个元素。

a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数。

a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数。

计算 a 中的 4 个包装的 64 位浮点元素中的每一个除以 b 中相应的封装元素的除法。

计算 a 中的 8 个包装的 32 位浮点元素中的每一个除以 b 中相应的封装元素的除法。

使用 imm8 的高 4 位有条件地将 ab 中的包装的单精度 (32-bit) 浮点元素相乘,对四个乘积求和,并使用 imm8 的低 4 位有条件地返回总和。

a 中提取一个 8 位整数,用 INDEX 选择。 返回包含零扩展整数数据的 32 位整数。 See LLVM commit D20468.

a 中提取一个 16 位整数,用 INDEX 选择。 返回包含零扩展整数数据的 32 位整数。 See LLVM commit D20468.

a 中提取一个 32 位整数,用 INDEX 选择。

a 提取 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成),并使用 imm8 进行选择。

a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 选择。

a 中提取 128 位 (由整数数据组成),并用 imm8 选择。

IMM1 选择的 a 中提取 128 位 (整数数据)。

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为负无穷大。

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为负无穷大。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并将中间结果与 c 中的包装的元素相加。

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将中间结果添加到 c 中的包装元素中。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,或者在 c to/from 中将包装的元素相加或减去中间结果。

ab 中包装的单精度 (32-bit) 浮点元素相乘,或者将 c 中包装的元素加/减到中间结果中。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装的双精度元素。

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装元素。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,也可以从中间结果中减去或加上 c 中的包装元素。

ab 中的包装单精度 (32-bit) 浮点元素相乘,或者将 c 中的包装元素从中间结果中减去或加上。

ab 中的包装双精度 (64-bit) 浮点元素相乘,然后将取反的中间结果添加到 c 中的包装元素中。

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将取反的中间结果添加到 c 中的包装元素中。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

ab 中水平添加相邻的 16 位整数对。

ab 中水平添加相邻的 32 位整数对。

在 4 个 64 位浮点 ab 的两个包装的 vectors 中水平相加相邻对。 结果,来自 a 的元素之和在偶数位置返回,而来自 b 的元素之和在奇数位置返回。

在 8 个 32 位浮点 ab 的两个包装的 vectors 中水平相加相邻对。 结果,来自 a 的元素之和返回到索引 0、1、4、5 的位置; 而 b 中的元素总和是位置

使用饱和度在 ab 中水平添加相邻的 16 位整数对。

水平减去 ab 中相邻的 16 位整数对。

水平减去 ab 中相邻的 32 位整数对。

在 4 个 64 位浮点 ab 的两个包装的 vectors 中对相邻对进行水平减法。 结果,来自 a 的元素之和在偶数位置返回,而来自 b 的元素之和在奇数位置返回。

将 8 个 32 位浮点 ab 的两个包装的 vectors 中的相邻对进行水平减法。 结果,来自 a 的元素之和返回到索引 0、1、4、5 的位置; 而 b 中的元素总和是位置

使用饱和度水平减去 ab 中相邻的 16 位整数对。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应为 1、2、4 和 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

复制 a 到结果,并在 index 指定的位置将 8 位整数 i 插入到结果中。

复制 a 到结果,并在 index 指定的位置将 16 位整数 i 插入到 result 中。

复制 a 到结果,然后在 index 指定的位置将 32 位整数 i 插入到结果中。

a 复制到结果中,然后将 b 中的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 插入 imm8 指定的位置的结果中。

a 复制到结果中,然后将 b 中的 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 imm8 指定的位置的结果中。

复制 a 到结果,然后将 b 中的 128 位插入到 imm8 指定的位置的结果中。

a 复制到 dst,然后在 IMM1 指定的位置插入来自 b 的 128 位 (整数数据)。

从未对齐的内存中将 256 位整数数据加载到结果中。 当数据越过高速缓存行边界时,此内部函数的性能可能比 _mm256_loadu_si256 更好。

从内存中将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 加载到结果中。

从内存中将 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 加载到结果中。

从内存中将 256 位整数数据加载到结果中。 mem_addr 必须在 32 字节边界上对齐,否则可能会产生一个一般的保护异常。

从内存中加载两个 128 位值 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并将它们组合为 256 位值。

从内存中加载两个 128 位值 (由 2 个包装的双精度 (64-bit) 浮点元素组成),并将它们组合为 256 位值。

从内存中加载两个 128 位值 (由整数数据组成),并将它们组合为 256 位值。 hiaddrloaddr 不需要在任何特定边界上对齐。

从内存中将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 加载到结果中。

从内存中将 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 加载到结果中。

从内存中将 256 位整数数据加载到结果中。 mem_addr 不需要在任何特定边界上对齐。

ab 中包装的带符号的 16 位整数相乘,产生中间的带符号的 32 位整数。 水平添加相邻的中间 32 位整数对。

a 中的每个无符号 8 位整数与 b 中的相应带符号 8 位整数垂直相乘,生成中间带符号的 16 位整数。 水平相加相邻的中间带符号的 16 位整数对

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

使用 maskmem_addr 指向的内存中加载包装的 32 位整数 (当未在相应元素中设置最高位时,元素清零)。

使用 maskmem_addr 指向的内存中加载包装的 64 位整数 (当未在相应元素中设置最高位时,元素清零)。

使用 mask 将包装的双精度 (64-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

使用 mask 将包装的单精度 (32-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

使用 maska 中的包装后的 32 位整数存储到 mem_addr 指向的内存中 (当在相应元素中未设置最高位时,不存储元素)。

使用 maska 中的包装 64 位整数存储到 mem_addr 指向的内存中 (当未在相应元素中设置最高位时,不存储元素)。

使用 mask 将包装的双精度 (64-bit) 浮点元素从 a 存储到内存中。

使用 mask 将包装的单精度 (32-bit) 浮点元素从 a 存储到内存中。

比较 ab 中的包装的 8 位整数,并返回包装的最大值。

比较 ab 中的包装的 16 位整数,并返回包装的最大值。

比较 ab 中的包装的 32 位整数,并返回包装的最大值。

比较 ab 中包装的无符号 8 位整数,并返回包装的最大值。

比较 ab 中包装的无符号 16 位整数,并返回包装的最大值。

比较 ab 中的包装的无符号 32 位整数,并返回包装的最大值。

比较 ab 中的包装的双精度 (64-bit) 浮点元素,并返回包装的最大值

比较 ab 中的包装的单精度 (32-bit) 浮点元素,并返回包装的最大值

比较 ab 中的包装的 8 位整数,并返回包装的最小值。

比较 ab 中包装的 16 位整数,并返回包装的最小值。

比较 ab 中的包装的 32 位整数,并返回包装的最小值。

比较 ab 中包装的无符号 8 位整数,并返回包装的最小值。

比较 ab 中包装的无符号 16 位整数,并返回包装的最小值。

比较 ab 中包装的无符号 32 位整数,并返回包装的最小值。

比较 ab 中的包装的双精度 (64-bit) 浮点元素,并返回包装的最小值

比较 ab 中的包装的单精度 (32-bit) 浮点元素,并返回包装的最小值

a 复制偶数索引的双精度 (64-bit) 浮点元素,并返回结果。

a 复制奇数索引的单精度 (32-bit) 浮点元素,并返回结果。

a 复制偶数索引的单精度 (32-bit) 浮点元素,并返回结果。

a 中每个 8 位元素的最高有效位创建掩码,并返回结果。

根据 a 中相应的包装的双精度 (64-bit) 浮点元素的最高有效位设置返回掩码的每一位。

基于 a 中相应的包装单精度 (32-bit) 浮点元素的最高有效位来设置返回掩码的每一位。

计算无符号四元组的绝对差之和 (SADs) a 中的 8 位整数与 b 中的 8 位整数相比较,并将 16 位结果存储在 dst 中。 使用来自 b 的一个四元组和来自 a 的八个四元组,对每个 128 位 lane 执行八个 SAD。 从 b 中指定的偏移量开始,从 b 中选择一个四元组。 从 a 中选择的有序 8 位整数开始的 8 个四元组,起始于 imm8 中指定的偏移量。

ab 中每个包装的 64 位元素的低位 32 位整数相乘

ab 中每个包装的 64 位元素的低位无符号 32 位整数相乘

ab 中的包装的双精度 (64-bit) 浮点元素相乘。

ab 中的包装的单精度 (32-bit) 浮点元素相乘。

ab 中的包装的 16 位整数相乘,产生 32 位中间整数,并返回中间整数的高 16 位。

ab 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并返回中间整数的高 16 位。

ab 中的包装的 16 位整数相乘,生成中间带符号的 32 位整数。 将每个中间整数截断为 18 个最高有效位,再加 1 取整,然后返回 [16:1] 位。

ab 中的包装的 16 位整数相乘,产生 32 位中间整数,并返回中间整数的低 16 位

ab 中的包装的 32 位整数相乘,生成中间 64 位整数,并返回中间整数的低 32 位

计算 ab 中按位或包装的双精度 (64-bit) 浮点元素。

计算 ab 中按位或包装的单精度 (32-bit) 浮点元素。

计算 ab 中 256 位 (表示整数数据) 的按位或

使用带符号的饱和度将包装的 16 位整数从 ab 转换为包装的 8 位整数

使用带符号的饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数

使用无符号饱和度将包装的 16 位整数从 ab 转换为包装的 8 位整数

使用无符号饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数

混洗 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),由 imm8ab 中选择。

混洗 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成),由 imm8ab 中选择。

重排 imm8ab 选择的 128 位 (由整数数据组成)。

打乱由 imm8ab 选择的 128 位整数数据。

使用控制掩码 imm8a 置换 64 位整数。

使用 imm8 中的控件对 a 中的 64 位浮点元素进行打乱。

使用 imm8 中的控件在 128 位 lanes 内对 a 中的双精度 (64-bit) 浮点元素进行混洗。

使用 imm8 中的控件在 128 位 lanes 内对 a 中的单精度 (32-bit) 浮点元素进行混洗。

根据 b 的内容,对 a 的 32 位整数进行包装的排列。

使用 idx 中相应的 32 位整数索引,将 a 中的八个 32 位浮点元素打乱到不同的 lanes 中。

使用 b 中的控件在 256 位 lanes 内对 a 中的双精度 (64-bit) 浮点元素进行混洗。

使用 b 中的控件在 128 位 lanes 内对 a 中的单精度 (32-bit) 浮点元素进行混洗。

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并返回结果。 该近似值的最大相对误差小于 1.5*2^-12。

根据 ROUNDING 标志对 a 中的双精度 (64-bit) 浮点包装的 (64-bit) 浮点元素进行舍入。 ROUNDING 的值可能如下:

根据标志 ROUNDINGa 中的单精度 (32-bit) 浮点包装元素进行舍入。 ROUNDING 的值可能如下:

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并返回结果。

计算 ab 中包装的无符号 8 位整数的绝对差,然后将每个连续的 8 个差水平求和,产生四个无符号的 16 位整数,并将这些无符号的 16 位整数包装在 64 位返回值的低 16 位中

向返回的 vector 的所有元素广播 8 位整数 a。 此内部函数可能会生成 vpbroadcastb

向返回的 vector 的所有所有元素广播 16 位整数 a。 此内部函数可能会生成 vpbroadcastw

向返回的 vector 的所有元素广播 32 位整数 a。 此内部函数可能会生成 vpbroadcastd

向返回的 vector 的所有元素广播 64 位整数 a。 此内部函数可能会生成 vpbroadcastq

向返回的 vector 的所有元素广播双精度 (64-bit) 浮点值 a

向返回的 vector 的所有元素广播单精度 (32-bit) 浮点值 a

使用提供的值在返回的 vector 中设置包装的 8 位整数。

使用提供的值在返回的 vector 中设置包装的 16 位整数。

使用提供的值在返回的 vector 中设置包装的 32 位整数。

使用提供的值在返回的 vector 中设置包装的 64 位整数。

设置包装的 __m256 返回的 vector 与提供的值。

设置包装的 __m256d 返回的 vector 具有提供的值。

包装的 __m256i 集合使用提供的值返回 vector。

使用提供的值在返回的 vector 中设置包装的双精度 (64-bit) 浮点元素。

使用提供的值在返回的 vector 中设置包装的单精度 (32-bit) 浮点元素。

在返回的 vector 中设置包装的 8 位整数,并以相反的顺序提供所提供的值。

在返回的 vector 中设置包装的 16 位整数,其提供的值的顺序相反。

在返回的 vector 中设置包装的 32 位整数,并以相反的顺序提供所提供的值。

在返回的 vector 中设置包装的 64 位整数,其提供的值的顺序相反。

设置包装的 __m256 返回的 vector 与提供的值。

设置包装的 __m256d 返回的 vector 具有提供的值。

包装的 __m256i 集合使用提供的值返回 vector。

在返回的 vector 中使用反向提供的值设置包装的双精度 (64-bit) 浮点元素。

在返回的 vector 中使用反向提供的值设置包装的单精度 (32-bit) 浮点元素。

返回 __m256d 类型的 vector,所有元素均设置为零。

返回 __m256 类型的 vector,所有元素都设置为零。

返回类型为 __m256i 的 vector,所有元素均设置为零。

根据 b 的内容,打乱 a 中的字节。

使用 imm8 中的控件,在 a 的 128 位 lanes 中打乱 32 位整数。

使用 imm8 中的控件对 128 位 lanes 中的双精度 (64-bit) 浮点元素进行混洗。

a 中的单精度 (32-bit) 浮点元素改组为 使用 imm8 中的控件的 128 位 lanes。

使用 imm8 中的控件,在 a 的 128 位 lanes 的高 64 位中打乱 16 位整数。 a 的 128 位 lanes 的低 64 位被复制到输出中。

使用 imm8 中的控件在 a 的 128 位 lanes 的低 64 位中打乱 16 位整数。 a 的 128 位 lanes 的高 64 位被复制到输出中。

当相应的带符号时,将 a 中的包装的 8 位整数取反 b 中的 8 位整数为负,并返回结果。 当 b 中的相应元素为零时,结果归零。

当相应的带符号时,将 a 中的 16 位整数包装为无效 b 中的 16 位整数为负,并返回结果。 当 b 中的相应元素为零时,结果归零。

当相应的带符号时,将 a 中的包装的 32 位整数取反 b 中的 32 位整数为负,并返回结果。 当 b 中的相应元素为零时,结果归零。

count 左移的 a 中的包装的 16 位整数移位,同时移零,并返回结果

count 左移的 a 中的包装的 32 位整数移位,同时移零,并返回结果

count 左移的 a 中的包装的 64 位整数移位,同时移零,并返回结果

a 中包装的 16 位整数在 IMM8 左移同时移零,返回结果;

a 中的包装的 32 位整数在 IMM8 左移同时移零,返回结果;

a 中的包装的 64 位整数在 IMM8 左移同时移零,返回结果;

a 中的 128 位 lanes 向左移 imm8 字节,同时向零移位。

a 中的包装的 32 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

a 中的包装的 64 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

返回 a 中包装的双精度 (64-bit) 浮点元素的平方根。

返回 a 中包装的单精度 (32-bit) 浮点元素的平方根。

将符号位移入时,将 a 中的包装的 16 位整数右移 count

将符号位移位时,将 a 中的包装的 32 位整数右移 count

a 中包装的 16 位整数右移 IMM8,同时移入符号位。

a 中包装的 32 位整数右移 IMM8,同时移入符号位。

a 中的 32 位整数向右移动,移动量由 count 中的相应元素指定,同时移入符号位。

a 中的包装的 16 位整数右移 count,同时将零移位。

a 中的包装的 32 位整数右移 count,同时将零移位。

a 中的包装的 64 位整数右移 count,同时将零移位。

a 中包装的 16 位整数右移 IMM8,同时将其移入零

a 中包装的 32 位整数右移 IMM8,同时将其移入零

a 中包装的 64 位整数右移 IMM8,同时将其移入零

a 中的 128 位 lanes 右移 imm8 字节,同时将其移位为零。

a 中的包装的 32 位整数右移 count 中相应元素所指定的数量,同时将零移位,

a 中的包装的 64 位整数右移 count 中相应元素所指定的数量,同时将零移位,

将来自 a 的 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

将来自 a 的 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。

将来自 a 的 256 位整数数据存储到内存中。 mem_addr 必须在 32 字节边界上对齐,否则可能会产生一个一般的保护异常。

将来自 a 的高和低 128 位半部分 (每个半部分由 4 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中两个不同的 128 位位置。

将来自 a 的高和低 128 位半部分 (每个半部分由 2 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中两个不同的 128 位位置。

将来自 a 的高 128 位和低 128 位 (分别由整数数据组成) 存储到内存中两个不同的 128 位位置。

将来自 a 的 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

将来自 a 的 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。

将来自 a 的 256 位整数数据存储到内存中。 mem_addr 不需要在任何特定边界上对齐。

将双精度值从 [4 x double] 的 256 位 vector 移动到 32 字节对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

将单精度浮点值从 [8 x float] 的 256 位 vector 移到 32 字节对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

将整数数据从 256 位整数 vector 移动到 32 字节对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)

a 中的包装的 8 位整数中减去 b 中的包装的 8 位整数

a 中的包装的 16 位整数减去 b 中的包装的 16 位整数

a 中的包装的 32 位整数减去 b 中的包装的 32 位整数

a 中的包装的 64 位整数减去 b 中的包装的 64 位整数

a 中的包装的元素中减去 b 中的包装后的双精度 (64-bit) 浮点元素。

a 中的包装元素中减去 b 中的包装的单精度 (32-bit) 浮点元素。

使用饱和度从 a 的包装的 8 位整数减去 b 的包装的 8 位整数。

使用饱和度从 a 的包装的 16 位整数减去 b 的包装的 16 位整数。

使用饱和度从 a 的包装的 8 位整数减去 b 的包装的无符号 8 位整数。

使用饱和度从 a 的包装的 16 位整数减去 b 的包装的无符号 16 位整数。

计算 ab 中 256 位 (表示双精度 (64-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

计算 ab 中 256 位 (表示单精度 (32-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

计算 ab 中 256 位 (表示整数数据) 的按位与,如果结果为零,则将 ZF 设置为 1,否则将 ZF 设置为 0。

计算 ab 中 256 位 (表示双精度 (64-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

计算 ab 中 256 位 (表示单精度 (32-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

计算 ab 中 256 位 (表示整数数据) 的按位与,如果结果为零,则将 ZF 设置为 1,否则将 ZF 设置为 0。

计算 ab 中 256 位 (表示双精度 (64-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

计算 ab 中 256 位 (表示单精度 (32-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

计算 ab 中 256 位 (表示整数数据) 的按位与,如果结果为零,则将 ZF 设置为 1,否则将 ZF 设置为 0。

返回带有未定义元素的 __m256d 类型的 vector。

返回带有未定义元素的 __m256 类型的 vector。

返回带有未定义元素的 __m256i 类型的 vector。

从每个高位的一半拆包并交织 8 位整数 ab 中的 128 位 lane。

从每个高位的一半拆包并交织 16 位整数 ab 的 128 位 lane

从每个高位的一半拆包并交织 32 位整数 ab 的 128 位 lane

从每个高位的一半拆包并交织 64 位整数 ab 的 128 位 lane

ab 中每个 128 位 lane 的上半部分解包并交织双精度 (64-bit) 浮点元素。

ab 中每个 128 位 lane 的高半部分解包并交织单精度 (32-bit) 浮点元素。

从每个低位拆包并交织 8 位整数 ab 的 128 位 lane

从每个低位拆包并交织 16 位整数 ab 的 128 位 lane

从每个低位拆包并交织 32 位整数 ab 的 128 位 lane

从每个字节的下半部分拆包并交织 64 位整数 ab 的 128 位 lane

ab 中每个 128 位 lane 的下半部分解包并交织双精度 (64-bit) 浮点元素。

ab 中每个 128 位 lanes 的下半部分解包并交织单精度 (32-bit) 浮点元素。

计算 ab 中包装的双精度 (64-bit) 浮点元素的按位 XOR。

计算 ab 中包装的单精度 (32-bit) 浮点元素的按位 XOR。

计算 ab 中 256 位 (表示整数数据) 的按位 XOR

将所有 XMM 或 YMM 寄存器的内容清零。

将所有 YMM 寄存器的高 128 位清零; 寄存器的低 128 位保持不变。

从 a 创建一个 [4 x double] 的 256 位浮点 vector [2 x double] 的 128 位浮点 vector。低 128 位包含源 vector 的值。 高 128 位设置为零。

从 a 创建一个 [8 x float] 的 256 位浮点 vector [4 x float] 的 128 位浮点 vector。低 128 位包含源 vector 的值。 高 128 位设置为零。

从 128 位整数 vector 创建一个 256 位整数 vector。 低 128 位包含源 vector 的值。上层 128 位设置为零。

将来自 a 的 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。

计算 a 中包装的 8 位带符号整数的绝对值,并返回无符号结果。

计算 a 中每个包装的 16 位有符号整数的绝对值,并返回 16 位无符号整数

计算 a 中每个包装的 32 位有符号整数的绝对值,并返回 32 位无符号整数

ab 中添加包装的 8 位整数。

ab 中添加包装的 16 位整数。

ab 中添加包装的 32 位整数。

ab 中添加包装的 64 位整数。

ab 中添加包装的双精度 (64-bit) 浮点元素。

添加 __m128 vectors。

返回一个新的 vector,其中 a 的低位元素替换为 ab 的低位元素之和。

添加 ab 的第一个组件,其他组件从 a 复制。

使用饱和度在 ab 中添加包装的 8 位整数。

使用饱和度在 ab 中添加包装的 16 位整数。

使用饱和度在 ab 中添加包装的无符号 8 位整数。

使用饱和度在 ab 中添加包装的无符号 16 位整数。

或者,在 a 中的包装的双精度 (64-bit) 浮点元素中加减 b 中的 to/from 包装的元素。

或者,在 a 中的包装的单精度 (32-bit) 浮点元素上加减 b 中的包装的元素 to/from。

a 中的数据 (state) 执行一轮 AES 解密流程。

a 中的数据 (state) 执行 AES 解密流的最后一轮。

a 中的数据 (state) 执行一轮 AES 加密流程。

a 中的数据 (state) 执行最后一轮 AES 加密流程。

a 上执行 InvMixColumns 转换。

协助扩展 AES 密钥。

ab 中的 16 字节块连接成一个 32 字节的临时结果,将结果右移 n 字节,然后返回低 16 字节。

计算 ab 中包装的双精度 (64-bit) 浮点元素的按位与。

包装的单精度 (32-bit) 浮点元素的按位与。

计算 ab 中 128 位 (表示整数数据) 的按位与。

计算 a 的按位 NOT,然后计算 b 的 AND。

包装的单精度 (32-bit) 浮点元素的按位与非运算。

计算 a 中 128 位 (代表整数数据) 的按位非,然后计算 b 的与。

ab 中的包装无符号 8 位整数的平均值。

ab 中的包装无符号 16 位整数的平均值。

使用掩码 IMM8 混合来自 ab 的 16 位整数包装。

使用控制掩码 IMM4 混合来自 ab 的包装的 32 位整数。

使用控制掩码 IMM2ab 混合包装的双精度 (64-bit) 浮点元素

使用掩码 IMM4ab 混合包装的单精度 (32-bit) 浮点元素

使用 mask 混合 ab 中的包装 8 位整数

使用 mask 混合来自 ab 的包装的双精度 (64-bit) 浮点元素

使用 mask 混合来自 ab 的包装的单精度 (32-bit) 浮点元素

从内存向返回的 vector 的所有元素广播单精度 (32-bit) 浮点元素。

a 的低位包装 8 位整数广播到 128 位返回值的所有元素。

a 的低位包装 32 位整数广播到 128 位返回值的所有元素。

a 的低位包装 64 位整数广播到 128 位返回值的所有元素。

将低双精度 (64-bit) 浮点元素从 a 广播到 128 位返回值的所有元素。

将低单精度 (32-bit) 浮点元素从 a 广播到 128 位返回值的所有元素。

将低包装的 16 位整数从 a 广播到 128 位返回值的所有元素

a 左移 IMM8 个字节,同时移入零。

a 右移 IMM8 个字节,同时移入零。

[2 x double] 的 128 位浮点 vector 转换为 [4 x float] 的 128 位浮点 vector。

[2 x double] 的 128 位浮点 vector 转换为 128 位整数 vector。

[4 x float] 的 128 位浮点 vector 转换为 [2 x double] 的 128 位浮点 vector。

[4 x float] 的 128 位浮点 vector 转换为 128 位整数 vector。

将 128 位整数 vector 转换为 [2 x double] 的 128 位浮点 vector。

将 128 位整数 vector 转换为 [4 x float] 的 128 位浮点 vector。

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为整数,并将结果存储为包装的双精度浮点元素。

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为整数,并将结果存储为包装的单精度浮点元素。

b 中的下部双精度 (64-bit) 浮点元素四舍五入为整数,将结果作为双精度浮点元素存储在本征结果的下部元素中,并将上部元素从 a 复制到上部内在结果的元素。

b 中的下部单精度 (32-bit) 浮点元素四舍五入为整数,将结果作为单精度浮点元素存储在内部结果的下部元素中,并将高 3 个包装的元素从 a 复制到内在结果的上层要素。

使高速缓存层次结构中所有级别的包含 p 的高速缓存行失效并刷新。

在有限域 GF(2^k) 上执行两个 64 位多项式的无进位乘法。

根据 IMM5 指定的比较操作数比较 ab 中包装的双精度 (64-bit) 浮点元素。

根据 IMM5 指定的比较操作数比较 ab 中包装的单精度 (32-bit) 浮点元素。

根据 IMM5 指定的比较操作数,比较 ab 中的低位双精度浮点元素 (64-bit),将结果存入返回的 vector 的低位元素,并将 a 的高位元素复制到返回的 vector 的高位元素。

根据 IMM5 指定的比较操作数比较 ab 中的低位单精度 (32-bit) 浮点元素,将结果存储在返回的 vector 的低位元素中,并将高 3 个包装的元素从 a 复制到返回 vector。

比较 ab 中的包装 8 位整数是否相等。

比较 ab 中的包装的 16 位整数是否相等。

比较 ab 中的包装 32 位整数是否相等。

比较 ab 中的包装 64 位整数是否相等

比较 ab 中的相应元素是否相等。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果输入元素相等,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的相等比较取代。

比较两个输入中的最低 f32 是否相等。 如果两个输入相等,结果的最低 32 位将为 0xffffffff,否则为 0。 结果的高 96 位是 a 的高 96 位。

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果 b 不包含空字符且结果掩码为零,则返回 1,否则返回 0

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果结果掩码非零则返回 1,否则返回 0

使用 IMM8 中的控件将包装的字符串 ab 与长度 lalb 进行比较,并返回生成的索引。 与 _mm_cmpistri 相似,但 _mm_cmpistri 隐式确定 ab 的长度。

使用 IMM8 中的控件将 ab 中包装的字符串与长度 lalb 进行比较,并返回生成的掩码。

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,并返回结果位掩码的位 0

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果 a 中的任何字符为空,则返回 1,否则返回 0

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果 b 中的任何字符为空,则返回 1,否则返回 0

比较 ab 中的对应元素是否大于等于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素大于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素大于或等于的比较所取代。

比较两个输入的最低 f32 大于或等于。 如果 a.extract(0) 大于或等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的包装的 8 位整数是否大于。

比较 ab 中的包装的 16 位整数是否大于。

比较 ab 中的包装的 32 位整数是否大于。

比较 ab 中的包装的 64 位整数是否大于,返回结果。

比较 ab 中的对应元素是否大于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素大于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素大于的比较所代替。

比较两个输入的最低 f32 大于。 如果 a.extract(0) 大于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,如果 b 不包含空字符且结果掩码为零,则返回 1,否则返回 0

使用 IMM8 中的控件将包装的字符串与 ab 中的隐式长度进行比较,如果结果掩码不为零,则返回 1,否则返回 0

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,并返回生成的索引。 与 _mm_cmpestri 相似,不同之处在于 _mm_cmpestri 需要明确指定 ab 的长度。

使用 IMM8 中的控件比较 ab 中隐含长度的包装的字符串,并返回生成的掩码。

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,并返回结果位掩码的位 0

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,如果 a 中的任何字符为空,则返回 1,否则返回 0

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,如果 b 中的任何字符为空,则返回 1

比较 ab 中的对应元素是否小于等于

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素小于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素小于或等于的比较所取代。

比较两个输入中的最低 f32 小于或等于。最低的 如果 a.extract(0) 小于或等于 b.extract(0),则结果的 32 位将为 0xffffffff,否则为 0。 结果的高 96 位是 a 的高 96 位。

比较 ab 中小于 8 的包装的 8 位整数。

比较 ab 中的包装的 16 位整数小于。

比较 ab 中的包装的 32 位整数是否小于。

比较 ab 中的对应元素小于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素小于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的小于比较所代替。

比较两个输入的最低 f32 小于。 如果 a.extract(0) 小于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的对应元素是否相等。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果输入元素不相等,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的不相等比较代替。

比较两个输入中最低的 f32 是否不相等。 如果 a.extract(0) 不等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的相应元素是否不大于或等于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不大于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的不大于等于相等的比较所取代。

比较两个输入中的最低 f32,以得出不大于等于。 如果 a.extract(0) 不大于或等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中相应元素的不大于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不大于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的不大于比较所代替。

比较两个输入的最低 f32,以得出不大于。 如果 a.extract(0) 不大于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的对应元素是否等于或大于等于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不小于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素相等或不小于的比较所取代。

比较两个输入的最低 f32 等于或小于等于。 如果 a.extract(0) 不小于或等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的对应元素不少于。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不小于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素相当的比较所取代。

比较两个输入中的最低 f32 不少于。 如果 a.extract(0) 不小于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的相应元素以查看 NaN 是否都不是。

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 返回具有两个可能的位模式之一的四个浮点数。 如果 ab 中的输入元素是有序的 (即,它们都不是 NaN),则输出 vector 中的元素将为 0xffffffff,否则为 0。

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素都与 NaN 进行比较的结果所代替。 如果两者都不等于 NaN,则使用 0xFFFFFFFFFFFFFFFF,否则使用 0

检查两个输入中最低的 f32 是否已订购。 如果 a.extract(0)b.extract(0) 都不是 NaN,则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 中的相应元素,以查看是否为 NaN

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 返回具有两个可能的位模式之一的四个浮点数。 如果 ab 中的输入元素无序 (即,至少其中一个是 NaN),则输出 vector 中的元素将为 0xffffffff,否则为 0。

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素都与 NaN 进行比较的结果所代替。 如果其中一个等于 NaN,则使用 0xFFFFFFFFFFFFFFFF,否则使用 0

检查两个输入中最低的 f32 是否无序。 如果 a.extract(0)b.extract(0) 中的任何一个为 NaN,则结果的最低 32 位将为 0xffffffff,否则为 0

比较 ab 的下部元素是否相等。

比较 ab 的低位的两个 32 位浮点数。 如果相等则返回 1,否则返回 0

比较 ab 的下限元素是否大于等于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于或等于 b 中的值,则返回 1,否则返回 0

比较 ab 的下限元素是否大于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于 b 中的值,则返回 1,否则返回 0

比较 ab 的下限元素是否等于或小于等于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于或等于 b 中的值,则返回 1,否则返回 0

比较 ab 的下限元素小于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于 b 中的值,则返回 1,否则返回 0

比较 ab 的较低元素是否不相等。

比较 ab 的低位的两个 32 位浮点数。 如果它们不相等,则返回 1,否则返回 0

crc 中的初始值开始,返回无符号 8 位整数 v 的累积 CRC32 值。

crc 中的初始值开始,返回无符号 16 位整数 v 的累积 CRC32 值。

crc 中的初始值开始,返回无符号 32 位整数 v 的累积 CRC32 值。

符号将 a 中的包装 8 位整数扩展为包装 16 位整数

符号将 a 中的包装 8 位整数扩展为包装 32 位整数

符号将 a 的低 8 字节中的包装的 8 位整数扩展为包装的 64 位整数

符号将 a 中的包装的 16 位整数扩展为包装的 32 位整数

符号将 a 中的包装 16 位整数扩展为包装 64 位整数

符号将 a 中的包装 32 位整数扩展为包装 64 位整数

a 中的低位两个包装的 32 位整数转换为包装的双精度 (64-bit) 浮点元素。

a 中的包装的 32 位整数转换为包装的单精度 (32-bit) 浮点元素。

零将 a 中的包装的无符号 8 位整数扩展为包装的 16 位整数

零将 a 中的包装无符号 8 位整数扩展为包装 32 位整数

零将 a 中的包装无符号 8 位整数扩展为包装 64 位整数

零将 a 中的包装的无符号 16 位整数扩展为包装的 32 位整数

零将 a 中的包装的无符号 16 位整数扩展为包装的 64 位整数

零将 a 中的包装无符号 32 位整数扩展为包装 64 位整数

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数。

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数。

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素。

返回 a 的较低的双精度 (64-bit) 浮点元素。

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位整数。

b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,将结果存储在返回值的下部元素中,并将上部元素从 a 复制到返回值的上部元素中。

a 的下位元素转换为 f64 后,返回其下位元素为 ba

返回 vector,其最低元素为 a,所有更高元素为 0

将 32 位整数转换为 32 位浮点型。 结果 vector 是输入 vector a,其最低 32 位浮点数已由转换后的整数替换。

返回 a 的最低元素。

从输入 vector 中提取最低的 32 位浮点数。

b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,将结果存储在返回值的下部元素中,然后将 a 的上部元素复制到返回值的上部元素中。

将输入 vector 中的最低 32 位浮点型转换为 32 位整数。

a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数。

a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数。

a 中较低的双精度 (64-bit) 浮点元素转换为带截断的 32 位整数。

将输入 vector 中的最低 32 位浮点型转换为带有截断的 32 位整数。

a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素。

除 __m128 vectors。

返回一个新的 vector,其中 a 的下限元素被 a 的下限元素除以 b 的下限元素所代替。

b 的第一个组件除以 a,其他组件则从 a 复制。

返回两个 __m128d vectors 的点积。

返回两个 __m128 vectors 的点积。

a 中提取一个 8 位整数,用 IMM8 选择。 返回包含零扩展整数数据的 32 位整数。 See LLVM commit D20468.

返回 aimm8 元素。

IMM8 选择的 a 中提取 32 位整数

从用 IMM8 选择的 a 中提取单精度 (32-bit) 浮点元素。 返回的 i32 存储浮点数的位模式,并且可以通过转换将其转换回浮点数。

x 的低 64 位提取 y 指定的位范围。

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为整数,并将结果存储为包装的双精度浮点元素。

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为整数,并将结果存储为包装的单精度浮点元素。

b 中的下部双精度 (64-bit) 浮点元素四舍五入为整数值,将结果作为双精度浮点元素存储在内部结果的下部元素中,并将上部元素从 a 复制到上部内在结果的元素。

b 中的下部单精度 (32-bit) 浮点元素四舍五入为整数值,将结果作为单精度浮点元素存储在内部结果的下部元素中,然后将 a 的上部 3 个包装的元素复制到内在结果的上层要素。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并将中间结果与 c 中的包装的元素相加。

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将中间结果添加到 c 中的包装元素中。

ab 中的较低的双精度 (64-bit) 浮点元素相乘,并将中间结果与 c 中的较低的元素相加。

ab 中较低的单精度 (32-bit) 浮点元素相乘,并将中间结果与 c 中的较低元素相加。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,或者在 c to/from 中将包装的元素相加或减去中间结果。

ab 中包装的单精度 (32-bit) 浮点元素相乘,或者将 c 中包装的元素加/减到中间结果中。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装的双精度元素。

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装元素。

ab 中的较低的双精度 (64-bit) 浮点元素相乘,并从中间结果中减去 c 中的较低的元素。 将结果存储在返回值的低位元素中,并将高位元素从 a 复制到结果的高位元素。

ab 中的较低单精度 (32-bit) 浮点元素相乘,并从中间结果中减去 c 中的较低元素。 将结果存储在返回值的低位元素中,并将 3 个高位元素从 a 复制到结果的高位元素。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,也可以从中间结果中减去或加上 c 中的包装元素。

ab 中的包装单精度 (32-bit) 浮点元素相乘,或者将 c 中的包装元素从中间结果中减去或加上。

ab 中的包装双精度 (64-bit) 浮点元素相乘,然后将取反的中间结果添加到 c 中的包装元素中。

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将取反的中间结果添加到 c 中的包装元素中。

ab 中较低的双精度 (64-bit) 浮点元素相乘,并将取反的中间结果添加到 c 中的较低元素。 将结果存储在返回值的低位元素中,并将高位元素从 a 复制到结果的高位元素。

ab 中较低的单精度 (32-bit) 浮点元素相乘,并将取反的中间结果与 c 中的较低元素相加。 将结果存储在返回值的低位元素中,并将 3 个高位元素从 a 复制到结果的高位元素。

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

ab 中较低的双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的包装的元素。 将结果存储在返回值的低位元素中,并将高位元素从 a 复制到结果的高位元素。

ab 中较低的单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的包装元素。 将结果存储在返回值的低位元素中,并将 3 个高位元素从 a 复制到结果的高位元素。

获取 MXCSR 控制和状态寄存器的无符号 32 位值。

水平相加 2 个包装的包中包含的相邻值对 [8 x i16] 的 128 位 vectors。

水平相加 2 个包装的包中包含的相邻值对 [4 x i32] 的 128 位 vectors。

ab 中水平添加相邻对的双精度 (64-bit) 浮点元素,并包装结果。

ab 中水平添加相邻对的单精度 (32-bit) 浮点元素对,并包装结果。

水平相加 2 个包装的包中包含的相邻值对 [8 x i16] 的 128 位 vectors。大于 7FFFh 的正和饱和到 7FFFh。 小于 8000h 的负数和将饱和到 8000h。

水平减去 [8 x i16] 的 2 个包装的 128 位 vectors 中包含的相邻值对。

水平减去 [4 x i32] 的 2 个包装的 128 位 vectors 中包含的相邻值对。

水平减去 ab 中相邻的双精度 (64-bit) 浮点元素对,然后包装结果。

ab 中水平添加相邻对的单精度 (32-bit) 浮点元素对,并包装结果。

水平减去 [8 x i16] 的 2 个包装的 128 位 vectors 中包含的相邻值对。 正差异大于 7FFFh 饱和到 7FFFh。小于 8000h 的负差会饱和到 8000h。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

返回 a 的副本,其中 i 的 8 位整数插入到 IMM8 指定的位置。

返回一个新的 vector,其中 aimm8 元素替换为 i

返回 a 的副本,其中 i 的 32 位整数插入到 IMM8 指定的位置。

a 中选择单个值存储在 b 中的某个位置,然后根据 IMM8 将元素归零。

y[length:0] 位插入 index 处的 x

从未对齐的内存中加载 128 位整数数据。 当数据越过高速缓存行边界时,此内部函数的性能可能比 _mm_loadu_si128 更好。

对在此指令之前发布的所有内存加载指令执行序列化操作。

将内存中的双精度 (64-bit) 浮点元素加载到返回的 vector 的两个元素中。

通过将从 p 读取的值复制到所有元素中来构造 __m128

从内存中将 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 加载到返回的 vector 中。

将内存中的双精度 (64-bit) 浮点元素加载到返回的 vector 的两个元素中。

aligned 内存中的四个 f32 值加载到 __m128 中。 如果指针未与 128 位边界 (16 个字节) 对齐,则将触发一般保护错误 (致命程序崩溃)。

将 64 位双精度值加载到 128 位整数 vector 并清除高位元素。

从内存中将 128 位整数数据加载到新的 vector 中。

使用从 p 读取的最低元素并将其他元素设置为零来构造 __m128

将内存中的双精度 (64-bit) 浮点元素加载到返回 vector 的两个元素中。

将双精度值加载到 [2 x double] 的 128 位 vector 的高阶位中。 低位从第一个操作数的低位复制而来。

将内存中的 64 位整数加载到返回的 vector 的第一个元素中。

将双精度值加载到 [2 x double] 的 128 位 vector 的低位中。 高阶位是从第一个操作数的高阶位复制而来的。

以相反的顺序将 2 个双精度 (64-bit) 浮点元素从内存加载到返回的 vector 中。 mem_addr 必须对齐在一个 可能会生成 16 字节边界或一般保护异常。

从对齐的内存中以相反的顺序将四个 f32 值加载到 __m128 中。

从内存中将 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 加载到返回的 vector 中。

从内存中将四个 f32 值加载到 __m128 中。内存对齐没有任何限制。 对于对齐的内存 _mm_load_ps 可能更快。

将未对齐的 64 位整数数据从内存加载到新的 vector 中。

从内存中将 128 位整数数据加载到新的 vector 中。

ab 中相乘,然后水平相加带符号的 16 位整数。

将第一个源操作数中包含的包装的 8 位无符号整数值与第二个源操作数中包含的包装的 8 位有符号整数值的对应对相乘,相加具有符号饱和度的连续乘积对,并将 16 位和写入到目标中的相应位。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

使用 maskmem_addr 指向的内存中加载包装的 32 位整数 (当未在相应元素中设置最高位时,元素清零)。

使用 maskmem_addr 指向的内存中加载包装的 64 位整数 (当未在相应元素中设置最高位时,元素清零)。

使用 mask 将包装的双精度 (64-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

使用 mask 将包装的单精度 (32-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

使用 mask 有条件地将 a 中的 8 位整数元素存储到内存中。

使用 maska 中的包装后的 32 位整数存储到 mem_addr 指向的内存中 (当在相应元素中未设置最高位时,不存储元素)。

使用 maska 中的包装 64 位整数存储到 mem_addr 指向的内存中 (当未在相应元素中设置最高位时,不存储元素)。

使用 mask 将包装的双精度 (64-bit) 浮点元素从 a 存储到内存中。

使用 mask 将包装的单精度 (32-bit) 浮点元素从 a 存储到内存中。

比较 ab 中的包装的 8 位整数,并以 dst 返回包装的最大值。

比较 ab 中的包装的 16 位整数,并返回包装的最大值。

比较 ab 中的包装的 32 位整数,并返回包装的最大值。

比较 ab 中包装的无符号 8 位整数,并返回包装的最大值。

比较 ab 中包装的无符号 16 位整数,并返回包装的最大值。

比较 ab 中的包装无符号 32 位整数,并返回包装最大值。

返回一个新的 vector,它具有 ab 中相应元素的最大值。

比较 ab 中包装的单精度 (32-bit) 浮点元素,并返回相应的最大值。

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素最大值取代。

比较 ab 的第一个单精度 (32-bit) 浮点元素,并在返回值的第一个元素中返回最大值,从 a 复制其他元素。

对在此指令之前发布的所有从内存加载和存储到内存指令执行序列化操作。

比较 ab 中的包装的 8 位整数,并以 dst 返回包装的最小值。

比较 ab 中包装的 16 位整数,并返回包装的最小值。

比较 ab 中的包装的 32 位整数,并返回包装的最小值。

比较 ab 中包装的无符号 8 位整数,并返回包装的最小值。

比较 ab 中的包装的无符号 16 位整数,并返回包装的最小值。

比较 ab 中的包装的无符号 32 位整数,并返回包装的最小值。

返回一个新的 vector,它具有 ab 中相应元素的最小值。

比较 ab 中包装的单精度 (32-bit) 浮点元素,并返回相应的最小值。

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的最小值替换。

比较 ab 的第一个单精度 (32-bit) 浮点元素,并在返回值的第一个元素中返回最小值,从 a 复制其他元素。

在 128 位 __m128i vector 中查找最小的无符号 16 位元素,并返回一个 vector,其中在第一个位置包含其值,在第二个位置包含其索引; 所有其他元素都设置为零。

返回 vector,其中从 a 提取低位元素,其高位元素为零。

构造 [2 x double] 的 128 位浮点 vector。下层 将 64 位设置为第二个参数的低 64 位。上层 将 64 位设置为第一个参数的高 64 位。

返回 __m128,其中第一个组件来自 b,其余组件来自 a

a 复制低双精度 (64-bit) 浮点元素。

a 中重复的奇数索引单精度 (32-bit) 浮点元素。

合并 ab 的上半部分。b 的上半部分占据结果的下半部分。

a 中重复的偶数索引单精度 (32-bit) 浮点元素。

合并 ab 的下半部分。b 的下半部分占据结果的上半部分。

返回 a 中每个元素的最高有效位的掩码。

返回 a 中每个元素的最高有效位的掩码。

返回 a 中每个元素的最高有效位的掩码。

减去 8 位无符号整数值,然后将差的绝对值计算为目标中的相应位。

ab 中每个包装的 64 位元素的低 32 位整数相乘,并返回带符号的 64 位结果。

ab 中每个包装的 64 位元素中的低 32 位无符号整数相乘。

ab 中的包装的双精度 (64-bit) 浮点元素相乘。

乘以 __m128 vectors。

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素相乘。

ab 的第一个组件相乘,然后从 a 复制其他组件。

ab 中的包装的 16 位整数相乘。

ab 中包装的无符号 16 位整数相乘。

将包装的 16 位带符号整数值相乘,通过右移将 32 位乘积截断为 18 个最高有效位,通过加 1 舍入舍入后的值,并将 [16:1] 位写入目标位置。

ab 中的包装的 16 位整数相乘。

ab 中包装的 32 位整数相乘,产生中间值 64 位整数,并返回最低的 32 位 (无论它们是什么),都将重新解释为有符号整数。 虽然 pmulld __m128i::splat(2), __m128i::splat(2) 返回明显的 __m128i::splat(4),但由于包装算术,pmulld __m128i::splat(i32::MAX), __m128i::splat(2) 将返回负数。

计算 ab 的按位或。

包装的单精度 (32-bit) 浮点元素的按位或。

计算 ab 中 128 位 (表示整数数据) 的按位或。

使用带符号的饱和度将包装的 16 位整数从 ab 转换为包装的 8 位整数。

使用带符号的饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数。

使用无符号饱和度将 ab 的包装的 16 位整数转换为包装的 8 位整数。

使用无符号饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数

向处理器提示代码序列是自旋等待循环。

使用 imm8 中的控件对 a 中的双精度 (64-bit) 浮点元素进行混洗。

使用 imm8 中的控件对 a 中的单精度 (32-bit) 浮点元素进行混洗。

使用 b 中的控件对 a 中的双精度 (64-bit) 浮点元素进行混洗。

使用 b 中的控件对 a 中的单精度 (32-bit) 浮点元素进行混洗。

使用给定的 STRATEGY 获取包含地址 p 的缓存行。

返回 a 中包装的单精度 (32-bit) 浮点元素的近似倒数。

返回 a 中第一个单精度 (32-bit) 浮点元素的近似倒数,其他元素不变。

使用 ROUNDING 参数将 a 中的包装的双精度 (64-bit) 浮点元素舍入,并将结果存储为包装的双精度浮点元素。

使用 ROUNDING 参数将 a 中的包装的单精度 (32-bit) 浮点元素舍入,并将结果存储为包装的单精度浮点元素。

使用 ROUNDING 参数将 b 中的低位双精度浮点元素 (64-bit) 舍入,将结果作为双精度浮点元素存储在内部结果的低位元素中,并将高位元素从 a 复制到高位元素的内在结果。

使用 ROUNDING 参数将 b 中的低位单精度 (32-bit) 浮点元素四舍五入,将结果作为单精度浮点元素存储在内部结果的低位元素中,并将高 3 个包装的元素从 a 复制到内在结果的上层元素。

返回 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根。

返回 a 中第一个单精度 (32-bit) 浮点元素的近似倒数平方根,其他元素不变。

包装无符号 8 位整数的绝对差之和。

向所有元素广播 8 位整数 a

向所有元素广播 16 位整数 a

向所有元素广播 32 位整数 a

向所有元素广播 64 位整数 a

向返回值的所有元素广播双精度 (64-bit) 浮点值 a。

创建一个 __m128,并将所有元素设置为 a

使用提供的值设置包装的 8 位整数。

使用提供的值设置包装的 16 位整数。

使用提供的值设置包装的 32 位整数。

使用提供的值 (从最高到最低) 设置包装的 64 位整数。

使用提供的值在返回值中设置包装的双精度 (64-bit) 浮点元素。

向返回值的所有元素广播双精度 (64-bit) 浮点值 a。

从最高到最低的四个浮点值构造 __m128

将双精度 (64-bit) 浮点元素 a 复制到包装的 64 位返回值的低位元素。

创建一个 __m128,将最低元素设置为 a,将剩余部分设置为零。

用 32 位无符号整数值设置 MXCSR 寄存器。

以相反的顺序设置提供的值的包装 8 位整数。

以相反的顺序设置提供的值的包装 16 位整数。

以相反的顺序设置提供的值的包装 32 位整数。

在返回值中设置包装的双精度 (64-bit) 浮点元素,并以相反的顺序提供提供的值。

从四个最低到最高的浮点值构造 __m128

返回全零的包装的双精度 (64-bit) 浮点元素。

创建一个 __m128,并将所有元素初始化为零。

返回所有元素均设置为零的 vector。

对在此指令之前发出的所有存储到内存指令执行序列化操作。

使用来自 ab 的先前消息值,对接下来的四个 SHA1 消息值 (无符号的 32 位整数) 执行中间计算,并返回结果。

使用 a 中的中间结果和 b 中的先前消息值,对接下来的四个 SHA1 消息值 (无符号的 32 位整数) 执行最终计算,并返回结果。

经过四轮运算后,从当前 SHA1 状态变量 a 计算 SHA1 状态变量 E,将该值添加到 b 中的计划值 (无符号 32 位整数),然后返回结果。

使用来自 a 的初始 SHA1 状态 (A,B,C,D) 以及接下来的 4 个回合消息值 (一些无符号的 32 位整数) 和来自 b 的状态变量 E 的一些预先计算的总和,执行四轮 SHA1 操作,并返回更新的 SHA1 状态 (A,B,C,D)。 FUNC 包含逻辑函数和圆常量。

使用来自 ab 的先前消息值,对接下来的四个 SHA256 消息值 (无符号的 32 位整数) 执行中间计算,并返回结果。

使用以前的 ab 的消息值,对接下来的四个 SHA256 消息值 (无符号的 32 位整数) 执行最终计算,并返回结果。

使用来自 a 的初始 SHA256 状态 (C,D,G,H),来自 b 的初始 SHA256 状态 (A,B,E,F) 以及接下来的 2 个回合消息值 (无符号的 32 位整数) 和来自 k 的相应回合常量的预先计算的总和,执行 2 轮 SHA256 操作。,并将更新的 SHA256 状态 (A,B,E,F) 存储在 dst 中。

根据 b 的内容,打乱 a 中的字节。

使用 IMM8 中的控件在 a 中打乱 32 位整数。

从两个创建一个 [2 x double] 的 128 位浮点 vector [2 x double] 的 128 位 vector 参数,使用立即值参数作为说明符。

使用 MASKab 中打乱包装的单精度 (32-bit) 浮点元素。

使用 IMM8 中的控件在 a 的高 64 位中打乱 16 位整数。

使用 IMM8 中的控件在 a 的低 64 位中打乱 16 位整数。

b 中相应的带符号 8 位整数为负时,对 a 中的 8 位包装整数取反,并返回结果。

b 中相应的带符号 16 位整数为负时,将 a 中的 16 位整数包装为无效,并返回结果。

b 中相应的带符号 32 位整数为负时,对 a 中的包装 32 位整数求反,并返回结果。

count 左移的 a 中的包装的 16 位整数移位,同时将零移位。

count 左移的 a 中的包装的 32 位整数移位,同时将零移位。

count 左移的 a 中的包装的 64 位整数移位,同时将零移位。

a 中包装的 16 位整数左移 IMM8,同时将其移入零。

a 中包装的 32 位整数左移 IMM8,同时将其移入零。

a 中包装的 64 位整数左移 IMM8,同时将其移入零。

a 左移 IMM8 个字节,同时移入零。

a 中的包装的 32 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

a 中的包装的 64 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

返回一个新的 vector,它具有 a 中每个值的平方根。

返回 a 中包装的单精度 (32-bit) 浮点元素的平方根。

返回一个新的 vector,其中 a 的低端元素替换为下部元素 b 的平方根。

返回 a 中第一个单精度 (32-bit) 浮点元素的平方根,其他元素保持不变。

将符号位移入时,将 a 中的包装的 16 位整数右移 count

将符号位移位时,将 a 中的包装的 32 位整数右移 count

a 中包装的 16 位整数右移 IMM8,同时移入符号位。

a 中包装的 32 位整数右移 IMM8,同时移入符号位。

a 中的 32 位整数向右移动,移动量由 count 中的相应元素指定,同时移入符号位。

a 中的包装的 16 位整数右移 count,同时将零移位。

a 中的包装的 32 位整数右移 count,同时将零移位。

a 中的包装的 64 位整数右移 count,同时将零移位。

a 中包装的 16 位整数右移 IMM8,同时将其移入零。

a 中包装的 32 位整数右移 IMM8,同时将其移入零。

a 中包装的 64 位整数右移 IMM8,同时将其移入零。

a 右移 IMM8 个字节,同时移入零。

a 中的包装的 32 位整数右移 count 中相应元素所指定的数量,同时将零移位,

a 中的包装的 64 位整数右移 count 中相应元素所指定的数量,同时将零移位,

将来自 a 的较低的双精度 (64-bit) 浮点元素存储到内存中的 2 个连续元素中。 mem_addr 必须对齐在一个 可能会生成 16 字节边界或一般保护异常。

a 的最低 32 位浮点数重复存储四次到 aligned 存储器中。

将来自 a 的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。 mem_addr 必须在 16 字节边界上对齐,否则可能会生成通用保护异常。

将来自 a 的较低的双精度 (64-bit) 浮点元素存储到内存中的 2 个连续元素中。 mem_addr 必须对齐在一个 可能会生成 16 字节边界或一般保护异常。

将四个 32 位浮点数存储到 aligned 存储器中。

[2 x double] 的 128 位 vector 的低 64 位存储到内存位置。

将来自 a 的 128 位整数数据存储到内存中。

a 的最低 32 位浮点数存储到内存中。

[2 x double] 的 128 位 vector 的高 64 位存储到存储位置。

将低 64 位整数 a 存储到内存位置。

[2 x double] 的 128 位 vector 的低 64 位存储到内存位置。

a 中的 2 个双精度 (64-bit) 浮点元素以相反的顺序存储到内存中。 mem_addr 必须在 16 字节边界上对齐,否则可能会生成通用保护异常。

以相反的顺序将四个 32 位浮点数存储到 aligned 存储器中。

将来自 a 的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

将四个 32 位浮点数存储到内存中。内存对齐没有任何限制。 对于对齐的内存,_mm_store_ps 可能更快。

将来自 a 的 128 位整数数据存储到内存中。

[2 x double] 的 128 位浮点 vector 存储到 128 位对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

使用非临时内存提示将 a 存储到 mem_addr 的内存中。

a.0 的非临时存储到 p 中。

将 32 位整数值存储在指定的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

将 128 位整数 vector 存储到 128 位对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

a.0 的非临时存储到 p 中。

a 中的包装的 8 位整数中减去 b 中的包装的 8 位整数。

a 中的包装的 16 位整数减去 b 中的包装的 16 位整数。

a 中的包装的 32 位整数中减去 b 中的包装的 32 位整数。

a 中的包装的 64 位整数中减去 b 中的包装的 64 位整数。

a 中减去 b 中的包装的双精度 (64-bit) 浮点元素。

减去 __m128 vectors。

返回一个新的 vector,其中 a 的低端元素被 a 的低端元素减去 b 的低端元素所代替。

a 减去 b 的第一个组件,从 a 复制其他组件。

使用饱和度从 a 的包装的 8 位整数减去 b 的包装的 8 位整数。

使用饱和度从 a 的包装的 16 位整数减去 b 的包装的 16 位整数。

使用饱和度从 a 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数。

使用饱和度从 a 中的包装的无符号 16 位整数减去 b 中的包装的无符号 16 位整数。

测试 a 128 位整数 vector 中的指定位是否全部为 1。

测试 128 位整数 vector 中的指定位是否全部为零。

测试 128 位整数 vector 中的指定位是否既不是全零也不是全 1。

计算 ab 中 128 位 (表示双精度 (64-bit) 浮点元素) 的按位与,产生中间 128 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

计算 ab 中 128 位 (代表单精度 (32-bit) 浮点元素) 的 128 位按位与,生成中间 128 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

测试 128 位整数 vector 中的指定位是否全部为 1。

计算 ab 中 128 位 (表示双精度 (64-bit) 浮点元素) 的按位与,产生中间 128 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

计算 ab 中 128 位 (代表单精度 (32-bit) 浮点元素) 的 128 位按位与,生成中间 128 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

测试 128 位整数 vector 中的指定位是否既不是全零也不是全 1。

计算 ab 中 128 位 (表示双精度 (64-bit) 浮点元素) 的按位与,产生中间 128 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

计算 ab 中 128 位 (代表单精度 (32-bit) 浮点元素) 的 128 位按位与,生成中间 128 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

测试 128 位整数 vector 中的指定位是否全部为零。

计算尾随的最低有效零位的数量。

比较 ab 的下部元素是否相等。

比较 ab 的低位的两个 32 位浮点数。 如果相等则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

比较 ab 的下限元素是否大于等于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于或等于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

比较 ab 的下限元素是否大于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

比较 ab 的下限元素是否等于或小于等于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于或等于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

比较 ab 的下限元素小于。

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

比较 ab 的较低元素是否不相等。

比较 ab 的低位的两个 32 位浮点数。 如果它们不相等,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

返回带有未定义元素的 __m128d 类型的 vector。

返回类型为 __m128 的 vector,其中包含未定义的元素。

返回带有未定义元素的 __m128i 类型的 vector。

ab 的高半部分解包并交织 8 位整数。

ab 的高半部分解包并交织 16 位整数。

ab 的高半部分解包并交织 32 位整数。

ab 的高半部分解包并交织 64 位整数。

所得的 __m128d 元素由两个 __m128d 交错输入元素的低阶值组成,即:

ab 的上半部分解包并交织单精度 (32-bit) 浮点元素。

ab 的下半部分解包并交织 8 位整数。

ab 的下半部分解包并交织 16 位整数。

ab 的下半部分解包并交织 32 位整数。

ab 的下半部分解包并交织 64 位整数。

所得的 __m128d 元素由两个 __m128d 交错输入元素的高阶值组成,即:

ab 的下半部分解包并交织单精度 (32-bit) 浮点元素。

计算 ab 的按位或。

包装的单精度 (32-bit) 浮点元素的按位异或。

计算 ab 中 128 位 (表示整数数据) 的按位 XOR。

无符号乘法,且不影响标志。

a 的连续低阶位分散到 mask 指定的位置处的结果中。

mask 指定的 x 的位收集到结果的连续低阶位位置。

计算设置的位。

读取硬件生成的 16 位随机值,并将结果存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

读取硬件生成的 32 位随机值,并将结果存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

读取符合 NIST SP800-90B 和 SP800-90C 的 16 位随机值,并存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

读取符合 NIST SP800-90B 和 SP800-90C 的 32 位随机值,并存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

读取处理器时间戳计数器的当前值。

将无符号的 32 位整数 ab 与无符号的 8 位进位 c_in (进位或溢出标志) 相加,并将无符号的 32 位结果存储在 out 中,并返回进位 (进位或溢出标志)。

清除 x 的最低有效零以下的所有位,并设置所有其他位。

清除 x 的最低有效零以下的所有位,并设置所有其他位。

计算尾随的最低有效零位的数量。

将所有位设置为低于 x 的最低有效位,并清除所有其他位。

将所有位设置为低于 x 的最低有效位,并清除所有其他位。

读取 xcr_no 中指定的扩展控制寄存器 XCR 的内容。

使用 mem_addr 内存中存储的状态信息执行已启用处理器状态的全部或部分还原。

_xrstorsxsave,xsaves

使用 mem_addr 内存中存储的状态信息执行已启用处理器状态的全部或部分还原。

将已启用的处理器状态全部或部分保存到 mem_addr 的内存中。

_xsavecxsave,xsavec

将已启用的处理器状态全部或部分保存到 mem_addr 的内存中。

_xsaveoptxsave,xsaveopt

将已启用的处理器状态全部或部分保存到 mem_addr 的内存中。

_xsavesxsave,xsaves

mem_addr 处将启用的处理器状态全部或部分保存到内存

val 复制 64 位到 a 指定的扩展控制寄存器 (XCR)。

Type Definitions

_MM_CMPINT_ENUMExperimental

_MM_CMPINT_ENUM 类型用于在 AVX-512 内部函数中指定比较操作。

MM_MANTISSA_NORM_ENUM 类型用于指定 AVX-512 内部函数中的尾数归一化操作。

MM_MANTISSA_SIGN_ENUM 类型用于指定 AVX-512 内部函数中的尾数签名操作。

_MM_PERM_ENUMExperimental

MM_PERM_ENUM 类型用于指定在 AVX-512 内部函数中的重排操作。

__mmask8Experimental

AVX-512 内部函数中使用的 __mmask8 类型,一个 8 位整数

__mmask16Experimental

AVX-512 内部函数中使用的 __mmask16 类型,一个 16 位整数

__mmask32Experimental

AVX-512 内部函数中使用的 __mmask32 类型,一个 32 位整数

__mmask64Experimental

AVX-512 内部函数中使用的 __mmask64 类型,一个 64 位整数