通过一个Vector*Matrix的例子来详细的讲述了如何使用SSE来优化我们的操作,讲解的很详细了.

      例子分成下面的这几个步骤来完成优化操作:

      Naïve C++ 

      Basic SSE 

      Batch Processing

      16-byte memory alignment 

      Instruction Pairing

      Prefetching

      Increase Temporal Locality of Memory I/O 

      Application-Specific Specialization 

      最终函数的执行时间从90 cycles/vector降到了17 cycles/vector,呵呵

    Optimizing for SSE: A Case Study

版权声明:本文为sevecol原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/sevecol/archive/2004/12/29/83592.html