📄 csdn_文档中心_win32 多线程的性能(1).htm
字号:
<TD align=middle bgColor=#000000 colSpan=2 height=1
width=770></TD></TR></TBODY></TABLE>
<TABLE border=0 cellPadding=0 cellSpacing=0 width=770>
<TBODY>
<TR>
<TD bgColor=#f3f9fc height=23 width=10></TD>
<TD bgColor=#f3f9fc>
<MARQUEE onmouseout=this.start() onmouseover=this.stop() scrollAmount=5
scrollDelay=80>
<SCRIPT src="CSDN_文档中心_Win32 多线程的性能(1).files/marquee.htm"></SCRIPT>
</MARQUEE></TD>
<TD align=right bgColor=#f3f9fc width=101>
<SCRIPT>document.write("<img src=http://count.csdn.net/count/pageview1.asp?columnid=4&itemid=11 border=0 width=0 height=0>");</SCRIPT>
<B>
<SCRIPT language=JavaScript>
<!--
document.ns = navigator.appName == "Netscape"
tmpDate = new Date();
date = tmpDate.getDate();
month= tmpDate.getMonth() + 1 ;
if(document.ns)
{
year1=tmpDate.getYear()
year= year1.toString().substr(1,2);
}
else
year= tmpDate.getYear();
document.write(year);
document.write(".");
document.write(month);
document.write(".");
document.write(date);
// -->
</SCRIPT>
</B> </TD></TR>
<TR bgColor=#999999>
<TD colSpan=3 height=1></TD></TR></TBODY></TABLE>
<TABLE border=0 width=770>
<TBODY>
<TR>
<TD align=middle bgColor=#fafafa class=td1 vAlign=top width=150><BR>
<SCRIPT src="CSDN_文档中心_Win32 多线程的性能(1).files/microsoft.js"></SCRIPT>
</TD>
<TD align=middle width=620>
<TABLE bgColor=#eeeeee border=0 cellPadding=0 cellSpacing=0 width=600>
<TBODY>
<TR bgColor=#ffffff>
<TD align=middle height=10 width=50></TD>
<TD align=right><A href="http://www.csdn.net/">CSDN</A> - <A
href="http://www.csdn.net/develop/">文档中心</A> - <FONT
color=#003399>Visual C++</FONT> </TD></TR>
<TR>
<TD align=middle height=5></TD>
<TD align=middle width=500></TD></TR>
<TR>
<TD align=middle bgColor=#003399 height=10><FONT
color=#ffffff>标题</FONT></TD>
<TD><B> Win32
多线程的性能(1)</B> vcbear(收藏) </TD></TR>
<TR>
<TD align=middle height=5></TD>
<TD align=middle width=500></TD></TR>
<TR>
<TD align=middle bgColor=#003399><FONT color=#ffffff>关键字</FONT></TD>
<TD width=500> Win32 多线程的性能(1)</TD></TR>
<TR>
<TD align=middle height=5></TD>
<TD align=middle width=500></TD></TR></TBODY></TABLE><!--文章说明信息结束//-->
<TABLE border=0 width=600>
<TBODY>
<TR>
<TD align=left><BR>
<P><FONT color=#ff8000>Win32 多线程的性能(1)</FONT></P>
<TABLE border=0 width="100%">
<TBODY>
<TR>
<TD bgColor=#98a2bc>作者:Microsoft公司供稿</TD></TR></TBODY></TABLE>
<DIV align=left>
<TABLE border=0 width="100%">
<TBODY>
<TR>
<TD bgColor=#ebebeb>Ruediger R. Asche<BR>Microsoft Developer
Network
技术小组<BR>摘要<BR><BR><BR> 本文讨论将单线程应用程序重新编写成多线程应用程序的策略。它以Microsoft?
Windows? 95和Windows
NT?的平台为例,从吞吐量(throughput)和响应方面,与兼容的单线程计算相比较而分析了多线程计算的性能。<BR><BR><BR>介绍<BR><BR><BR> 在您所能够找到的有关多线程的资料中,多数都是讲述同步概念的。例如,如何串行化(serialize)共享公共数据的线程。这种把重点放在讨论同步上是有意义的,因为同步是多线程编程中不可缺少的一部分。本文则后退了一步(takes
a step
back),主要讨论有关多线程中很少有人涉及的一面:决定一个计算如何能够被有意义地拆分为多个线程。本文中所使用的示例程序,THRDPERF,在Microsoft?
Windows? 95和Windows NT?
两个平台之上,针对同一个计算采取串行和并发两种方法分别实现了测试套件(test
suite),并从吞吐量和性能两方面来比较它们。<BR><BR> 本文的第一部分建立了一些有关多线程应用程序的词汇(vocabulary),讨论测试套件的范围,并且介绍了示例程序套件是如何设计的。第二部分讨论测试的结果,并且包括对于多线程应用程序设计的建议。与之相关的文章
"Interacting with Microsoft Excel: A Case Study in OLE
Automation" 讨论有关该示例程序套件的一个有趣的问题,即使用测试集合所获得的数据是如何使用 OLE
Automation被输入 Microsoft Excel
中的。<BR><BR> 如果您是经验丰富的多线程应用程序编程者,您可以跳过介绍部分,而直接到下面的“结果”部分。<BR><BR><BR>多线程词汇<BR><BR><BR> 很长一段时间以来,您的应用程序一直被使用——它运转出色,是可以信赖的,而且
the whole
bit——但它十分的迟缓,并且您有如何利用多线程的想法。但是,在开始这样做之前请稍等一会儿,因为这里有许多的陷阱,它们使您相信某种多线程设计是非常完美的,但实际上并不是这样。<BR><BR> 在您跳至有关要进入的结论之前,首先让我们澄清一下在本文中将不讨论的内容:
<BR><BR><BR>在 Microsoft Win32?
应用程序编程接口(API)下提供多线程访问的库是不同的,但是我们不关注这一问题。示例程序套件,Threadlib.exe,是在一个Microsoft
Foundation Class Library
(MFC)应用程序中使用Win32多线程API来编写的,但是,您是使用Microsoft
C运行时(CRT)库、MFC库,还是单纯的(barebones) Win32
API来创建和维持线程,我们并不关心。<BR><BR> 实际上,每一种库最后都要调用 Win32
系统服务CreateThread来创建一个工作线程,并且多线程本身总是要通过操作系统来执行。您想要使用哪一种包装机制将不会影响本文的论题。当然,您是使用某一个还是使用其它的包装库(wrapper
library),可能会引起性能上的差异,但是在这儿,我们主要讨论多线程的本质,而不关心其包装(wrapper)。<BR><BR><BR>本文所讨论的是在单处理器机器上运行的多线程应用程序。多处理器计算机则是一个完全不同的主题,并且本文中所讨论的结论,几乎没有一个可以应用于多处理器的机器中。我还没有这样的机会在一个运行
Windows NT
系统的可调整的(scalable)对称多线程(SMP)机器上执行该示例。如果您有这样的机会,我非常高兴地希望知道您的结果。<BR><BR><BR>在本文中,我更喜欢一般性地引用“计算”。计算被定义为您的应用程序的一个子任务,可以被作为整体或部分来执行,可以早于或迟于另一个计算,或者与其他的计算同时发生。例如,让我们假设某个应用程序需要用户的数据,并且需要保存这些数据到磁盘。我们可以假定输入数据包含一种计算,而保存这些数据则是另一种计算。根据应用程序的计算的设计,下面两种情况都是可能的:一种是数据的保存和新数据的输入是同时交叉进行的;另一种是直到用户已经输入了全部的数据才可是将数据保存到磁盘上。第一种情况一般可以使用某种形式的多线程来实现;我们称这种组织计算的方式为并发或交互。后一种情况一般可以用单线程应用程序来实现,在本文中,它被称为串行执行。<BR><BR><BR>有关并发应用程序的设计是一个非常复杂的过程。一般非常有钱的(who
make a ton of
money)人比较喜欢它,因为要计算出一个给定的任务采用并发执行到底有多大的好处,通常需要多年的研究。本文并不想要教您如何设计多线程应用程序。相反,我要向您指出某些多线程应用程序设计的问题所在,而且,我使用真实(real-life)的性能测试来讨论我的例子。在阅读过本文后,您应该能够观察一个给定的设计,并且能够决定某种设计是否提高了该应用程序的整体性能。<BR><BR><BR>多线程应用程序设计步骤中的一部分工作,就是要决定在何处存在可能潜在地引起数据毁坏的多线程数据访问冲突,以及如何使用线程的同步来避免这种冲突。这项任务(以后,本文将称之为线程编序(thread
serialization))是许多有关多线程的文章的主题,(例如,MSDN Library中的
"Synchronization on the Fly"或"Compound Win32 Synchronization
Objects"),在本文中将丝毫不涉及对它的讨论。有关在本文中要讨论的,我们将假定需要并发的计算并不共享任何数据,并且因此而不需要任何线程编序。这种约定看起来可能有点苛刻,但是请您牢记,不可能有关于同步多线程应用程序的“通用”的讨论,因为每一次编序都将强加一个唯一的“等待-醒来”结构(waiting-and-waking
pattern)到已编序的线程,它将直接地影响性能。<BR><BR><BR>Win32下的大多数输入/输出(I/O)操作有两种形态:同步或异步。已经被证明在许多的情况下,一个使用同步I/O的多线程设计可以被使用异步单线程I/O的设计来模拟。本文并不讨论作为多线程替代形式的异步单线程I/O,但是,我建议您最好两种设计都考虑。<BR><BR> 注意到Win32
I/O系统设计的方式是提供一些机制,使得异步I/O要优于同步I/O(例如,I/O全能端口(completion
ports))。我计划在以后的文章中讨论有关同步I/O和异步I/O的问题。<BR><BR><BR>正如在"Multiple
Threads in the User
Interface"一文中所指出的,多线程和图形用户界面(GUI)不能很好地共同工作。在本文中,我假设后台线程可以执行其工作而根本不需要使用Windows
GUI;我所处理的这种类型的线程仅仅是“工作线程”,它仅在后台执行计算,而不需要与用户的直接交互。<BR><BR><BR>有有限计算,同样也有与之相对应的无限计算。服务器端应用程序中的一个“倾听”线程就是无限计算的一个例子,它没有任何的目的,只是等待一个客户连接到服务器。在一个客户已经连接之后,该线程就发送一个通知到主线程,并且返回到“倾听”状态,直到下一个客户的连接。很自然,这样的一种计算不可能驻留在同一个作为应用程序用户界面(UI)的线程之中,除非使用一种异步I/O操作。(请注意,这个特定的问题能够,也应该通过使用异步I/O和全能(completion)端口来解决,而不是使用多线程,我在这里使用这个例子仅仅是用作演示)。在本文中,我将只考虑有限计算,就是说,应用程序的子任务将在有限的时间段之后结束。<BR><BR><BR>基于CPU的计算和基于I/O的计算<BR><BR><BR> 对于一个单个的线程,决定所给定的计算是否是一个优秀的方案的最重要因素是,该计算是一个基于CPU的计算还是基于I/O的计算。基于CPU的计算是指这种计算的大多数时间CPU都非常“忙”。典型的基于CPU的计算如下:<BR><BR><BR><BR>复杂的数学计算,例如复数的计算、图形的处理、或屏幕后台图形计算<BR><BR><BR>对驻留在内存中的文件图像的操作,例如在一个文本文件的内存镜像中的给定字符串。<BR><BR><BR> 相比较而言,基于I/O的计算是这样的一种计算,它的大多数时间要花费在等待I/O请求的结束。在大多数的操作系统中,正在进入的设备I/O将被异步地处理,可能是由一个专门的I/O处理器来处理,或由一个有效率的中断处理程序来处理,并且,来自于某个应用程序的I/O请求将会挂起调用线程,直到I/O结束。一般来说,花费大部分时间来等待I/O请求的线程不会与其他的线程争夺CPU时间;因此,同基于CPU的线程相比,基于I/O的计算可能不会降低其他线程的性能,(稍后,我将解释这一论点)<BR><BR><BR> 但是请注意,这种比较是非常理论性的。大多数的计算都不是纯粹的基于I/O的或纯粹的基于CPU的,而是基于I/O的计算和基于CPU的计算都包含。同一集合的计算可能在一种方案中使用顺序计算而运行良好,而在另一种方案中使用并发的计算,这取决于基于CPU的计算和基于I/O的计算的相对划分。<BR><BR><BR>多线程设计的目标<BR><BR><BR> 在想要对您的应用程序应用多线程之前,您应该问问自己这种转变的目标是什么。多线程有许多潜在的优点:<BR><BR><BR><BR>增强的性能<BR><BR><BR>增强的容量(throughput)<BR><BR><BR>更好地用户快速响应(responsiveness)<BR><BR><BR> 让我们依次讨论上面的每一个优点。<BR><BR><BR>性能<BR><BR><BR> 考虑到时间,让我们简单地定义“性能”就是给定的一个或一组计算所消耗的全部时间。按照其定义,则性能的比较就仅仅是对有限计算而言的。<BR><BR><BR> 无论您相信与否,多线程方案对应用程序的性能的提高是非常有限的。这里面的原因不是很明显,但是它非常有道理:<BR><BR><BR><BR>除非是该应用程序运行于一个多处理器的机器上,(在这种情况下,子计算真正地是并行执行的),基于CPU的计算在多线程情况下不可能比在单线程情况下的执行速度快。这是因为,无论计算被分解成小块(在多线程的情况下)或大块(在同一线程中计算按顺序挨个执行的情况下),只有一个CPU,而且它必需执行所有的计算。结果是,对于一组给定的计算,如果是以多个线程来执行,那么一般会比按串行方式计算完成的时间要长,因为它增加了创建线程和在线程之间切换CPU的额外负担。<BR><BR><BR>一般来说,必定会有某些情况,无论多个计算的完成谁先谁后,但是它们的结果必需同步。例如,使用多个线程来并发的读多个文件到内存中,那么文件被处理的顺序我们是不关心的,但是必需等到所有的数据都读入内存之后,应用程序才能开始处理。我们将在“容量”一节讨论这个想法。<BR><BR> 在本文中,我们将以消耗的时间,即完成所有的计算所消耗的总的时间,来衡量性能。<BR><BR><BR>容量(Throughput)<BR><BR><BR> 容量(或响应),是指每一个计算的平均处理周期(turnaround)的时间。为了演示容量,让我们假设一个超级市场的例子(它总是一个有关操作系统的极好的演示工具):假设每一个计算就是一个在结算柜台被服务的顾客。对于超级市场来说,既可以为每一个顾客开设一个结算柜台,也可以把所有的顾客集中起来通过一个结算柜台。为了我们分析的需要,假设是有多个结算柜台的情况,但是,仅有一个收银员(可怜的家伙!)来服务所有的顾客,而不考虑顾客是在一个柜台前排队或多个柜台前排队。这个超级收银员将高速地从一个柜台跳到下一个柜台,一次仅处理(ringing
up)一个顾客的一件商品,然后,就移动到下一个顾客。这个超级的收银员就象是被多个计算所割裂的CPU。<BR><BR> 就象我们在前面的“性能”一节中所看到的,服务所有顾客的总的时间并没有因为有多个结算柜台打开而减少,因为无论顾客是在一个柜台还是多个柜台被服务,总是这一个收银员来完成所有的工作。但是,事情是这样,同只有一个结算柜台相比,顾客还是喜欢这种超级收银员的方式。这是因为一般情况下,顾客的手推车里的商品数的差别是巨大的,某些顾客的手推车中有一大堆的商品,而某些顾客则只想买很少几件商品。如果您曾经只希望买一盒
granola
bars和一夸脱牛奶,而却排在某个来为全家24口人采购的先生后面,那您就知道我说的是意味着什么了。<BR><BR> 无论怎样,如果您能够被
Clark Kent
先生以高速度服务,而不是在那里排队,您就不会太在意完成结帐的时间是否稍长,因为不管怎么样,两件商品都会很快地被处理完。而满载着为24口人采购的商品的手推车是在另一个柜台被处理的,所以您可以很快就完成结帐而离开。<BR><BR> 因此,容量就是度量在一个给定的时间内有多少个计算可以被执行。每一个计算是这样度量它的进程的,那就是要比较以下的两个时间:完成本计算花费了多少的时间,以及假设该计算被首先处理的话要花费多少时间。换句话说,如果您去了超级市场,并且希望两分钟就离开那里,但是实际上您花费了两个小时来为您的两件商品结算,原因是您排在了购买其1997生产线的
Betty Crocker
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -