科研成果:修订间差异
无编辑摘要 |
无编辑摘要 |
||
第1行: | 第1行: | ||
{| | |||
|- | |||
| | |||
== THUASDSP2004超长指令字数字信号处理器 == | == THUASDSP2004超长指令字数字信号处理器 == | ||
[[File:Ginkgo.jpg|thumb|THUASDSP2004超长指令字数字信号处理器]] | [[File:Ginkgo.jpg|thumb|THUASDSP2004超长指令字数字信号处理器]] | ||
THUASDSP2004于2005年12月采用SMIC 0.18μm工艺完成流片测试任务。该处理最大的特点是有一个全局寄存器堆负责不同功能单元之间的数据交换。这比交换方式和总线方式效率提高,比单一寄存器堆面积减小、功耗降低。THUASDSP2004采用了为其定制的特有的指令集,由于THUASDS2004的主要设计目标是面向视频图像编解码的应用,所以其指令集中除了包含数字信号处理器的普通指令外,还包含了面向视频图像压缩算法的专用指令。普通指令是最基本的指令,包括加减法指令、存取指令、普通乘法指令、逻辑运算指令等;专用指令是在分析了常见的视频图像压缩算法以后提取出的可以提高视频图像压缩性能的指令,例如多数据的乘法指令、多数据的加减法指令、快速求汉明距离指令等。THUASDSP2004的指令集共有78条指令,其中普通指令67条,专用指令11条。另外,THUASDSP2004的所有指令均可以作为条件执行指令,条件执行指令的引入可以大量减少程序中跳转指令的使用,从而提高处理器的性能。 | THUASDSP2004于2005年12月采用SMIC 0.18μm工艺完成流片测试任务。该处理最大的特点是有一个全局寄存器堆负责不同功能单元之间的数据交换。这比交换方式和总线方式效率提高,比单一寄存器堆面积减小、功耗降低。THUASDSP2004采用了为其定制的特有的指令集,由于THUASDS2004的主要设计目标是面向视频图像编解码的应用,所以其指令集中除了包含数字信号处理器的普通指令外,还包含了面向视频图像压缩算法的专用指令。普通指令是最基本的指令,包括加减法指令、存取指令、普通乘法指令、逻辑运算指令等;专用指令是在分析了常见的视频图像压缩算法以后提取出的可以提高视频图像压缩性能的指令,例如多数据的乘法指令、多数据的加减法指令、快速求汉明距离指令等。THUASDSP2004的指令集共有78条指令,其中普通指令67条,专用指令11条。另外,THUASDSP2004的所有指令均可以作为条件执行指令,条件执行指令的引入可以大量减少程序中跳转指令的使用,从而提高处理器的性能。 | ||
|- | |||
| | |||
== 3G移动终端可视电话编解码芯片 == | == 3G移动终端可视电话编解码芯片 == | ||
[[File:Cercis.jpg|thumb|3G移动终端可视电话编解码芯片]] | [[File:Cercis.jpg|thumb|3G移动终端可视电话编解码芯片]] | ||
该芯片以清华大学研制的THUASDSP2004作为多媒体处理引擎,辅助以数据交换,码流编解码器,CMOS摄像头、LCD液晶屏和上位机接口以及多个存储器模块组成。该处理器最大的特点是能够非常灵活的实现各种多媒体处理运算而同时保证处理性能和超低功耗。芯片25MHz频率可以处理15帧/秒的视频编码和解码,功耗50mW,SMIC 0.13μm 1P6M工艺条件下芯片面积5x5mm2。 | 该芯片以清华大学研制的THUASDSP2004作为多媒体处理引擎,辅助以数据交换,码流编解码器,CMOS摄像头、LCD液晶屏和上位机接口以及多个存储器模块组成。该处理器最大的特点是能够非常灵活的实现各种多媒体处理运算而同时保证处理性能和超低功耗。芯片25MHz频率可以处理15帧/秒的视频编码和解码,功耗50mW,SMIC 0.13μm 1P6M工艺条件下芯片面积5x5mm2。 | ||
|- | |||
| | |||
== 单精度浮点运算单元THFPU2005 == | == 单精度浮点运算单元THFPU2005 == | ||
[[File:Fpu.jpg|thumb|单精度浮点运算单元THFPU2005]] | [[File:Fpu.jpg|thumb|单精度浮点运算单元THFPU2005]] | ||
THFPU2005是一款兼容IEEE 754浮点运算标准的单精度浮点运算单元,其中包括一个乘加单元实现乘法、加法(减法)及其混合运算;一个除法单元;一个平方根计算单元;以及一个定点和浮点数相互转换的单元。 性能参数(UMC 0.18μm CMOS工艺):面积相当于约40万门,内核面积小于1.00mm2;支持最高工作时钟频率154MHz;于最高时钟频率,工作于乘加模式,内核功耗最大为92.9mW;浮点运算性能2MFLOPs/MHz。 | THFPU2005是一款兼容IEEE 754浮点运算标准的单精度浮点运算单元,其中包括一个乘加单元实现乘法、加法(减法)及其混合运算;一个除法单元;一个平方根计算单元;以及一个定点和浮点数相互转换的单元。 性能参数(UMC 0.18μm CMOS工艺):面积相当于约40万门,内核面积小于1.00mm2;支持最高工作时钟频率154MHz;于最高时钟频率,工作于乘加模式,内核功耗最大为92.9mW;浮点运算性能2MFLOPs/MHz。 | ||
|- | |||
| | |||
== 可配置超长指令字处理器 == | == 可配置超长指令字处理器 == | ||
[[File:Lily.jpg|thumb|可配置超长指令字处理器]] | [[File:Lily.jpg|thumb|可配置超长指令字处理器]] | ||
在2006年信息产业部集成电路发展资金的资助下。清华大学数字信号处理器研究组开始了商品化DSP的研究。开发代号LILY。目前设计工作已经完成。体系结构相关论文 “Architecture Design of A Variable Length Instruction Set VLIW DSP” 已被清华学报英文版接收,将于本年发表。同时还申请了两项体系结构专利(200810006836.7,200810101451.9)和三项指令专利(200910190205.2, 200910190203.3, 200910190204.8)。该处理器拥有最高8路功能单元的VLIW内核设计。拥有两级缓存。其中一级数据缓存可以配置2路或者4路。与处理器匹配的汇编器,链接器和仿真器等支持软件也已经设计完成。基于Open64的C编译器可以打开O3级优化选项。 | 在2006年信息产业部集成电路发展资金的资助下。清华大学数字信号处理器研究组开始了商品化DSP的研究。开发代号LILY。目前设计工作已经完成。体系结构相关论文 “Architecture Design of A Variable Length Instruction Set VLIW DSP” 已被清华学报英文版接收,将于本年发表。同时还申请了两项体系结构专利(200810006836.7,200810101451.9)和三项指令专利(200910190205.2, 200910190203.3, 200910190204.8)。该处理器拥有最高8路功能单元的VLIW内核设计。拥有两级缓存。其中一级数据缓存可以配置2路或者4路。与处理器匹配的汇编器,链接器和仿真器等支持软件也已经设计完成。基于Open64的C编译器可以打开O3级优化选项。 | ||
|- | |||
| | |||
== 高性能片上网络 == | == 高性能片上网络 == | ||
[[File:Switch.jpg|thumb|高性能片上网络]] | [[File:Switch.jpg|thumb|高性能片上网络]] | ||
基于包交换的网络结构提供高的吞吐量和很好的可扩展性,该网络广泛地被看作在多核时代的片上数据通信标准的一个事实。然而这些优点都是以路由延时为代价的。路由延时取决于运行时间多跳数据缓冲和资源仲裁。这些作为大量的片上传输延时。这个工作中,我们研究和分析了片上网络对整个系统性能影响,指出了对于片上网络来讲,部分关键数据包的延时极大程度上影响系统性能。为此我们针对这些关键的数据包,对片上通信进行优化提出了三种技术显著改善片上网络的延时并提高系统性能。1、基于局部性的片上资源预测和预留;2、关键延时虚拟通道设计;3、优先级排序的开关竞争逻辑设计。我们通过在科学和商业上广泛应用的测试基准验证了我们的三种技术,得到36.2%的性能提升。我们在TSMC65纳米工艺条件下完成的对应路由器的物理设计。相关成果已在国际前沿会议上发表。 | 基于包交换的网络结构提供高的吞吐量和很好的可扩展性,该网络广泛地被看作在多核时代的片上数据通信标准的一个事实。然而这些优点都是以路由延时为代价的。路由延时取决于运行时间多跳数据缓冲和资源仲裁。这些作为大量的片上传输延时。这个工作中,我们研究和分析了片上网络对整个系统性能影响,指出了对于片上网络来讲,部分关键数据包的延时极大程度上影响系统性能。为此我们针对这些关键的数据包,对片上通信进行优化提出了三种技术显著改善片上网络的延时并提高系统性能。1、基于局部性的片上资源预测和预留;2、关键延时虚拟通道设计;3、优先级排序的开关竞争逻辑设计。我们通过在科学和商业上广泛应用的测试基准验证了我们的三种技术,得到36.2%的性能提升。我们在TSMC65纳米工艺条件下完成的对应路由器的物理设计。相关成果已在国际前沿会议上发表。 | ||
|- | |||
| | |||
== VLIW通用处理器 == | == VLIW通用处理器 == | ||
[[File:Magnolia.jpg|thumb|VLIW通用处理器]] | [[File:Magnolia.jpg|thumb|VLIW通用处理器]] | ||
2009年设计完成的一款面向通用应用的的超长指令字处理器。开发代号Magnolia。该处理器利用VLIW架构提高指令并行度。并且设计了定点和浮点向量单元,提高数据并行度。32位指令宽度下,拥有近900条定点,浮点和向量指令。 | 2009年设计完成的一款面向通用应用的的超长指令字处理器。开发代号Magnolia。该处理器利用VLIW架构提高指令并行度。并且设计了定点和浮点向量单元,提高数据并行度。32位指令宽度下,拥有近900条定点,浮点和向量指令。 | ||
|- | |||
|} |
2011年5月11日 (三) 06:28的最新版本
THUASDSP2004超长指令字数字信号处理器THUASDSP2004于2005年12月采用SMIC 0.18μm工艺完成流片测试任务。该处理最大的特点是有一个全局寄存器堆负责不同功能单元之间的数据交换。这比交换方式和总线方式效率提高,比单一寄存器堆面积减小、功耗降低。THUASDSP2004采用了为其定制的特有的指令集,由于THUASDS2004的主要设计目标是面向视频图像编解码的应用,所以其指令集中除了包含数字信号处理器的普通指令外,还包含了面向视频图像压缩算法的专用指令。普通指令是最基本的指令,包括加减法指令、存取指令、普通乘法指令、逻辑运算指令等;专用指令是在分析了常见的视频图像压缩算法以后提取出的可以提高视频图像压缩性能的指令,例如多数据的乘法指令、多数据的加减法指令、快速求汉明距离指令等。THUASDSP2004的指令集共有78条指令,其中普通指令67条,专用指令11条。另外,THUASDSP2004的所有指令均可以作为条件执行指令,条件执行指令的引入可以大量减少程序中跳转指令的使用,从而提高处理器的性能。 |
3G移动终端可视电话编解码芯片该芯片以清华大学研制的THUASDSP2004作为多媒体处理引擎,辅助以数据交换,码流编解码器,CMOS摄像头、LCD液晶屏和上位机接口以及多个存储器模块组成。该处理器最大的特点是能够非常灵活的实现各种多媒体处理运算而同时保证处理性能和超低功耗。芯片25MHz频率可以处理15帧/秒的视频编码和解码,功耗50mW,SMIC 0.13μm 1P6M工艺条件下芯片面积5x5mm2。 |
单精度浮点运算单元THFPU2005THFPU2005是一款兼容IEEE 754浮点运算标准的单精度浮点运算单元,其中包括一个乘加单元实现乘法、加法(减法)及其混合运算;一个除法单元;一个平方根计算单元;以及一个定点和浮点数相互转换的单元。 性能参数(UMC 0.18μm CMOS工艺):面积相当于约40万门,内核面积小于1.00mm2;支持最高工作时钟频率154MHz;于最高时钟频率,工作于乘加模式,内核功耗最大为92.9mW;浮点运算性能2MFLOPs/MHz。 |
可配置超长指令字处理器在2006年信息产业部集成电路发展资金的资助下。清华大学数字信号处理器研究组开始了商品化DSP的研究。开发代号LILY。目前设计工作已经完成。体系结构相关论文 “Architecture Design of A Variable Length Instruction Set VLIW DSP” 已被清华学报英文版接收,将于本年发表。同时还申请了两项体系结构专利(200810006836.7,200810101451.9)和三项指令专利(200910190205.2, 200910190203.3, 200910190204.8)。该处理器拥有最高8路功能单元的VLIW内核设计。拥有两级缓存。其中一级数据缓存可以配置2路或者4路。与处理器匹配的汇编器,链接器和仿真器等支持软件也已经设计完成。基于Open64的C编译器可以打开O3级优化选项。 |
高性能片上网络基于包交换的网络结构提供高的吞吐量和很好的可扩展性,该网络广泛地被看作在多核时代的片上数据通信标准的一个事实。然而这些优点都是以路由延时为代价的。路由延时取决于运行时间多跳数据缓冲和资源仲裁。这些作为大量的片上传输延时。这个工作中,我们研究和分析了片上网络对整个系统性能影响,指出了对于片上网络来讲,部分关键数据包的延时极大程度上影响系统性能。为此我们针对这些关键的数据包,对片上通信进行优化提出了三种技术显著改善片上网络的延时并提高系统性能。1、基于局部性的片上资源预测和预留;2、关键延时虚拟通道设计;3、优先级排序的开关竞争逻辑设计。我们通过在科学和商业上广泛应用的测试基准验证了我们的三种技术,得到36.2%的性能提升。我们在TSMC65纳米工艺条件下完成的对应路由器的物理设计。相关成果已在国际前沿会议上发表。 |
VLIW通用处理器2009年设计完成的一款面向通用应用的的超长指令字处理器。开发代号Magnolia。该处理器利用VLIW架构提高指令并行度。并且设计了定点和浮点向量单元,提高数据并行度。32位指令宽度下,拥有近900条定点,浮点和向量指令。 |