关键词:
Hadoop
分布式系统
MapReduce调度机制
HDFS存储策略
外观专利
摘要:
近年来,各个厂商围绕着外观设计专利的争端不绝于耳,越来越多的产品外观“似曾相识”。这一情况不仅让厂商在设计产品时绞尽脑汁,也让外观设计的重要性上升到前所未有的高度。随着企业产权意识的加强,外观设计专利信息的需求与应用越来越广泛。对于一个外观专利图像检索系统来说,随着数量的海量增长,检索系统的实时性和稳定性得不到保障。在当今大数据时代的背景下,外观专利数量爆发式的增长给检索系统的性能提出了空前的要求,而云计算技术正是这一问题最理想的答案。基于Hadoop的云计算平台具有高可靠性,高效性和高拓展性,是众多互联网企业和机构进行大规模数据处理的理想解决方案。在分布式的环境中,集群内的每个节点都可能是由配置不同的机器组成,不可避免的会出现各个节点的性能差距较大,或者由于网络故障导致拓扑结构异常等情况。而目前Hadoop中的MapReduce任务调度机制以及HDFS存储策略在复杂异构应用场景中的性能表现低下,已经成为海量数据处理中的瓶颈。本文针对基于Hadoop平台的外观专利图像检索这一具体系统,针对默认的MapReduce任务调度机制和HDFS存储策略在实际应用场景中性能表现不佳的现象,分别提出优化措施,提高系统性能。主要工作如下:(1)对Hadoop框架,及其核心MapReduce、HDFS的设计原理和执行流程进行深入分析。(2)针对在Hadoop平台在外观图像专利检索系统实际使用中暴露出来的性能问题,分别改进为LASE任务调度策略和HIFI存储策略来提高系统性能。(3)通过实验验证针对Hadoop平台的外观图像专利检索优化策略。实验结果表明,优化的系统确实能提高Hadoop平台的性能,有效降低外观专利图像检索系统对用户请求的响应时间。