关键词:
数据可视化
可视分析
大数据分析
数据治理
供应链数字化转型
摘要:
数据是企业数字化转型的基石。数据质量对大数据分析及其应用的精确性与可信度具有决定性影响,直接关系到决策的科学性及业务发展的成败。因此,数据治理成为数字化转型成功的关键要素之一。然而,随着大型供应链企业对数据质量要求的不断提升,数据治理领域仍然面临着多重挑战,如数据类型多样、数据不完整、数据维度高以及数据冗余度高等。面对大型供应链企业海量、多源、异构、高维以及多模态数据的治理需求,传统的数据治理方法已逐渐显露出其在可靠性与准确性方面的局限性。与此同时,新兴的人工智能治理方法在处理复杂数据质量问题时,也面临着成本、效率及质量之间的平衡难题。鉴于此,探索开发更为精准、高效的数据治理工具,以更有效地提升数据质量并挖掘其潜在价值,已成为当前数据治理领域的迫切需求。
本文针对大型供应链企业数据治理面临的多重挑战进行了全面而深入的系统性研究。本文聚焦于解决数据异构、缺失、高维与重复等关键问题,围绕数据转换、补全、降维及去重这四大核心技术领域展开了细致的分析与探讨,提出了面向数据治理的可视分析技术,并结合研究成果进行了实际工程应用及验证。本文主要研究内容及核心贡献概括如下:
(1)基于领域知识及智能抽取的数据转换可视分析技术。针对PDF文档存在的文本冗长、数据海量及格式复杂等挑战,以及传统的数据转换方法成本高、效率低和质量差等局限性问题,研发了一种基于智能模型的创新统一框架,可从PDF文档中同时识别与提取表格、图像及文本等非结构化数据;设计了一套融合领域知识的智能抽取算法,可高效提取具有不规则布局、跨多页或具有复杂内部结构的表格数据;构建了一个新型的交互式系统,采用先进的可视化工具实现了高效的数据审核及分析,并通过算法评估及系统评估验证了方法的可行性和有效性。
(2)基于多方表格数据关联策略的数据补全可视分析技术。针对传统数据补全方法未能在补全值的准确性与效率之间达到最佳平衡的问题,提出了一种基于多方表格数据关联策略数据补全可视分析方法,采用相似度算法识别相似列并在多个表格之间建立列之间的关联关系,然后利用其它表格中的相似数据条目实现缺失数据的智能补全。此外,研发了一个交互式可视分析系统来优化数据补全的候选值,将多方数据补全方法与专家知识相结合,有助于更好地理解数据的关系结构,显著提高了数据补全的准确性和效率,提升了数据治理的质量及数据资产的潜在价值。
(3)基于多级k-近邻表示的高效数据降维可视化技术。针对供应链数据的多样性及高维特征,以及Large Vis等主流数据降维技术在应用于大规模高维数据集时,仍然存在损失函数的非凸性而导致数据降维效果不佳、单级k-近邻图可视化很耗时等两个主要问题,提出了一种基于多级k-近邻的新型数据降维可视化方法。该方法采用多级表示实现更高质量的k-近邻图可视化,并引入基于聚类的梯度近似算法加速k-近邻图的可视化过程。定量与定性实验分析表明该方法在处理大规模数据集时具有更好的降维可视化效果。
(4)基于表示学习及聚类的多维度数据去重可视分析技术。针对传统数据去重方法在成本、效率及易用性等方面的问题,提出了一种新型的数据去重可视分析方法。该方法利用表示学习技术将多维度数据转化为高维向量,再使用降维算法将这些向量映射到二维空间,以便进行直观的可视分析。然后,结合无监督聚类算法和参数优化策略,使用户能够更为直观地理解数据的分布特征和相似关系。此外,研发了一个高效的交互式数据去重可视分析系统,通过引入多种交互方式,使用户能够快速识别高相似度的重复数据,并进行精确的筛选及去重处理,为数据分析和应用奠定坚实基础。
综上所述,针对大型供应链企业数据治理面临的多重挑战,本文提出了一系列包括数据转换、补全、降维与去重的数据治理智能方法,并采用可视分析技术优化了数据治理的流程、质量及效率。从工程应用视角来看,本文研究成果为企业数字化转型提供了高效的数据治理解决方案,在某世界500强大型供应链上市公司的海量、多源、异构、高维及多模态数据治理实际场景中,展现出良好的适用性及显著的应用成效。