5.2 数据工程

  1. 数据模型:概念模型、逻辑模型、物理模型。(1)概念模型也称信息模型,它是按用户的观点来对数据和信息建模,也就是说,把现实世界中的客观对象抽象为某一种信息结构,这种信息结构不依赖于具体的计算机系统,也不对应某个具体的 DBMS,它是概念级别的模型。(2)逻辑模型是在概念模型的基础上确定模型的数据结构,目前主要的数据结构有层次模型、网状模型、关系模型、面向对象模型和对象关系模型。其中,关系模型成为目前最重要的一种逻辑数据模型。关系的完整性约束包括三大类型:实体完整性、参照完整性和用户定义的完整性。(3)物理模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。【2023 上】
  2. 数据建模过程:数据需求分析、概念模型设计、逻辑模型设计、物理模型设计
  3. 数据元标准化:(1)数据元:是数据库、文件和数据交换的基本数据单元。数据元组成:对象、特性、表示。(2)数据元提取:是数据元标准化的一项重要内容,为了确保数据元具有科学性和互操作性,需要采用合理的数据元提取方法。目前常用的数据元提取方法有两种:自上而下提取法(新建系统)自下而上提取法(已建系统)。【2023 上】
  4. 数据分类与编码标准化:是简化信息交换、实现信息处理和信息资源共享的重要前提,是建立各种信息管理系统的重要技术基础和信息保障依据。通过分类与编码标准化,可以最大限度地消除对信息命名、描述、分类和编码的不一致造成的混乱、误解等现象,可以减少信息的重复采集、加工、存储等操作,使事物的名称和代码的含义统一化、规范化,确立代码与事物或概念之间的一一对应关系,以保证数据的准确性和相容性,为信息集成与资源共享提供良好的基础。【2023 下】
  5. 数据标准化管理四个阶段:确定数据需求制定数据标准→批准数据标准→实施数据标准。
  6. 数据备份:是为了防止由于用户操作失误、系统故障等意外原因导致的数据丢失,而将整个应用系统的数据或一部分关键数据复制到其他存储介质上的过程。(1)数据备份结构:DAS 备份结构、基于 LAN 的备份结构、LAN-FREE备份结构、SERVER-FREE 备份结构。(2)常见的备份策略:完全备份、差分备份、增量备份
  7. 数据容灾:(1)应用容灾用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务;(2)数据容灾则关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中的数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。【2023 上】
  8. 数据质量评价与控制:数据质量高低必须从用户使用的角度来看,即使准确性相当高的数据,如果时效性差或者不为用户所关心,仍达不到质量管理标准。(1)数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素数据质量非定量元素。(2)数据质量评价过程是产生和报告数据质量结果的一系列步骤。(3)数据质量评价方法分为直接评价法间接评价法。(4)数据产品的质量控制分成前期控制后期控制两个大部分。前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制;后期控制为数据录入完成后的后处理质量控制与评价。(5)数据清理也称数据清洗,主要包括数据分析、数据检测和数据修正三个步骤。
  9. 数据挖掘:(1)数据挖掘与传统数据分析不同:两者分析对象的数据量有差异;两者运用的分析方法有差异;两者分析侧重有差异;两者成熟度不同。(2)数据挖掘流程:确定分析对象→数据准备→数据挖掘→结果评估→结果应用,这些阶段在具体实施中可能需要重复多次。为完成这些阶段的任务,需要不同专业人员参与其中,专业人员主要包括业务分析人员、数据挖掘人员和数据管理人员
  10. 数据服务:数据目录服务、数据查询与浏览及下载服务、数据分发服务
  11. 信息检索的主要方法:(1)全文检索:以文本数据为主要处理对象,根据数据资料的内容而不是外在特征来实现的信息检索手段。(2)字段检索:把检索对象按一定标准在不同字段中进行著录,并把不同字段作为检索依据。(3)基于内容的多媒体检索:按检索内容可分为图像检索、视频检索和声音检索等。(4)数据挖掘:从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中且人们事先不知道的潜在、有用的信息和知识的过程。
  12. 信息检索的常用技术:(1)布尔逻辑检索技术:是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应的逻辑运算,以找出所需信息的方法。(2)截词检索技术:是指用截断的词的一个局部进行检索,并认为凡是满足这个词局部的所有字符的信息,都为命中的信息。(3)临近检索技术:又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。(4)限定字段检索技术:即指定检索词在记录中出现的字段。检索时,计算机只对限定字段进行匹配运算,以提高检索效率和查准率。(5)限制检索技术:是通过限制检索范围,达到优化检索的方法。
Last Updated:
Contributors: nh4u