二维表结构是很多数据处理的基本前提,如Excel等电子表格处理程序、关系型数据库等等。先来看下图关于学生信息的虚拟数据表。
在这个表格中,横向称为行(row),纵向称为列(column)。可以看到表格的第一行比较特殊,其内容包含了一些数据名称,在不同的数据处理环境中会使用不同的称呼,如列名、字段名、指标名称等。从第二行开始是具体的数据,每一行为一条数据记录,其中的每个数据项都与具体的列对应。类似的,行在不同的数据处理环境中也会使用不同的名称,如一个样本数据等。
二维表中的每一列表示一个数据指标,而每一行中的同一列数据的类型是相同的,如“序号”都是数值、“姓名”都是文本内容等。除了数据类型,每一列的数据还可能有更多的属性,如数值的取值范围、保留小数位、文本的长度、显示的格式、是否为空等,这些特性都可以在Excel和其它数据处理工具中设置和验证。
每一行数据中,一般还会有一个或多个主要数据,此数据在所有行中是唯一的,可以标识唯一的数据记录,如图中的“序号”、“学号”、“身份证号码”都可以作为主要数据。主要数据可以快速标识和定位一行数据,比如,我们可以说序号为1的学生记录、学号为20210006的学生记录等。
在后续的内容中可以看到,二维数据表的操作是灵活多样的,如排序、按条件筛选数据、转置、计算、汇总等等;在数据处理完成后,还可以通过Excel制作各种各样的图表或报表,以满足不同场景的需要。
接下来会回顾一些Excel的基本概念和操作。
一个Excel数据文件称为一个工作簿(Workbook);早期的Excel数据文件扩展名为.xls;从Excel2007开始,Excel数据文件扩展名为.xlsx格式,包含VBA代码和宏(Macro)的数据文件应保存为.xlsm格式。
打开Excel并创建一个新的工作簿,默认界面如下图。
图中显示的是Excel 2021的主界面,其中标识的主要组成部分包括:
在主工作区显示了一个二维表格的界面,称为一个“工作表(Worksheet)”,其下方标签显示的“Sheet1”就是工作表的名称,可以通过标签中使用鼠标右键菜单中的“重命名”功能修改工作表名称。
点击“Sheet1”标签后的+图标可以添加新的工作表,新工作表的默认名称以Sheet开始并加上序号,如“Sheet2”、“Sheet3”等。
需要注意的是,不同版本的Excel的功能区中,按钮名称和位置会有少量的变化;进一步操作前可以先看一看各个选项卡中的功能按钮,以便在学习和工作中可以快速找到这些操作。