公 告

欢迎各位网友添加友情链接,在您添加本博客:http://linux0818.blogspot.com/ 做为链接后, E-mail:linux0818@gmail.com给我,我将将您的网址添加到本博客。

2008年11月1日星期六

Ubuntu简易安装3D效果,震撼!

1、首先添加安装beryl等包的源:

sudo gedit /etc/apt/sources.list
编辑sources.list文件

打开universe 和 multiverse,然后在最后一行加入:

deb http://ubuntu.beryl-project.org/ edgy main

然后再

sudo apt-get update
更新一下!

2、接着安装xserver-xgl,beryl,emerald-themes:

sudo apt-get install xserver-xgl

安装xgl

然后用命令:

sudo apt-get install beryl emerald-themes

3、安装完毕,接下启动beryl

终端输入: beryl-manager 命令即可!

4、效果图:


--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

压缩文件的压缩原理

压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"中华人民共和国"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的.
由于计算机处理的信息是以二进制数的形式表示的,因此压缩软件就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的。为了有助于理解文件压缩,请您在脑海里想象一幅蓝天白云的图片。对于成千上万单调重复的蓝色像点而言,与其一个一个定义"蓝、蓝、蓝……"长长的一串颜色,还不如告诉电脑:"从这个位置开始存储1117个蓝色像点"来得简洁,而且还能大大节约存储空间。这是一个非常简单的图像压缩的例子。其实,所有的计算机文件归根结底都是以"1"和"0"的形式存储的,和蓝色像点一样,只要通过合理的数学计算公式,文件的体积都能够被大大压缩以达到"数据无损稠密"的效果。总的来说,压缩可以分为有损和无损压缩两种。如果丢失个别的数据不会造成太大的影响,这时忽略它们是个好主意,这就是有损压缩。有损压缩广泛应用于动画、声音和图像文件中,典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。但是更多情况下压缩数据必须准确无误,人们便设计出了无损压缩格式,比如常见的zip、rar等。压缩软件(compression
software)自然就是利用压缩原理压缩数据的工具,压缩后所生成的文件称为压缩包(archive),体积只有原来的几分之一甚至更小。当然,压缩包已经是另一种文件格式了,如果你想使用其中的数据,首先得用压缩软件把数据还原,这个过程称作解压缩。常见的压缩软件有winzip、winrar等。
有两种形式的重复存在于计算机数据中,zip就是对这两种重复进行了压缩。
  一种是短语形式的重复,即三个字节以上的重复,对于这种重复,zip用两个数字:1.重复位置距当前压缩位置的距离;2.重复的长度,来表示这个重复,假设这两个数字各占一个字节,于是数据便得到了压缩,这很容易理解。
  一个字节有 0 - 255 共 256 种可能的取值,三个字节有 256 * 256 * 256
共一千六百多万种可能的情况,更长的短语取值的可能情况以指数方式增长,出现重复的概率似乎极低,实则不然,各种类型的数据都有出现重复的倾向,一篇论文中,为数不多的术语倾向于重复出现;一篇小说,人名和地名会重复出现;一张上下渐变的背景图片,水平方向上的像素会重复出现;程序的源文件中,语法关键字会重复出现(我们写程序时,多少次前后copy、paste?),以几十
K 为单位的非压缩格式的数据中,倾向于大量出现短语式的重复。经过上面提到的方式进行压缩后,短语式重复的倾向被完全破坏,所以在压缩的结果上进行第二次短语式压缩一般是没有效果的。
  第二种重复为单字节的重复,一个字节只有256种可能的取值,所以这种重复是必然的。其中,某些字节出现次数可能较多,另一些则较少,在统计上有分布不均匀的倾向,这是容易理解的,比如一个
ASCII 文本文件中,某些符号可能很少用到,而字母和数字则使用较多,各字母的使用频率也是不一样的,据说字母 e
的使用概率最高;许多图片呈现深色调或浅色调,深色(或浅色)的像素使用较多(这里顺便提一下:png 图片格式是一种无损压缩,其核心算法就是
zip 算法,它和 zip 格式的文件的主要区别在于:作为一种图片格式,它在文件头处存放了图片的大小、使用的颜色数等信息);上面提到的短语式压缩的结果也有这种倾向:重复倾向于出现在离当前压缩位置较近的地方,重复长度倾向于比较短(20字节以内)。这样,就有了压缩的可能:给
256 种字节取值重新编码,使出现较多的字节使用较短的编码,出现较少的字节使用较长的编码,这样一来,变短的字节相对于变长的字节更多,文件的总长度就会减少,并且,字节使用比例越不均匀,压缩比例就越大。

--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

linux网络--Samba服务配置及使用三

在Linux中使用Linux共享资源
# smbclient //192.168.2.187/public -U knight

Password:

Domain=[GDLC] OS=[Unix] Server=[Samba 3.0.10-Debian]

smb: \> ls

. D 0 Sun Feb 6 02:15:54 2005

.. D 0 Mon Dec 20 22:48:32 2004

embedded D 0 Sun Jan 23 22:38:01 2005

using_samba D 0 Thu Dec 30 20:55:23 2004

LinuxOS D 0 Sun Feb 6 02:18:14 2005

README.txt 65 Sun Feb 6 02:15:54 2005

32913 blocks of size 2097152. 21509 blocks available

smb: \>

在windows系统中使用Linux共享资源

a.登录进入windows网络,通过网上邻居查看、使用共享资源。

b.命令行下工具使用共享资源(运行 cmd )

Microsoft Windows XP [版本 5.1.2600]

(C) 版权所有 1985-2001 Microsoft Corp.

C:\>net use w: \\192.168.2.187\public

密码或用户名在 \\192.168.2.187\public 无效。

为 '192.168.2.187' 输入用户名: knight

输入 192.168.2.187 的密码:

命令成功完成。

在我的电脑里就会出现w:盘符,内容\\192.168.2.187\public

samba主域控制器的配置

1、 在域模式出现以前Windows网络是基于工作组的,每台主机都要负责维护自己的用户名/密码,以及
共享资源认证。这样难于保证网络的安全和性能,而且访问不同机器的不同资源都要提供相应的密码,非常繁琐和低效。根据商业用户对安全和工作效率的要求,
Windows商业网络提出了域的概念。在带有域的Windows网络中,主域控制器自动成为主浏览服务器,负责提供并维护这份名单,其它Windows
NT机器可以竞选成为辅助浏览服务器协助工作。域提供统一的安全措施,所有用户的认证和资源共享工作由主域控制器进行管理,可以实现整个域内一次认证、处
处通行的目的。

2、 Samba能够模仿NT PDC向网络发送PDC竞选消息,并允许Windows客户机登录,就像一台NT
PDC所做的那样。它会在启动时告诉其它Windows机器:我是主域控制器,登录认证找我好了。此时域中就不能再有其它声明为PDC的NT
Server了,否则会导致PDC竞选失败,并且Samba必须提供域登录,这样Windows客户才能在启动时输入用户名、密码和域名登录到域。需要注
意的是,此时的安全级别必须是user,因为server和domain级别的认证都需要其它服务器配合,而PDC却只有一个。这样,实际上使用了本地密码,最后出于安全的考虑必须使用加密密码。

3、 配置文件的修改

# vi /etc/samba/smb.conf

[global]
  workgroup = Sambagroup

netbios name = PDC

  security = user

  domain logons = yes

  encrypt passwords = yes

smb passwd file = /etc/samba/smbpasswd

  local master = yes

os level = 250

  domain master = yes

  preferred master = yes

logon path = \\%L\profiles\%U

logon script = %U.bat

注:domain logons表示Samba提供客户机的域登录;encrypt passwords表示使用加密的密码;domain
master表示Samba宣告自己是这个域的主域控制器;preferred master则是附加的竞选选项;local
master让Samba不但提供域浏览,也提供本地浏览服务。

[profiles]
path = /home/samba/profiles
writeable = yes
browseable = no
create mask = 0600
directory mask = 0700

[netlogon]
comment = Network Logon Service
path = /home/netlogon
read only = yes
browseable = no
write list= root


以上是关于共享目录的设置,其中profile是用来存放每个登录用户的设置文件,以便用户以后登录可以从服务器读取以前的桌面设置,netlogon是用来存放登录脚本的,所以要限制写的权限,假设这里只有root用户可以有权限。

将用户和机器帐户添加到域控制器

n 先建立创建了下列各组以及创建两个必要目录,并设置正确的所有权。

# groupadd admin

# groupadd machines

# mkdir -m 0775 /home/netlogon

# chown root:admin /home/netlogon

# mkdir �p /home/samba/profiles

# chown 1757 /home/samba/profiles

对目录设置正确的权限是保护服务器的关键一步

n 手工添加机器帐号,假设客户端的机器名是ibm240:

# useradd -g machines -d /dev/null -c "machine id" -s /bin/false ibm240$

# passwd -l ibm240$

不要忘记标上美元符号;这是必需的,它将该项标识为信任帐户

n 将该机器添加到 /etc/samba/smbpasswd

# smbpasswd -a -m ibm240

n 添加用户帐号

n 首先添加的是root帐户,把root加入到smb帐户中

# smbpasswd -c root

这一步很重要,因为加入域要用到有管理员的帐号加入域的权限,否则用普通用户好像不能顺利加入域

n 然后添加普通用户

# useradd jake

# smbpasswd -a jake

n 重启Samba服务

# service smb restart

n Samba PDC 的配置完成

n 将windows客户机加入到域中

n 客户端的设置,以windows2000客户端为例。

win200机器最好先重启一下,可以避免一些不必要的问题)打开 控制面板 -> 网络->
网络标示,如果机器目前被配置在工作组 选项下,那么选中 域 单选按钮并输入域名Sambagroup

n 现在,通过使用用户名 root
和相应的密码登录到域。必需初始化服务器和客户机机器之间的"秘密"。从此时起,任何已认证的用户都可以从这台机器登录。应该出现一个欢迎您来到
XX域的消息

n 将Samba作为成员加入域

n 使用域代替工作组的好处是,所有的客户能使用同一个认证来访问所有的资源。虽然域的概念还是一种非常初级的目录服务的概念,但由于Microsoft网络的流行,它的重要性也非常之大。在一个以域为认证方式的网络中,可以将Samba加入域中去,以采用与域一致的认证和管理方式。

n 在一个域中的SMB计算机有各种形式,一种为 提供认证服务的域控制器,分为PDC(Primary Domain
Controller)和BDC(Backup Domain
Controller),另一种为不提供认证服务的成员服务器,还有就是普通客户机。Samba当前能作为普通成员服务器加入域。

n 为了将Samba加入域,首先要为Samba服务器在PDC服务器中创建一个帐户,配置实例二中已经介绍过了。

n 加入NT域的时候首先需要停止Samba服务器的正常工作,再使用smbpasswd将这个Samba服务器登记进域,这需要使用:

# smbpasswd -j DOMAINNAME -r SAMBASRV

其中DOMAINNAME为域的名字,SAMBASRV为前面PDC上为Samba服务器创建的帐户名,这样Samba服务器就加入了域。

n 配置文件smb.conf的修改

# vi /etc/samba/smb.conf

workgroup = DOMAINNAME

security = domain

password server = PDC_name

n 再次启动Samba服务器,则服务器就为这个域的一个成员服务器了

# service smb restart

注:虽然使用域认证方式和服务器认证方式都能让同样的用户访

问Samba服务器上的资源,然而认证细节是不同的,使用域认证

方式能利用域提供的更安全的认证通道。

n Samba文档

/usr/share/doc/samba-3.0.2/

n Samba官方网站

http://us4.samba.org/samba/

n 中文书籍

《实战samba》


--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

linux网络--Samba服务配置及使用二

一个配置文件的实例

#=================== Global Options ===================#
[global]
# workgroup = NT-Domain-Name o Workgroup-Name,比如: THEDOMAIN
# PDC域
workgroup = THEDOMAIN
# 在其他的机器中声明的本机器的名称
netbios name = SMBServer
# 这个声明会出现在Windows的"网络邻居"中
server string = Samba Server de este lugar
#.. ...... ...... .. ...... ...... ...... ...... ......#
# 这一行由于安全的原因很关键,只许在局域网中特定的计算机的连接。
# 在这个例子中,是192.168.8.0(C级网络)的网络
# 和"环路"(loopback)的接口是可以连接的。
# 更多的细节,请阅读smb.conf man手册。
# 比如:只有从规定开始的ip以后的地址才能共享资源。
# 192.168.8 和 127 (以后的注释)
; hosts allow = 192.168.8. 127.


一个配置文件的实例

# 如果你想自动载入一个打印机的清单,这样就不必一个一个手动录入,可以使用:
; load printers = yes
#..........................................................#
# 覆盖printcap的路径是可能的。
; printcap name = /etc/printcap
#..........................................................#
# 在SystemV系统中 printcap对lpstat名称属性一定允许
# 自动地从SystemV(这么个词!:-))的spool系统中取得打印机列表。
; printcap name = lpstat
#..........................................................#
# 如果打印机系统是非标准的,就需要指定是什么打印系统。
# 现在支持的打印系统有:
# bsd, sysv, plp, lprng, aix, hpux, qnx
; printing = bsd
#..........................................................#
# 如果你需要一个guest帐户,你不要注释掉下面这行。
# 你一定么加入这条到/etc/passwd里,否则这个用户无"人"可用。
; guest account = pcguest


一个配置文件的实例

# 下面这条就是使得每台计算机都有一个不同的log文件,
# 通过这个文件和SAMBA服务器相连。
log file = /var/log/samba/log.%m
# 设置log文件长度的限制(单位 Kb)。
max log size = 50
# 阅读security_level.txt for得到更多的细节
# 指定验证密码的方式
# 用户级的安全策略=每个用户都有自己的密码 (SAMBA密码)
security = user
# 如果使用服务器级的安全策略,验证过程在另一个机器上进行。
# 只有在使用服务器级的安全策略时,才使用值"password server"
# 密码服务器等于【认证服务器地址】。
; password server = <NT-Server-Name>
# 如果你想使用加密的密码,请阅读Samba文档中的ENCRYPTION.TXT,
# Win95.txt和WinNT.txt。
# 你只有清楚的了解这个属性的足够多的信息才能使用它。
# 信息:Win95,Win98和 WinNT 可以发送加密的密码。
encrypt passwords = yes


一个配置文件的实例

# 使用下列的行来定制你的配置。
# 在网络中的每个计算机,%m 取代了自身netbios的名字。
;include = /usr/local/samba/lib/smb.conf.%m
# 在你会发现文档和一些流行的"提示"会告诉你下面的选项可以得到更好的性能。
# 阅读speed.txt和手册来知道更多的细节。
socket options = TCP_NODELAY
# Samba 可以配置多种的网络接口。
# 如果你使用多种网络接口,你一定要在下面列出来。
# 阅读手册来知道更多的细节。
;interfaces = 192.168.8.2/24 192.168.12.2/24
# Browser 控制选项:
# 如果你不想让samba做为网络中的主browser,设置"local master = no"。
local master = yes
# 在OS 水平上,本服务器当选主browser优先权的设置。
# 一般地,缺省值可能就可以了。
;os level = 33


一个配置文件的实例

# 域主机指定Samba成为域中主Browser。
# 这样允许Samba运行域控制器和在不同的TCP/IP子网中能被"看成"一台机器。
# 如果你使用了 Windows NT/2000域控制器,你就不应该使用它。
domain master = yes
# 更高级的域主在启动中使得Samba成为一个局域的Browser,
# 这使得它有更多的机会(选举成为域主)。
# 如果我们有2个以上的服务器,级别高的服务器会更受"欢迎",
# 客户机会在一个列表中搜寻到一台服务器的。
preferred master = yes
# 只有你使用NT/2000 服务器在以一个主域控制器(PDC)在运行,你才能使用下条。
; domain controller = <NT-Domain-Controller-SMBName>
# 如果你想把SAMBA当成Windows 9x/Me 工作站的"域登陆服务器",你要使用下条。
domain logons = yes
# 如果你使用了"域登陆",你一定要使用一个登陆脚本,
# 在Windows网络中的每台机器或者每个用户。
# 每个工作站的特定登陆批处理是
; logon script = %m.bat


一个配置文件的实例

# 每个用户的特定登陆批处理是
; logon script = %U.bat
# 那里存放零星的profiles文件 (只对Win95和 WinNT有效)
# %L 取代这个服务器的NetBIOS名字, %U 取代用户名
# 如果你使用它,一定不要注释掉下面的Profiles共享
; logon path = \\%L\Profiles\%U
# Windows互联网解析服务器:
# WINS支持 ― 告知NMBD使能它的WINS 服务器。
# WINS协议 把机器名转换成IP地址,
# 它象TCP/IP中DNS那样工作。
; wins support = yes
# WINS服务器-告知Samba的NMBD部件成为WINS的一个客户。
# SAMBA服务器可以成为其中的一个:WINS 服务器或 WINS客户机
# 但是不可以同时2者皆是。
# 这里WINS IP服务器一定要指定。
; wins server = 192.168.8.1


一个配置文件的实例

# WINS代理-告知Samba回应那些没有WINS能力的客户的名字解析的请求,
# 这个情况只有在网络中至少有一台WINS服务器时才有效。
# 缺省是不。
; wins proxy = yes
#..........................................................#
# DNS代理-告知Samba是否解析NetBIOS名字
# 版本1.9.17 内建的缺省是"是", 从版本1.9.18 变成了"否"
# 这里我们可以告知SAMBA名字解析使用DNS或者不。
# dns proxy = yes
# dns proxy = no #...........................................................#
# 如果登陆的驱动盘没有被指定,Z:单元会自动登陆的。
logon drive = P:
#...........................................................#
# 当一个登陆出现时,这个脚本被执行: /etc/samba/netlogon/SAMBA.BAT
# 并且使用"netuse"来登陆磁盘单元
logon script = SAMBA.BAT


一个配置文件的实例

#================= Share Definitions ================#
# 每个用户的私人目录
# 单位 P:

[homes]
comment = Home Directories
browseable = no
writable = yes
readonly = no
force create mode = 0700
create mode = 0700
force directory mode = 0700
directory mode = 700


一个配置文件的实例

#临时文件目录
# This one is useful for people to share files
; [tmp]

; comment = Temporary file space

; path = /tmp

; read only = no

; public = yes

一个配置文件的实例

#-----------------share cdrom------------------#
# 服务器的CD-ROM

[cdrom]
comment = CD-ROM
path = /mnt/cdrom
public = yes
writable = no

--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

linux网络--Samba服务配置及使用一

Samba是一套让UNIX系统能够应用Microsoft网络通讯协议的软件。它使执行UNIX系统的机器能与执行Windows系统的电脑分享驱动与打印机。
Samba属于GNU Public License (简称GPL)的软件;因此,你可以合法且免费地使用它。

Samba的主要功能

(1) 提供Windows NT风格的文件和打印机共享 Windows 95、Windows 98、Windows
NT等以据此共享UNIX等其他操作系统的资源,外表看起来和共享NT的资源没有区别。
(2)解析NetBIOS名字IP
在Windows网络中,提供检索情报的服务器就被称为浏览服务器.Samba可以有效地完成这项功能在跨越网关的时候Samba还可以作WINS服务器使用。
(3)提供SMB客户功能 利用Samba提供的smbclint程序可以从UNIX下以类似于 FTP的方式访 问Windows的资源。
(4)使用 Linux 和 SAMBA替代Windows NT/2000 域控制服务器。

安装Samba所需的软件包

#rpm �ivh samba-client-3.0.2-6.3E

#rpm �ivh samba-3.0.2-6.3E

#rpm �ivh redhat-config-samba-1.0.16-1

#rpm �ivh samba-common-3.0.2-6.3E

#rpm �ivh samba-swat-3.0.10-1.4E.6.i386.rpm

Samba的配置文件

Samba组件的配置文件是 /etc/samba/smb.conf,该文件几乎包含了Samba系统程序运行时所需的所有配置信息。

配置文件中有比较重要的几个节:[gloabal]、[homes]、[printers],下面分别给与说明。

1)[gloabal]节 在全局参数中,参数的设置直接影响samba系统。

2)[homes]节 所有使用者的home目录,当任何一个客户访问Samba服务器时,在网络资源中都能出现自己的home目录共享。

3)[printers]用来配置打印机并共享打印机的设置。

核心进程及其启动

Samba 有两个守护进程:smbd
和nmbd,它们是Samba的核心进程。nmbd进程使其他计算机浏览Linux服务器,Smbd进程在SMB服务请求到达时对它们进行处理,并且为使用或共享的资源进行协调。

Samba的启动方式:

# /etc/rc.d/init.d/smb start 或者 # service smb start

Starting SMB services: [ OK ]

Starting NMB services: [ OK ]

Samba应用程序

smbclient:访问所有共享资源

smbstatus:列出当前所有的samba连接状态

smbpasswd:修改samba用户口令、增加samba用户。

nmblookup:用于查询主机的NetBIOS名,并将其映射为IP地址

testparm: 用于检查配置文件中的参数设置是否正确

配置步骤

在主配置文件中寻找与之相关的共享选项,创建文件共享

采用testparm命令测试配置文件及共享

创建samba用户

启动samba服务

测试samba服务


--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

Ubuntu之文件加密

当Ubuntu Linux使用加密文件系统后,数据的安全能得到很好的保护。在这种情况下,即使把我们的机器送给黑客,只要他们没有密钥,黑客看到的数据只会是一堆乱码,毫无利用价值可言。

本 文将详细介绍利用dm-crypt来创建加密文件系统的方法。与其它创建加密文件系统的方法相比,dm-crypt系统有着无可比拟的优越性:它的速度更
快,易用性更强。除此之外,它的适用面也很广,能够运行在各种块设备上,即使这些设备使用了RAID和
LVM也毫无障碍。dm-crypt系统之所以具有这些优点,主要得益于该技术是建立在2.6版本内核的device-mapper特性之上的。
device-mapper是设计用来为在实际的块设备之上添加虚拟层提供一种通用灵活的方法,以方便开发人员实现镜像、快照、级联和加密等处理。此外,
dm-crypt使用了内核密码应用编程接口实现了透明的加密,并且兼容cryptloop系统。

一、配置内核
dm -crypt利用内核的密码应用编程接口来完成密码操作。一般说来,内核通常将各种加密程序以模块的形式加载。对于256-bit
AES来说,其安全强度已经非常之高,即便用来保护绝密级的数据也足够了。因此本文中我们使用256-bit
AES密码,为了保证您的内核已经加载AES密码模块,请利用下列命令进行检查:

$ cat /proc/crypto


如果看到类似下面的输出的话,说明AES模块已经加载:

name : aes
module : aes
type : cipher
blocksize : 16
min keysize : 16
max keysize : 32


否则,我们可以利用modprobe来手工加载AES模块,命令如下所示:

$ sudo modprobe aes


接下来安装dmsetup软件包,该软件包含有配置device-mapper所需的工具:

$ sudo apt-get install dmsetup cryptsetup
为检查dmsetup软件包是否已经建立了设备映象程序,键入下列命令: $ ls -l /dev/mapper/control
接下来加载dm-crypt内核模块: $ sudo modprobe dm-crypt
dm-crypt加载后,它会用device-mapper自动注册。如果再次检验的话,device-mapper已能识别dm-crypt,并且把crypt
添加为可用的对象: $ sudo dmsetup targets
如果一切顺利,现在你应该看到crypt的下列输出: crypt v1.1.0
striped v1.0.2
linear v1.0.1
error v1.0.1
这说明我们的系统已经为装载加密设备做好了准备。下面,我们先来建立一个加密设备。

二、建立加密设备
要创建作为加密设备装载的文件系统,有两种选择:一是建立一个磁盘映像,然后作为回送设备加载;二是使用物理设备。无论那种情况,除了在建立和捆绑回送设备外,其它操作过程都是相似的。


1.建立回送磁盘映象


如果你没有用来加密的物理设备(比如存储棒或另外的磁盘分区),作为替换,你可以利用命令dd来建立一个空磁盘映象,然后将该映象作为回送设备来装载,照样能用。下面我们以实例来加以介绍:

$ dd if=/dev/zero of=~/secret.img bs=1M count=100


这里我们新建了一个大小为100 MB的磁盘映象,该映象名字为secret.img。要想改变其大小,可以改变count的值。

接下来,我们利用losetup命令将该映象和一个回送设备联系起来:

$ sudo losetup /dev/loop/0 ~/secret.img


现在,我们已经得到了一个虚拟的块设备,其位于/dev/loop/0,并且我们能够如同使用其它设备那样来使用它。

2.设置块设备

准备好了物理块设备(例如/dev/sda1),或者是虚拟块设备(像前面那样建立了回送映象,并利用device-mapper将其作为加密的逻辑卷加载),我们就可以进行块设备配置了。

下面我们使用cryptsetup来建立逻辑卷,并将其与块设备捆绑:

$ sudo cryptsetup -y create myEncryptedFilesystem

/dev/DEVICENAME
其中,myEncryptedFilesystem
是新建的逻辑卷的名称。并且最后一个参数必须是将用作加密卷的块设备。所以,如果你要使用前面建立的回送映象作为虚拟块设备的话,应当运行以下命令:
$ sudo cryptsetup -y create myEncryptedFilesystem /dev/loop/0
无论是使用物理块设备还是虚拟块设备,程序都会要你输入逻辑卷的口令,-y的作用在于要你输入两次口令以确保无误。这一点很重要,因为一旦口令弄错,你就会把自己的数据锁住,这时谁也帮不了您了!

为了确认逻辑卷是否已经建立,可以使用下列命令进行检查一下:

$ sudo dmsetup ls
只要该命令列出了逻辑卷,就说明已经成功建立了逻辑卷。不过根据机器的不同,设备号可能有所不同: myEncryptedFilesystem (221, 0)
device-mapper会把它的虚拟设备装载到/dev/mapper下面,所以,你的虚拟块设备应该是/dev/mapper/myEncryptedFilesystem
,尽管用起来它和其它块设备没什么不同,实际上它却是经过透明加密的。

如同物理设备一样,我们也可以在虚拟设备上创建文件系统:

$ sudo mkfs.ext3 /dev/mapper/myEncryptedFilesystem
现在为新的虚拟块设备建立一个装载点,然后将其装载。命令如下所示: $ sudo mkdir /mnt/myEncryptedFilesystem

$ sudo mount /dev/mapper/myEncryptedFilesystem /mnt/myEncryptedFilesystem
我们能够利用下面的命令查看其装载后的情况: $ df -h /mnt/myEncryptedFilesystem

Filesystem Size Used Avail Use% Mounted on

/dev/mapper/myEncryptedFilesystem 97M 2.1M 90M 2%
/mnt/myEncryptedFilesystem
很好,我们看到装载的文件系统,尽管看起来与其它文件系统无异,但实际上写到/mnt/myEncryptedFilesystem
/下的所有数据,在数据写入之前都是经过透明的加密处理后才写入磁盘的,因此,从该处读取的数据都是些密文。

三、卸载方法
要卸载加密文件系统,和平常的方法没什么两样:

$ sudo umount /mnt/myEncryptedFilesystem


即 便已经卸载了块设备,在dm-crypt中仍然视为一个虚拟设备。如若不信,你可以再次运行命令sudo dmsetup
ls来验证一下,你会看到该设备依然会被列出。因为dm-crypt缓存了口令,所以机器上的其它用户不需要知道口令就能重新装载该设备。为了避免这种情
况发生,你必须在卸载设备后从dm-crypt中显式的删除该设备。命令具体如下所示:

$ sudo cryptsetup remove myEncryptedFilesystem


此后,它将彻底清除,要想再次装载的话,你必须再次输入口令。为了简化该过程,我们可以利用一个简单的脚本来完成卸载和清除工作:

#!/bin/sh
umount /mnt/myEncryptedFilesystem
cryptsetup remove myEncryptedFilesystem


四、重新装载
在卸载加密设备后,我们很可能还需作为普通用户来装载它们。为了简化该工作,我们需要在/etc/fstab文件中添加下列内容:
/dev/mapper/myEncryptedFilesystem /mnt/myEncryptedFilesystem ext3
noauto,noatime 0 0
此外,我们也可以通过建立脚本来替我们完成dm-crypt设备的创建和卷的装载工作,方法是用实际设备的名称或文件路径来替换/dev/DEVICENAME:
#!/bin/sh

cryptsetup create myEncryptedFilesystem /dev/DEVICENAME

mount /dev/mapper/myEncryptedFilesystem /mnt/myEncryptedFilesystem
如果你使用的是回送设备的话,你还能利用脚本来捆绑设备: #!/bin/sh

losetup /dev/loop/0 ~/secret.img

cryptsetup create myEncryptedFilesystem /dev/loop/0

mount /dev/mapper/myEncryptedFilesystem /mnt/myEncryptedFilesystem
如果你收到消息"ioctl: LOOP_SET_FD: Device or resource
busy",这说明回送设备很可能仍然装载在系统上。我们可以利用sudo losetup -d /dev/loop/0命令将其删除。

五、加密主目录
如果配置了PAM(Pluggable Authentication
Modules,即可插入式鉴别模块)子系统在您登录时装载主目录的话,你甚至还能加密整个主目录。因为libpam-mount模块允许PAM在用户登
录时自动装载任意设备,所以我们要连同openssl一起来安装该模块。命令如下所示:

$ sudo apt-get install libpam-mount openssl


接下来,编辑文件/etc/pam.d/common-auth,在其末尾添加下列一行:

auth optional pam_mount.so use_first_pass


然后在文件/etc/pam.d/common-session末尾添加下列一行内容:

session optional pam_mount.so


现在,我们来设置PAM,告诉它需要装载哪些卷、以及装载位置。对本例而言,假设用户名是Ian,要用到的设备是/dev/sda1,要添加到/etc/security/pam_mount.conf文件中的内容如下所示:

volume Ian crypt - /dev/sda1 /home/Ian cipher=aes aes-256-ecb /home/Ian.key


如 果想使用磁盘映象,你需要在此规定回送设备(比如/dev/loop/0),并确保在Ian登录之前系统已经运行losetup。为此,你可以将
losetup /dev/loop/0
/home/secret.img放入/etc/rc.local文件中。因为该卷被加密,所以PAM需要密钥来装载卷。最后的参数用来告诉PAM密钥在
/home/Ian.key文件中,为此,通过使用OpenSSL来加密你的口令来建立密钥文件:

$ sudo sh -c "echo
'
YOUR PASSPHRASE
'
| openssl aes-256-ecb >
/home/Ian.key"


这时,提示你输入密码。注意,这里的口令必需和想要的用户登录密码一致。原因是当你登录时,PAM需要你提供这个密码,用以加密你的密钥文件,然后根据包含在密钥文件中的口令用dm-crypt装载你的主目录。

需 要注意的是,这样做会把你的口令以明文的形式暴露在.history文件中,所以要及时利用命令history
-c清楚你的历史记录。此外,要想避免把口令存放在加密的密钥文件中的话,可以让创建加密文件系统的口令和登录口令完全一致。这样,在身份认证时,PAM
只要把你的密码传给dm-crypt就可以了,而不必从密钥文件中抽取密码。为此,你可以在/etc/security/pam_mount.conf文
件中使用下面的命令行:

volume Ian crypt - /dev/sda1 /home/Ian cipher=aes - -


最后,为了保证在退出系统时自动卸载加密主目录,请编辑/etc/login.defs文件使得CLOSE_SESSIONS项配置如下:

CLOSE_SESSIONS yes

--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

unix/linux下正则表达式基本语法及使用

UNIX和Linux Shell正则表达式语法介绍

一个正则表达式就是由普通字符(例如字符 a 到
z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

\

将下一个字符标记为一个特殊字符、或一个原义字符、或一个 后向引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n'
匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。

^

匹配输入字符串的开始位置。

$

匹配输入字符串的结束位置。

*

匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。

+

匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。

?

匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。

{n}

n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。

{n,}

n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有
o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

{n,m}

m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。 "o{1,3}" 将匹配 "fooooood" 中的前三个
o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

?

当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m})
后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串
"oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。

.

匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。

(pattern)

匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches
集合,在Visual Basic Scripting Edition 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或
'\)'。

(?:pattern)

匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|)
来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries'
更简略的表达式。

(?=pattern)

正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,
'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配
"Windows 3.1" 中的
"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?!pattern)

负向预查,在任何不匹配Negative lookahead matches the search string at any point
where a string not matching pattern
的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows
(?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000"
中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

x|y

匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。

[xyz]

字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。

[^xyz]

负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。

[a-z]

字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。

[^a-z]

负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。

\b

匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。

\B

匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。

\cx

匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则,将 c
视为一个原义的 'c' 字符。

\d

匹配一个数字字符。等价于 [0-9]。

\D

匹配一个非数字字符。等价于 [^0-9]。

\f

匹配一个换页符。等价于 \x0c 和 \cL。

\n

匹配一个换行符。等价于 \x0a 和 \cJ。

\r

匹配一个回车符。等价于 \x0d 和 \cM。

\s

匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

\S

匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

\t

匹配一个制表符。等价于 \x09 和 \cI。

\v

匹配一个垂直制表符。等价于 \x0b 和 \cK。

\w

匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。

\W

匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

\xn

匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如, '\x41' 匹配 "A"。'\x041' 则等价于
'\x04' & "1"。正则表达式中可以使用 ASCII 编码。.

\num

匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。

\n

标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字
(0-7),则 n 为一个八进制转义值。

\nm

标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm
为后向引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若 n 和 m
均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

\nml

如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。

\un

匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。

/*****************************************************************************************/

几乎所有重要问题都需要从无用数据中过滤出有用数据。了解大量的 UNIX? 命令行实用工具如何使用正则表达式 来去芜取精。
非常奇怪,直到今天我仍然能重复周六早上的经典歌曲"Conjunction
Junction"。这是好事(看了太多电视)还是坏事(也许是我现在职业的先兆)仍然有待讨论。不管怎样,这首小调在欢快的节奏下传递了基本的信息。

我还没有为学习 UNIX 构想出与"Conjunction
Junction"相似的作品,但是我会在未来的几个月里尝试亲手编写这样的歌曲。与此同时,趁着快乐回忆所带来的好心情,我们继续以
Schoolhouse 摇滚的传统学习方式攻克命令行。

现在开始上课。吐出嘴里的口香糖,回到您的座位上,然后拿出一根二号铅笔。还有您,Spicoli。

模仿秀

您可以将 UNIX 命令行看作是一句话:

可执行命令,如 cat 或 ls,是动词――操作。
命令的输出是名词――要查阅或使用的数据。
Shell 操作符,如 |(管道)或 >(重定向标准输出),是连词――用于连接句子。
例如,命令行:ls -A | wc -l 用于计算当前目录下的条目数(忽略特殊条目 . 和 ..),它包含两个句子。第一个句子 ls -A
是动词结构,列举当前目录下的内容,第二个句子 wc -l
是另一个动词结构,用于计算行数。第一个句子输出的结果作为第二个句子的输入,并由连接词(管道)连接这两个句子。

在本系列文章以及其他文章中展示的许多您可能已经学习过的命令行句式都具有这种句子结构。

但是,如果缺少了文法上的修饰语,命令行将显得不专业。当然,基本句子也能完成工作,但是这样显得不优美。(在此对高中英语演唱二人组 Rad
女士和 Perlstein 女士表示歉意。)解决更有趣的问题需要用到形容词。

几乎所有重要问题都需要从无用数据中过滤出有用数据。虽然属性的数量和种类会有所不同,但是每种方案都通过某种方式(形式或格式),隐式或显式地描述了它要查找并处理的信息,从而生成另外一种形式的其他信息。

在命令行中,正则表达式 的作用相当于形容词――一种描述或限定词。在应用到输出时,正则表达式可辨别相关数据和无关数据。

标点概述

让我们看一个示例问题。

grep 实用工具逐行过滤输入并寻找匹配。grep 的最简单应用是打印那些包含与某个模式匹配的文本的行。grep
可以查找具有固定顺序的字符组合,甚至可以通过使用 -i 选项来忽略大小写。

因此,假定文件 heroes.txt 包含以下行:

CatwomanBatmanThe TickSpider ManBlack CatBatgirlDanger GirlWonder
WomanLuke CageThe PunisherAnt ManDead GirlAquamanSCUDSpider
WomanBlackboltMartian Manhunter

命令行:

grep -i man heroes.txt

将生成:

CatwomanBatmanSpider ManWonder WomanAnt ManAquamanMartian Manhunter

其中 grep 扫描 heroes.txt 文件中的每一行并查找字母 m,后面紧跟 a,然后紧跟
n。除了必须保证相邻,这些字母可以出现在行的任何位置,甚至可以位于较大的单词中间。在不考虑大小写的情况下(-i
选项),Catwoman、Batman、Spider Man、Wonder Woman、Ant Man、Aquaman 和 Martian
Manhunter 都包含字符串 man。

grep 实用工具包含其他可优化搜索的内置选项。例如,-w 选项限制于匹配整个单词,因此 grep -i -w man 将排除
Catwoman 和 Batman(举例来说)。

该工具还有一个优秀的功能,可以排除而不是包括所有匹配的搜索结果。使用 -v 选项来排除 匹配的行。例如:

grep -v -i 'spider' heroes.txt

将打印除了包含字符串 spider 之外的所有行。

CatwomanBatmanThe TickBlack CatBatgirlDanger GirlWonder WomanLuke
CageThe PunisherAnt ManDead GirlAquamanSCUDBlackboltMartian Manhunter

但是,对于以下这些情况,您该如何处理?只希望得到那些开头为"Bat"的单词;或者以"bat"、"Bat"、"cat"或"Cat"开头的单词?或者希望知道有多少漫画复仇者的名字以"man"结束。在这些实例中,类似于上述三个示例的简单字符串搜索将无法满足要求,因为这些搜索不区分位置。

位置、位置、位置和备选项

正则表达式可以 过滤特定的位置,例如行的开始或结束,以及单词的开始和结束。正则表达式(通常简写为
regex)还可以描述:备选项(您可将其称为"this"或"that");固定长度、可变长度或不定长度的重复;范围(例如,"a-m
之间的任意字母");还有字符的类别或种类("可打印字符"或"标点符号"),以及其他技术。

表 1 显示了一些常用的正则表达式操作符。您可以连接表 1 中显示的元素(以及其他操作符)并加以组合使用,从而构建(非常)复杂的正则表达式。


表 1. 常用的正则表达式操作符
操作符 用途
.(句号) 匹配任意单个字符。
^(脱字号) 匹配出现在行首或字符串开始位置的空字符串。
$(美元符号) 匹配出现在行末的空字符串。
A 匹配大写字母 A。
a 匹配小写字母 a。
\d 匹配任意一位数字。
\D 匹配任意单个非数字字符。
\w 匹配任意单个字母数字字符,同义词是 [:alnum:]。
[A-E] 匹配任意大写的 A、B、C、D 或 E。
[^A-E] 匹配除 A、B、C、D 和 E 之外的任意字符。
X? 匹配出现零次或一次的大写字母 X。
X* 匹配零个或任意个大写 X。
X+ 匹配一个或多个字母 X。
X{n} 精确匹配 n 个字母 X。
X{n,m} 匹配最少 n 个并且不超过 m 个字母 X。如果省略 m,表达式将尝试匹配最少 n 个 X。
(abc|def)+ 匹配一连串的(最少一个) abc 或 def;abc 和 def 将匹配。

以下是一些使用 grep 作为搜索工具的正则表达式示例。许多其他 UNIX 工具,包括交互式编辑器 vi 和 Emacs、流编辑器 sed
和 awk,以及所有现代编程语言都支持正则表达式。在您学会正则表达式的语法(也许相当晦涩)之后,就可以将您的专业知识灵活运用到不同的工具、编程语言和操作系统。

查找以"Bat"开头的名称

要查找以"Bat"开头的名称,请使用:

grep -E '^Bat'

可以使用 -E 选项来指定正则表达式。^(脱字号)字符匹配行首或字符串的开头,这是一个出现在每行或每个字符串开头字符之前的假想字符。字母
B、a 和 t 只具有字面含义并且仅匹配那些特定的字符。因此,命令 grep -E '^Bat' 将生成:

BatmanBatgirl

由于许多 regex 操作符也为 Shell
所使用(其中一些具有不同的用途,另外一些则有类似的用途),因此一个好的习惯是使用单引号将命令行中的每个 regex 括起来,以保护
regex 操作符免遭 Shell 的误解。例如,*(星号)和 $(美元符号)都是 regex 操作符,并且对于您的 Shell
具有特殊的含义。

查找以"man"结尾的名称

要查找以"man"结尾的名称,可以使用 regex man$ 来匹配序列 m、a 和 n,并且后面紧接与 regex 操作符 $ 匹配的行(字符串)。

查找空行

基于 ^ 和 $ 的作用,您可以使用 regex ^$ 来查找空行(相当于在开始之后立即结束的行)。

备选项或集合操作符

要查找以"bat"、"Bat"、"cat"或"Cat"开头的单词,可以使用以下两个技巧。首先是备选项,如果备选项中的任意
模式匹配,都会产生匹配的结果。例如,命令:

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

可实现这一技巧。regex 操作符 |(竖线)表示备选项,因此 this|that 匹配字符串 this 或字符串
that。因此,^(bat|Bat|cat|Cat) 表示"行首紧跟 bat、Bat、cat 或 Cat之一。"当然,可以使用 grep
-i 来简化该 regex,这样可以忽略大小写,从而将命令简化为:

grep -i -E '^(bat|cat)' heroes.txt

匹配"bat"、"Bat"、"cat"或"Cat"的另一个方法是使用 [ ](方括号)集合
操作符。如果将一组字符放在一个集合中,则可以匹配那些字符中的任意一个。(您可以将集合 看作是字符备选项的简写法。)

例如,命令行:

grep -E '^[bcBC]at' heroes.txt

与以下命令生成的结果相同:

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

您可以再次使用 -i 将 regex 简化为 ^[bc]at。

而且,还可以使用 -(连字符)操作符在集合中指定包含的字符范围。例如,用户名通常以字母开头。假定要在提交给您的服务器的 Web
表格中验证这样的用户名,可以使用类似于 ^[A-Za-z] 的 regex。此 regex 表示"字符串的开头后紧跟任意大写字母 (A-Z)
或任意小写字母 (a-z)。"顺便说明一下,[A-z] 与 [A-Za-z] 作用相同。

还可以在集合中混合使用范围和单个字符。regex [A-MXYZ] 将匹配任意大写的 A-M、X、Y 和 Z。

并且,如果希望反转集合(即排除集合中的任意字符),可以使用特殊集合 [^ ]
并包含要排除的范围或字符。以下是反转集合的示例。要查找所有名称中包含 at 的超级英雄,并排除 Dark Knight 和
Batman,请键入:

grep -i -E '[^b]at' heroes.txt

此命令生成:

CatwomanBlack Cat

由于某些集合需要经常使用,所以设计出简化符号以代替大量字符。例如,集合 [A-z0-9_] 十分常用,因此可以简写为 \w。与此类似,操作符
\W 是集合 [^A-z0-9_] 的简写。还可以使用符号 [:alnum:] 代替 \w,使用 [^[:alnum:]] 代替 \W。

顺便说明一下,\w(以及同义词 [:alnum:])是特定于区域的,而 [A-z0-9_] 即表示字母 A-z、数字 0-9
和下划线。如果要开发国际化应用程序,请使用区域特定的格式以使代码可以在许多区域之间移植。

跟我一起重复:重复,重复,重复

到目前为止,已经介绍了字面值、位置和两种备选项操作符。仅使用这些内容,就可以匹配大多数具有可预测 长度的模式。现在回到用户名,通过以下
regex 命令可以确保每个用户名以字母开头并紧跟恰好七个字母或数字:

[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]

但是这样有点笨拙。而且,它只匹配恰好八个字符的用户名。它不会匹配三到八个字符之间的名称,这通常也是有效的用户名。

正则表达式还可以包括重复修饰符。重复修饰符可以指定数量,如没有、一个、多个、一个或多个,零或一个、五到十个,以及恰好三个。重复修饰符必须与其他模式组合,修饰符本身没有含义。

例如,regex:

^[A-z][A-z0-9]{2,7}$

可以实现前面描述的用户名过滤功能。用户名 是以字母开头,后面紧跟至少两个,但不超过七个字母或数字的字符串,并且紧跟字符串结尾。

此处的位置定位点非常重要。如果没有两个位置操作符,则会错误地接受任意长度的用户名。为什么呢?请考虑 regex:

^[A-z][A-z0-9]{2,7}

此命令辨别:字符串是否以字母开头并紧跟二到七个字母?但是它未提到终止条件。因此,字符串 samuelclemens
满足条件,但是它的长度显然超出了有效用户名的范围。与此类似,省略开始定位点 ^,或同时省略两个定位点将分别匹配以类似 munster1313
结束或包含该字符串的字符串。如果必须匹配特定的长度,请记得在要求的模式的开头和结尾分别加上分隔符。

以下是其他一些示例:

可以使用 {2,} 查找两次或多次重复。regex ^G[o]{2,}gle 匹配 Google、Gooogle、Goooogle 等等。
重复修饰符 ?、+ 和 * 分别查找零次或一次、一次或多次,以及零次或多次重复。(例如,您可以将 ? 看作是 {0,1} 的简写法。)
regex boys? 匹配 boy 或 boys;regex Goo?gle 匹配 Gogle 或 Google。

regex Goo+gle 匹配 Google、Gooogle、Goooogle 等等。

construct Goo*gle 匹配 Gogle、Google、Gooogle 等等。

可以将重复修饰符应用到单个字符(如上所示),还可以应用到更复杂的组合。使用 ( 和 )
圆括号(就像数学中的用法)将修饰符应用到子表达式。下面是一个示例:给定文本文件 test.txt: The rain in Spain
falls mainly on the the plain.It was the best of of times;it was the
worst of times.

命令 grep -i -E '(\b(of|the)\W+){2,}' test.txt 将生成:

on the the plain.It was the best of of times;

regex 操作符 \b 匹配单词边界 或 (\W\w|\w\W)。该 regex
表示"一连串完整单词'the'或'of'后面紧跟非文字字符。"您可能会提出疑问,为什么 \W+ 是必需的:\b
是位于单词开头或结尾的空字符串。在单词之间必须包括这一(或这些)字符,否则该 regex 将无法找到匹配。
捕获需要注意的内容

查找文本是常见的问题,但是更常见的问题则是希望在找到文本之后将其提取出来。换句话说,您希望去粗取精。

正则表达式通过捕获 来提取信息。如果希望将需要的文本与其他内容分开,请使用圆括号将模式括起来。实际上,您已经使用圆括号收集术语;在默认情况下,圆括号自动进行捕获。

要查看捕获,请切换到 Perl。(grep 实用工具不支持捕获,因为其目标是打印包含模式的行。)

以下命令:

perl -n -e '/^The\s+(.*)$/ && print "$1\n"' heroes.txt

将打印:

TickPunisher

使用命令 perl -e 可以直接从命令行运行 Perl 程序。perl -n 命令针对输入文件的每一行运行一次程序。命令的 regex
部分,即位于斜杠之间的文本(/)表示"匹配字符串的开头,然后字母'T'、'h'、'e'后紧跟一个或多个空格字符
\s+,然后捕获直到字符串结尾的所有字符。

Perl 捕获内容被放在以 $1 开头的特殊 Perl 变量中。Perl 程序的其余部分打印捕获的内容。

每个嵌套的括号对,从左开始算起,每个左圆括号加一,放在下一个特殊的数字变量中。例如:

perl -n -e '/^(\w)+-(\w+)$/ && print "$1 $2"'

将生成:

Spider ManAnt ManSpider Woman

捕获感兴趣的文本仅仅是隔靴搔痒。如果能够准确确定材料,就可以使用其他材料改变其外观。类似于 vi 和 Emacs
的编辑器将模式匹配与替换组合,从而将查找和替换文本组合成一步操作。还可以使用模式、替换和 sed 从命令行更改文本。

丰富的主题

正则表达式非常强大;可供使用的操作符的数量庞大,种类繁多。它包含如此丰富的信息和实践知识,我们在这里所能列举的实属凤毛麟角。

幸运的是,有以下三种优秀的正则表达式理论来源可供使用:

如果在您的系统上有 Perl,可以参阅 Perl Regular Expression man 页面(键入 perldoc
perlre)。它会提供 regex 的精彩介绍,并包含许多有用的示例。许多编程语言都已采用 Perl 兼容的正则表达式
(PCRE),因此您在此 man 页面读到的内容已被直接转换到 PHP、Python、Java? 和 Ruby
编程语言,以及许多其他最新工具。
Jeffrey Friedl 编著的《正则表达式》(第三版)被认为是 regex
用法方面的圣经。该书细致、准确、清晰、务实地说明了匹配的工作方式、所有的 regex 操作符、多数优先性(限制 + 和 *
匹配字符的数量),以及更多内容。此外,Friedl 的书还包括一些令人惊叹的正则表达式,可以准确地匹配完全限定的电子邮件地址和其他
Request for Comments (RFC) 特定的字符串。
Nathan Good 编著的 Regular Expression Recipes
一书提供了针对许多常见数据处理和过滤问题的有用的解决方案。如果需要提取邮政编码、电话号码或引用的字符串,请尝试 Nathan 的解决方案。
在命令行中,可以采用许多方法使用正则表达式。几乎每个处理文本的命令都支持某种形式的正则表达式。大多数 Shell
命令语法还或多或少地扩展正则表达式以匹配文件名(尽管操作符的功能可能有所不同)。

例如,键入 ls [a-c] 以查找名为 a、b 或 c 的文件。键入 ls [a-c]* 以查找以 a、b 或 c
开头的所有文件名。此处的 * 在 Shell 中不像 grep 的解释器那样修饰 [a-c],* 被解释为 .*。? 操作符在 Shell
中也可以工作,但是被解释为 .,即匹配任意单个字符。

查看您最喜欢的实用工具或 Shell 的文档以确定哪些 regex 操作符受支持,以及操作符可能具有的独特性。


--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

正则表达式awk

1. awk简介
awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标准输出
(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred
Aho、Brian Kernighan、Peter
Weinberger。gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的,在
linux系统中已把awk链接到gawk,所以下面全部以awk进行介绍。

2. awk命令格式和选项
2.1. awk的语法有两种形式
awk [options] 'script' var=value file(s)

awk [options] -f scriptfile var=value file(s)

2.2. 命令选项
-F fs or --field-separator fs
指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。

-v var=value or --asign var=value
赋值一个用户定义变量。

-f scripfile or --file scriptfile
从脚本文件中读取awk命令。

-mf nnn and -mr nnn
对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。

-W compact or --compat, -W traditional or --traditional
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。

-W copyleft or --copyleft, -W copyright or --copyright
打印简短的版权信息。

-W help or --help, -W usage or --usage
打印全部awk选项和每个选项的简短说明。

-W lint or --lint
打印不能向传统unix平台移植的结构的警告。

-W lint-old or --lint-old
打印关于不能向传统unix平台移植的结构的警告。

-W posix
打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。

-W re-interval or --re-inerval
允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。

-W source program-text or --source program-text
使用program-text作为源代码,可与-f命令混用。

-W version or --version
打印bug报告信息的版本。

3. 模式和操作
awk脚本是由模式和操作组成的:
pattern {action} 如$ awk '/root/' test,或$ awk '$3 < 100' test。

两者是可选的,如果没有模式,则action应用到全部记录,如果没有action,则输出匹配全部记录。默认情况下,每一个输入行都是一条记录,但用户可通过RS变量指定不同的分隔符进行分隔。

3.1. 模式
模式可以是以下任意一个:

/正则表达式/:使用通配符的扩展集。

关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如$2>%1选择第二个字段比第一个字段长的行。

模式匹配表达式:用运算符~(匹配)和~!(不匹配)。

模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。

BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。

END:让用户在最后一条输入记录被读取之后发生的动作。

3.2. 操作
操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:

变量或数组赋值

输出命令

内置函数

控制流命令

4. awk的环境变量

Table 1. awk的环境变量

变量 描述
$n 当前记录的第n个字段,字段间由FS分隔。
$0 完整的输入记录。
ARGC 命令行参数的数目。
ARGIND 命令行中当前文件的位置(从0开始算)。
ARGV 包含命令行参数的数组。
CONVFMT 数字转换格式(默认值为%.6g)
ENVIRON 环境变量关联数组。
ERRNO 最后一个系统错误的描述。
FIELDWIDTHS 字段宽度列表(用空格键分隔)。
FILENAME 当前文件名。
FNR 同NR,但相对于当前文件。
FS 字段分隔符(默认是任何空格)。
IGNORECASE 如果为真,则进行忽略大小写的匹配。
NF 当前记录中的字段数。
NR 当前记录数。
OFMT 数字的输出格式(默认值是%.6g)。
OFS 输出字段分隔符(默认值是一个空格)。
ORS 输出记录分隔符(默认值是一个换行符)。
RLENGTH 由match函数所匹配的字符串的长度。
RS 记录分隔符(默认是一个换行符)。
RSTART 由match函数所匹配的字符串的第一个位置。
SUBSEP 数组下标分隔符(默认值是\034)。

5. awk运算符

Table 2. 运算符

运算符 描述
= += -= *= /= %= ^= **= 赋值
?: C条件表达式
|| 逻辑或
&& 逻辑与
~ ~! 匹配正则表达式和不匹配正则表达式
< <= > >= != == 关系运算符
空格 连接
+ - 加,减
* / & 乘,除与求余
+ - ! 一元加,减和逻辑非
^ *** 求幂
++ -- 增加或减少,作为前缀或后缀
$ 字段引用
in 数组成员

6. 记录和域
6.1. 记录
awk把每一个以换行符结束的行称为一个记录。

记录分隔符:默认的输入和输出的分隔符都是回车,保存在内建变量ORS和RS中。

$0变量:它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

变量NR:一个计数器,每处理完一条记录,NR的值就增加1。如$ awk '{print NR,$0}'
test将输出test文件中所有记录,并在记录前显示记录号。

6.2. 域
记录中每个单词称做"域",默认情况下以空格或tab分隔。awk可跟踪域的个数,并在内建变量NF中保存该值。如$ awk '{print
$1,$3}' test将打印test文件中第一和第三个以空格分开的列(域)。

6.3. 域分隔符
内建变量FS保存输入域分隔符的值,默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print
$1,$5}' test将打印以冒号为分隔符的第一,第五列的内容。

可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,如$awk -F'[:\t]' '{print $1,$3}'
test,表示以空格、冒号和tab作为分隔符。

输出域的分隔符默认是一个空格,保存在OFS中。如$ awk -F: '{print $1,$5}' test,$1和$5间的逗号就是OFS的值。

7. gawk专用正则表达式元字符
一般通用的元字符集就不讲了,可参考我的Sed和Grep学习笔记。以下几个是gawk专用的,不适合unix版本的awk。

\Y
匹配一个单词开头或者末尾的空字符串。

\B
匹配单词内的空字符串。

\<
匹配一个单词的开头的空字符串,锚定开始。

\>
匹配一个单词的末尾的空字符串,锚定末尾。

\w
匹配一个字母数字组成的单词。

\W
匹配一个非字母数字组成的单词。

\'
匹配字符串开头的一个空字符串。

\'
匹配字符串末尾的一个空字符串。

8. POSIX字符集
可参考我的Grep学习笔记

9. 匹配操作符(~)
用来在记录或者域内匹配正则表达式。如$ awk '$1 ~/^root/' test将显示test文件第一列中以root开头的行。

10. 比较表达式
conditional expression1 ? expression2: expression3,例如:$ awk '{max =
{$1 > $3} ? $1: $3: print max}'
test。如果第一个域大于第三个域,$1就赋值给max,否则$3就赋值给max。

$ awk '$1 + $2 < 100' test。如果第一和第二个域相加大于100,则打印这些行。

$ awk '$1 > 5 && $2 < 10' test,如果第一个域大于5,并且第二个域小于10,则打印这些行。

11. 范围模板
范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾。如$ awk
'/root/,/mysql/' test将显示root第一次出现到mysql第一次出现之间的所有行。

12. 一个验证passwd文件有效性的例子

$ cat /etc/passwd | awk -F: '\NF != 7{\printf("line %d,does not have 7
fields:%s\n",NR,$0)}\$1 !~ /[A-Za-z0-9]/{printf("line %d,non alpha and
numeric user id:%d: %s\n,NR,$0)}\$2 == "*" {printf("line %d, no
password: %s\n",NR,$0)}'

cat把结果输出给awk,awk把域之间的分隔符设为冒号。

如果域的数量(NF)不等于7,就执行下面的程序。

printf打印字符串"line ?? does not have 7 fields",并显示该条记录。

如果第一个域没有包含任何字母和数字,printf打印"no alpha and numeric user id" ,并显示记录数和记录。

如果第二个域是一个星号,就打印字符串"no passwd",紧跟着显示记录数和记录本身。


13. 几个实例
$ awk '/^(no|so)/' test-----打印所有以模式no或so开头的行。

$ awk '/^[ns]/{print $1}' test-----如果记录以n或s开头,就打印这个记录。

$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。

$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50,则打印该行。

$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test,则第一个域加10并打印出来。

$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}'
test-----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。

$ awk '/^root/,/^mysql/'
test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。

14. awk编程
14.1. 变量
在awk中,变量不需要定义就可以直接使用,变量类型可以是数字或字符串。

赋值格式:Variable = expression,如$ awk '$1 ~/test/{count = $2 + $3; print
count}' test,上式的作用是,awk先扫描第一个域,一旦test匹配,就把第二个域的值加上第三个域的值,并把结果赋值给变量count,最后打印出来。

awk 可以在命令行中给变量赋值,然后将这个变量传输给awk脚本。如$ awk -F: -f awkscript month=4
year=2004 test,上式的month和year都是自定义变量,分别被赋值为4和2004。在awk脚本中,这些变量使用起来就象是在脚本中建立的一样。注意,如果参数前面出现test,那么在BEGIN语句中的变量就不能被使用。

域变量也可被赋值和修改,如$ awk '{$2 = 100 + $1; print }'
test,上式表示,如果第二个域不存在,awk将计算表达式100加$1的值,并将其赋值给$2,如果第二个域存在,则用表达式的值覆盖$2原来的值。再例如:$
awk '$1 == "root"{$1 ="test";print}'
test,如果第一个域的值是"root",则把它赋值为"test",注意,字符串一定要用双引号。

内建变量的使用。变量列表在前面已列出,现在举个例子说明一下。$ awk -F: '{IGNORECASE=1; $1 ==
"MARY"{print NR,$1,$2,$NF}'test,把IGNORECASE设为1代表忽略大小写,打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。

14.2. BEGIN模块
BEGIN 模块后紧跟着动作块,这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值,如OFS,
RS和FS等,以及打印标题。如:$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print
$1,$2,$3} test。上式表示,在处理输入文件以前,域分隔符(FS)被设为冒号,输出文件分隔符(OFS)被设置为制表符,输出记录分隔符(ORS)被设置为两个换行符。$
awk 'BEGIN{print "TITLE TEST"}只打印标题。

14.3. END模块
END不匹配任何的输入文件,但是执行动作块中的所有动作,它在整个输入文件处理完成后被执行。如$ awk 'END{print "The
number of records is" NR}' test,上式将打印所有被处理的记录数。

14.4. 重定向和管道
awk 可使用shell的重定向符进行重定向输出,如:$ awk '$1 = 100 {print $1 > "output_file"
}' test。上式表示如果第一个域的值等于100,则把它输出到output_file中。也可以用>>来重定向输出,但不清空文件,只做追加操作。

输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内容,并给NF,NR和FNR等内建变量赋值。如果得到一条记录,getline函数返回1,如果到达文件的末尾就返回0,如果出现错误,例如打开文件失败,就返回-1。如:

$ awk 'BEGIN{ "date" | getline d; print d}'
test。执行linux的date命令,并通过管道输出给getline,然后再把输出赋值给自定义变量d,并打印它。

$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}'
test。执行shell的date命令,并通过管道输出给getline,然后getline从管道中读取并将输入赋值给d,split函数把变量d转化成数组mon,然后打印数组mon的第二个元素。

$ awk 'BEGIN{while( "ls" | getline)
print}',命令ls的输出传递给geline作为输入,循环使getline从ls的输出中读取一行,并把它打印到屏幕。这里没有输入文件,因为
BEGIN块在打开输入文件前执行,所以可以忽略输入文件。

$ awk 'BEGIN{printf "What is your name?"; getline name < "/dev/tty" }
$1 ~name {print "Found" name on line ", NR "."} END{print "See you,"
name "."} test。在屏幕上打印"What is your
name?",并等待用户应答。当一行输入完毕后,getline函数从终端接收该行输入,并把它储存在自定义变量name中。如果第一个域匹配变量
name的值,print函数就被执行,END块打印See you和name的值。

$ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print
lc}'。awk将逐行读取文件/etc/passwd的内容,在到达文件末尾前,计数器lc一直增加,当到末尾时,打印lc的值。注意,如果文件不存在,getline返回-1,如果到达文件的末尾就返回0,如果读到一行,就返回1,所以命令
while (getline < "/etc/passwd")在文件不存在的情况下将陷入无限循环,因为返回-1表示逻辑真。

可以在awk中打开一个管道,且同一时刻只能有一个管道存在。通过close()可关闭管道。如:$ awk '{print $1, $2 |
"sort" }' test END
{close("sort")}。awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。

system函数可以在awk中执行linux的命令。如:$ awk 'BEGIN{system("clear")'。

fflush函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出的缓冲区,如果以空字符串为参数,如fflush(""),则刷新所有文件和管道的输出缓冲区。

14.5. 条件语句
awk中的条件语句是从C语言中借鉴过来的,可控制程序的流程。

14.5.1. if语句
格式: {if (expression){ statement; statement;
... } }
$ awk '{if ($1 <$2) print $2 "too high"}' test。如果第一个域小于第二个域则打印。

$ awk '{if ($1 < $2) {count++; print "ok"}}' test.如果第一个域小于第二个域,则count加一,并打印ok。

14.5.2. if/else语句,用于双重判断。
格式: {if (expression){ statement; statement;
... } else{ statement;
statement; ... } }
$ awk '{if ($1 > 100) print $1 "bad" ; else print "ok"}'
test。如果$1大于100则打印$1 bad,否则打印ok。

$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}'
test。如果$1大于100,则count加一,并打印$1,否则count减一,并打印$1。

14.5.3. if/else else if语句,用于多重判断。
格式: {if (expression){ statement; statement;
... } else if (expression){
statement; statement; ... } else if
(expression){ statement; statement; ...
} else { statement; statement; ...
} }
14.6. 循环
awk有三种循环:while循环;for循环;special for循环。

$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}'
test。变量的初始值为1,若i小于可等于NF(记录中域的个数),则执行打印语句,且i增加1。直到i的值大于NF.

$ awk '{for (i = 1; i<NF; i++) print NF,$i}' test。作用同上。

breadkcontinue语句。break用于在满足条件的情况下跳出循环;continue用于在满足条件的情况下忽略后面的语句,直接返回循环的顶端。如:

{for ( x=3; x<=NF; x++) if ($x<0){print "Bottomed out!";
break}}{for ( x=3; x<=NF; x++) if ($x==0){print "Get next
item"; continue}}
next语句从输入文件中读取一行,然后从头开始执行awk脚本。如:

{if ($1 ~/test/){next} else {print}}
exit语句用于结束awk程序,但不会略过END块。退出状态为0代表成功,非零值表示出错。

14.7. 数组
awk中的数组的下标可以是数字和字母,称为关联数组。

14.7.1. 下标与关联数组
用变量作为数组下标。如:$ awk {name[x++]=$2};END{for(i=0;i<NR;i++) print
i,name[i]}' test。数组name中的下标是一个自定义变量x,awk初始化x的值为0,在每次使用后增加1。第二个域的值被赋给name数组的各个元素。在END
模块中,for循环被用于循环整个数组,从下标为0的元素开始,打印那些存储在数组中的值。因为下标是关健字,所以它不一定从0开始,可以从任何值开始。

special for循环用于读取关联数组中的元素。格式如下:

{for (item in arrayname){ print arrayname[item] }}
$ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}'
test。打印有值的数组元素。打印的顺序是随机的。
用字符串作为下标。如:count["test"]

用域值作为数组的下标。一种新的for循环方式,for (index_value in array) statement。如:$ awk
'{count[$1]++} END{for(name in count) print name,count[name]}'
test。该语句将打印$1中字符串出现的次数。它首先以第一个域作数组count的下标,第一个域变化,索引就变化。

delete 函数用于删除数组元素。如:$ awk '{line[x++]=$1} END{for(x in line)
delete(line[x])}' test。分配给数组line的是第一个域的值,所有记录处理完成后,special
for循环将删除每一个元素。

14.8. awk的内建函数
14.8.1. 字符串函数
sub函数匹配记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候。格式如下:

sub (regular expression, substitution string):
sub (regular expression, substitution string, target string)
实例:

$ awk '{ sub(/test/, "mytest"); print }' testfile
$ awk '{ sub(/test/, "mytest"); $1}; print }' testfile
第一个例子在整个记录中匹配,替换只发生在第一次匹配发生的时候。如要在整个文件中进行匹配需要用到gsub

第二个例子在整个记录的第一个域中进行匹配,替换只发生在第一次匹配发生的时候。

gsub函数作用如sub,但它在整个文档中进行匹配。格式如下:

gsub (regular expression, substitution string)
gsub (regular expression, substitution string, target string)
实例:

$ awk '{ gsub(/test/, "mytest"); print }' testfile
$ awk '{ gsub(/test/, "mytest"), $1 }; print }' testfile
第一个例子在整个文档中匹配test,匹配的都被替换成mytest。

第二个例子在整个文档的第一个域中匹配,所有匹配的都被替换成mytest。

index函数返回子字符串第一次被匹配的位置,偏移量从位置1开始。格式如下:

index(string, substring)
实例:

$ awk '{ print index("test", "mytest") }' testfile
实例返回test在mytest的位置,结果应该是3。

length函数返回记录的字符数。格式如下:

length( string ) length
实例:

$ awk '{ print length( "test" ) }' $ awk '{
print length }' testfile
第一个实例返回test字符串的长度。

第二个实例返回testfile文件中第条记录的字符数。

substr函数返回从位置1开始的子字符串,如果指定长度超过实际长度,就返回整个字符串。格式如下:

substr( string, starting position ) substr(
string, starting position, length of string )
实例:

$ awk '{ print substr( "hello world", 7,11 ) }'
上例截取了world子字符串。

match函数返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位置,RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串。函数格式如下:

match( string, regular expression )
实例:

$ awk '{start=match("this is a test",/[a-z]+$/); print
start}' $ awk '{start=match("this is a test",/[a-z]+$/);
print start, RSTART, RLENGTH }'
第一个实例打印以连续小写字符结尾的开始位置,这里是11。

第二个实例还打印RSTART和RLENGTH变量,这里是11(start),11(RSTART),4(RLENGTH)。

toupper和tolower函数可用于字符串大小间的转换,该功能只在gawk中有效。格式如下:

toupper( string ) tolower( string )
实例:

$ awk '{ print toupper("test"), tolower("TEST") }'
split函数可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供,则按当前FS值进行分割。格式如下:

split( string, array, field separator ) split(
string, array )
实例:

$ awk '{ split( "20:18:00", time, ":" ); print time[2] }'
上例把时间按冒号分割到time数组内,并显示第二个数组元素18。

14.8.2. 时间函数
systime函数返回从1970年1月1日开始到当前时间(不计闰年)的整秒数。格式如下:

systime()
实例:

$ awk '{ now = systime(); print now }'
strftime函数使用C库中的strftime函数格式化时间。格式如下:

systime( [format specification][,timestamp] )

Table 3. 日期和时间格式说明符

格式 描述
%a 星期几的缩写(Sun)
%A 星期几的完整写法(Sunday)
%b 月名的缩写(Oct)
%B 月名的完整写法(October)
%c 本地日期和时间
%d 十进制日期
%D 日期 08/20/99
%e 日期,如果只有一位会补上一个空格
%H 用十进制表示24小时格式的小时
%I 用十进制表示12小时格式的小时
%j 从1月1日起一年中的第几天
%m 十进制表示的月份
%M 十进制表示的分钟
%p 12小时表示法(AM/PM)
%S 十进制表示的秒
%U 十进制表示的一年中的第几个星期(星期天作为一个星期的开始)
%w 十进制表示的星期几(星期天是0)
%W 十进制表示的一年中的第几个星期(星期一作为一个星期的开始)
%x 重新设置本地日期(08/20/99)
%X 重新设置本地时间(12:00:00)
%y 两位数字表示的年(99)
%Y 当前月份
%Z 时区(PDT)
%% 百分号(%)

实例:

$ awk '{ now=strftime( "%D", systime() ); print now }'
$ awk '{ now=strftime("%m/%d/%y"); print now }'
14.8.3. 内建数学函数

Table 4.

函数名称 返回值
atan2(x,y) y,x范围内的余切
cos(x) 余弦函数
exp(x) 求幂
int(x) 取整
log(x) 自然对数
rand() 随机数
sin(x) 正弦
sqrt(x) 平方根
srand(x) x是rand()函数的种子
int(x) 取整,过程没有舍入
rand() 产生一个大于等于0而小于1的随机数

14.8.4. 自定义函数
在awk中还可自定义函数,格式如下:

function name ( parameter, parameter, parameter, ... ) {
statements return expression
# the return statement and expression are
optional }
15. How-to
如何把一行竖排的数据转换成横排?

awk '{printf("%s,",$1)}' filename


--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

expect的基本用法

一、概述

我们通过Shell可以实现简单的控制流功能,如:循环、判断等。但是对于需要交互的场合则必须通过人工来干预,有时候我们可能会需要实现和交互程序如telnet服务器等进行交互的功能。而Expect就使用来实现这种功能的工具。

Expect是一个免费的编程工具语言,用来实现自动和交互式任务进行通信,而无需人的干预。Expect的作者Don
Libes在1990年开始编写Expect时对Expect做有如下定义:Expect是一个用来实现自动交互功能的软件套件(Expect
[is a] software suite for automating interactive
tools)。使用它系统管理员的可以创建脚本用来实现对命令或程序提供输入,而这些命令和程序是期望从终端(terminal)得到输入,一般来说这些输入都需要手工输入进行的。Expect则可以根据程序的提示模拟标准输入提供给程序需要的输入来实现交互程序执行。甚至可以实现实现简单的BBS聊天机器人。
Expect是不断发展的,随着时间的流逝,其功能越来越强大,已经成为系统管理员的的一个强大助手。Expect需要Tcl编程语言的支持,要在系统上运行Expect必须首先安装Tcl。
二、Expect工作原理

从最简单的层次来说,Expect的工作方式象一个通用化的Chat脚本工具。Chat脚本最早用于UUCP网络内,以用来实现计算机之间需要建立连接时进行特定的登录会话的自动化。

Chat脚本由一系列expect-send对组成:expect等待输出中输出特定的字符,通常是一个提示符,然后发送特定的响应。例如下面的
Chat脚本实现等待标准输出出现Login:字符串,然后发送somebody作为用户名;然后等待Password:提示符,并发出响应
sillyme。
引用:Login: somebody Password: sillyme

这个脚本用来实现一个登录过程,并用特定的用户名和密码实现登录。

Expect最简单的脚本操作模式本质上和Chat脚本工作模式是一样的。

例子:
1、实现功能
下面我们分析一个响应chsh命令的脚本。我们首先回顾一下这个交互命令的格式。假设我们要为用户chavez改变登录脚本,要求实现的命令交互过程如下:

引用:# chsh chavez
Changing the login shell for chavez
Enter the new value, or press return for the default
Login Shell [/bin/bash]: /bin/tcsh
#

可以看到该命令首先输出若干行提示信息并且提示输入用户新的登录shell。我们必须在提示信息后面输入用户的登录shell或者直接回车不修改登录shell。
2、下面是一个能用来实现自动执行该命令的Expect脚本:
#!/usr/bin/expect
# Change a login shell to tcsh

set user [lindex $argv 0]
spawn chsh $user
expect "]:"
send "/bin/tcsh "
expect eof
exit
这个简单的脚本可以解释很多Expect程序的特性。和其他脚本一样首行指定用来执行该脚本的命令程序,这里是/usr/bin/expect。程序第一行用来获得脚本的执行参数(其保存在数组$argv中,从0号开始是参数),并将其保存到变量user中。

第二个参数使用Expect的spawn命令来启动脚本和命令的会话,这里启动的是chsh命令,实际上命令是以衍生子进程的方式来运行的。

随后的expect和send命令用来实现交互过程。脚本首先等待输出中出现]:字符串,一旦在输出中出现chsh输出到的特征字符串(一般特征字符串往往是等待输入的最后的提示符的特征信息)。对于其他不匹配的信息则会完全忽略。当脚本得到特征字符串时,expect将发送/bin/tcsh和一个回车符给chsh命令。最后脚本等待命令退出(chsh结束),一旦接收到标识子进程已经结束的eof字符,expect脚本也就退出结束。

3、决定如何响应

管理员往往有这样的需求,希望根据当前的具体情况来以不同的方式对一个命令进行响应。我们可以通过后面的例子看到expect可以实现非常复杂的条件响应,而仅仅通过简单的修改预处理脚本就可以实现。下面的例子是一个更复杂的expect-send例子:
expect -re "\[(.*)]:"
if {$expect_out(1,string)!="/bin/tcsh"} {
send "/bin/tcsh" }
send " "
expect eof
在这个例子中,第一个expect命令现在使用了-re参数,这个参数表示指定的的字符串是一个正则表达式,而不是一个普通的字符串。对于上面这个例子里是查找一个左方括号字符(其必须进行三次逃逸(escape),因此有三个符号,因为它对于expect和正则表达时来说都是特殊字符)后面跟有零个或多个字符,最后是一个右方括号字符。这里.*表示表示一个或多个任意字符,将其存放在()中是因为将匹配结果存放在一个变量中以实现随后的对匹配结果的访问。

当发现一个匹配则检查包含在[]中的字符串,查看是否为/bin/tcsh。如果不是则发送/bin/tcsh给chsh命令作为输入,如果是则仅仅发送一个回车符。这个简单的针对具体情况发出不同相响应的小例子说明了expect的强大功能。

在一个正则表达时中,可以在()中包含若干个部分并通过expect_out数组访问它们。各个部分在表达式中从左到右进行编码,从1开始(0包含有整个匹配输出)。()可能会出现嵌套情况,这这种情况下编码从最内层到最外层来进行的。

4、使用超时

下一个expect例子中将阐述具有超时功能的提示符函数。这个脚本提示用户输入,如果在给定的时间内没有输入,则会超时并返回一个默认的响应。这个脚本接收三个参数:提示符字串,默认响应和超时时间(秒)。
#!/usr/bin/expect
# Prompt function with timeout and default.
set prompt [lindex $argv 0]
set def [lindex $argv 1]
set response $def
set tout [lindex $argv 2]

脚本的第一部分首先是得到运行参数并将其保存到内部变量中。
send_tty "$prompt: "
set timeout $tout
expect " " {
set raw $expect_out(buffer)
# remove final carriage return
set response [string trimright "$raw" " "]
}
if {"$response" == "} {set response $def}
send "$response "
# Prompt function with timeout and default.
set prompt [lindex $argv 0]
set def [lindex $argv 1]
set response $def
set tout [lindex $argv 2]
这是脚本其余的内容。可以看到send_tty命令用来实现在终端上显示提示符字串和一个冒号及空格。set
timeout命令设置后面所有的expect命令的等待响应的超时时间为$tout(-l参数用来关闭任何超时设置)。

然后expect命令就等待输出中出现回车字符。如果在超时之前得到回车符,那么set命令就会将用户输入的内容赋值给变脸raw。随后的命令将用户输入内容最后的回车符号去除以后赋值给变量response。

然后,如果response中内容为空则将response值置为默认值(如果用户在超时以后没有输入或者用户仅仅输入了回车符)。最后send命令将response变量的值加上回车符发送给标准输出。

一个有趣的事情是该脚本没有使用spawn命令。 该expect脚本会与任何调用该脚本的进程交互。

如果该脚本名为prompt,那么它可以用在任何C风格的shell中。
% set a='prompt "Enter an answer" silence 10′
Enter an answer: test

% echo Answer was "$a"
Answer was test
prompt设定的超时为10秒。如果超时或者用户仅仅输入了回车符号,echo命令将输出

Answer was "silence"

5、一个更复杂的例子

下面我们将讨论一个更加复杂的expect脚本例子,这个脚本使用了一些更复杂的控制结构和很多复杂的交互过程。这个例子用来实现发送write命令给任意的用户,发送的消息来自于一个文件或者来自于键盘输入。
#!/usr/bin/expect
# Write to multiple users from a prepared file
# or a message input interactively

if {$argc<2} {
send_user "usage: $argv0 file user1 user2 ... "
exit
}

send_user命令用来显示使用帮助信息到父进程(一般为用户的shell)的标准输出。
set nofile 0
# get filename via the Tcl lindex function
set file [lindex $argv 0]
if {$file=="i"} {
set nofile 1
} else {
# make sure message file exists
if {[file isfile $file]!=1} {
send_user "$argv0: file $file not found. "
exit }}
这部分实现处理脚本启动参数,其必须是一个储存要发送的消息的文件名或表示使用交互输入得到发送消的内容的"i"命令。

变量file被设置为脚本的第一个参数的值,是通过一个Tcl函数lindex来实现的,该函数从列表/数组得到一个特定的元素。[]用来实现将函数lindex的返回值作为set命令的参数。

如果脚本的第一个参数是小写的"i",那么变量nofile被设置为1,否则通过调用Tcl的函数isfile来验证参数指定的文件存在,如果不存在就报错退出。

可以看到这里使用了if命令来实现逻辑判断功能。该命令后面直接跟判断条件,并且执行在判断条件后的{}内的命令。if条件为false时则运行else后的程序块。
set procs {}
# start write processes
for {set i 1} {$i<$argc}
{incr i} {
spawn -noecho write
[lindex $argv $i]
lappend procs $spawn_id
}

最后一部分使用spawn命令来启动write进程实现向用户发送消息。这里使用了for命令来实现循环控制功能,循环变量首先设置为1,然后因此递增。循环体是最后的{}的内容。这里我们是用脚本的第二个和随后的参数来spawn一个write命令,并将每个参数作为发送消息的用户名。
lappend命令使用保存每个spawn的进程的进程ID号的内部变量$spawn_id在变量procs中构造了一个进程ID号列表。
if {$nofile==0} {
setmesg [open "$file" "r"]
} else {
send_user "enter message,
ending with ^D: " }
最后脚本根据变量nofile的值实现打开消息文件或者提示用户输入要发送的消息。
set timeout -1
while 1 {
if {$nofile==0} {
if {[gets $mesg chars] == -1} break
set line "$chars "
} else {
expect_user {
-re " " {}
eof break }
set line $expect_out(buffer) }

foreach spawn_id $procs {
send $line }
sleep 1}
exit

上面这段代码说明了实际的消息文本是如何通过无限循环while被发送的。while循环中的
if判断消息是如何得到的。在非交互模式下,下一行内容从消息文件中读出,当文件内容结束时while循环也就结束了。(break命令实现终止循环)

在交互模式下,expect_user命令从用户接收消息,当用户输入ctrl+D时结束输入,循环同时结束。
两种情况下变量$line都被用来保存下一行消息内容。当是消息文件时,回车会被附加到消息的尾部。

foreach循环遍历spawn的所有进程,这些进程的ID号都保存在列表变量$procs中,实现分别和各个进程通信。send命令组成了
foreach的循环体,发送一行消息到当前的write进程。while循环的最后是一个sleep命令,主要是用于处理非交互模式情况下,以确保消息不会太快的发送给各个write进程。当while循环退出时,expect脚本结束。
三、参考资源

Expect软件版本深带有很多例子脚本,不但可以用于学习和理解expect脚本,而且是非常使用的工具。一般可以在
/usr/doc/packages/expect/example看到它们,在某些linux发布中有些expect脚本保存在/usr/bin目录下。

Don Libes, Exploring Expect, O'Reilly & Associates, 1995.

John Ousterhout, Tcl and the Tk Toolkit, Addison-Wesley, 1994.

一些有用的expect脚本

autoexpect:这个脚本将根据自身在运行时用户的操作而生成一个expect脚本。它的功能某种程度上类似于在Emacs编辑器的键盘宏工具。一个自动创建的脚本可能是创建自己定制脚本的好的开始。

kibitz:这是一个非常有用的工具。通过它两个或更多的用户可以连接到同一个shell进程。

tkpasswd: 这个脚本提供了修改用户密码的GUI工具,包括可以检查密码是否是基于字典模式。这个工具同时是一个学习expect和tk的好实例。

--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/

浅谈C中的malloc和free

本文转自编程中国网站:

原帖及讨论:http://www.bc-cn.net/bbs/dispbbs.ASP?BoardID=5&ID=82212

在C语言的学习中,对内存管理这部分的知识掌握尤其重要!之前对C中的malloc()和free()两个函数的了解甚少,只知道大概该怎么用――就是malloc然后free就一切OK了。当然现在对这两个函数的体会也不见得多,不过对于本文章第三部分的内容倒是有了转折性的认识,所以

写下这篇文章作为一个对知识的总结。这篇文章之所以命名中有个"浅谈"的字眼,也就是这个意思了!希望对大家有一点帮助!

如果不扯得太远的话(比如说操作系统中虚拟内存和物理内存如何运做如何管理之类的知识等),我感觉这篇文章应该是比较全面地谈了一下malloc()和free().这篇文章由浅入深(不见得有多深)分三个部分介绍主要内容。

废话了那么多,下面立刻进入主题================》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》》


一、malloc()和free()的基本概念以及基本用法:

1、函数原型及说明:

void *malloc(long
NumBytes):该函数分配了NumBytes个字节,并返回了指向这块内存的指针。如果分配失败,则返回一个空指针(NULL)。

关于分配失败的原因,应该有多种,比如说空间不足就是一种。

void free(void *FirstByte): 该函数是将之前用malloc分配的空间还给程序或者是操作系统,也就是释放了这块内存,让它重新得到自由。

2、函数的用法:

其实这两个函数用起来倒不是很难,也就是malloc()之后觉得用够了就甩了它把它给free()了,举个简单例子:

程序代码:
// Code...
char *Ptr = NULL;
Ptr = (char *)malloc(100 * sizeof(char));
if (NULL == Ptr)
{
exit (1);
}
gets(Ptr);

// code...
free(Ptr);
Ptr = NULL;
// code...
就是这样!当然,具体情况要具体分析以及具体解决。比如说,你定义了一个指针,在一个函数里申请了一块内存然后通过函数返回传递给这个指针,那么也许释放这块内存这项工作就应该留给其他函数了。

3、关于函数使用需要注意的一些地方:

A、申请了内存空间后,必须检查是否分配成功。

B、当不需要再使用申请的内存时,记得释放;释放后应该把指向这块内存的指针指向NULL,防止程序后面不小心使用了它。

C、这两个函数应该是配对。如果申请后不释放就是内存泄露;如果无故释放那就是什么也没有做。释放只能一次,如果释放两次及两次以上会

出现错误(释放空指针例外,释放空指针其实也等于啥也没做,所以释放空指针释放多少次都没有问题)。

D、虽然malloc()函数的类型是(void *),任何类型的指针都可以转换成(void *),但是最好还是在前面进行强制类型转换,因为这样可以躲过一

些编译器的检查。

好了!最基础的东西大概这么说!现在进入第二部分:


二、malloc()到底从哪里得来了内存空间:

1、malloc()到底从哪里得到了内存空间?答案是从堆里面获得空间。也就是说函数返回的指针是指向堆里面的一块内存。操作系统中有一个记录空闲内存地址的链表。当操作系统收到程序的申请时,就会遍历该链表,然后就寻找第一个空间大于所申请空间的堆结点,然后就将该结点从空闲结点链表中删除,并将该结点的空间分配给程序。就是这样!

说到这里,不得不另外插入一个小话题,相信大家也知道是什么话题了。什么是堆?说到堆,又忍不住说到了栈!什么是栈?下面就另外开个小部分专门而又简单地说一下这个题外话:

2、什么是堆:堆是大家共有的空间,分全局堆和局部堆。全局堆就是所有没有分配的空间,局部堆就是用户分配的空间。堆在操作系统对进程
初始化的时候分配,运行过程中也可以向系统要额外的堆,但是记得用完了要还给操作系统,要不然就是内存泄漏。

什么是栈:栈是线程独有的,保存其运行状态和局部自动变量的。栈在线程开始的时候初始化,每个线程的栈互相独立。每个函数都有自己的栈,栈被用来在函数之间传递参数。操作系统在切换线程的时候会自动的切换栈,就是切换SS/ESP寄存器。栈空间不需要在高级语言里面显式的分配和释放。

以上的概念描述是标准的描述,不过有个别语句被我删除,不知道因为这样而变得不标准了^_^.

通过上面对概念的描述,可以知道:

栈是由编译器自动分配释放,存放函数的参数值、局部变量的值等。操作方式类似于数据结构中的栈。

堆一般由程序员分配释放,若不释放,程序结束时可能由OS回收。注意这里说是可能,并非一定。所以我想再强调一次,记得要释放!

注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。(这点我上面稍微提过)

所以,举个例子,如果你在函数上面定义了一个指针变量,然后在这个函数里申请了一块内存让指针指向它。实际上,这个指针的地址是在栈上,但是它所指向的内容却是在堆上面的!这一点要注意!所以,再想想,在一个函数里申请了空间后,比如说下面这个函数:
程序代码:
// code...
void Function(void)
{
char *p = (char *)malloc(100 * sizeof(char));
}


就这个例子,千万不要认为函数返回,函数所在的栈被销毁指针也跟着销毁,申请的内存也就一样跟着销毁了!这绝对是错误的!因为申请的内存在堆上,而函数所在的栈被销毁跟堆完全没有啥关系。所以,还是那句话:记得释放!

3、free()到底释放了什么

这个问题比较简单,其实我是想和第二大部分的题目相呼应而已!哈哈!free()释放的是指针指向的内存!注意!释放的是内存,不是指针!这点非常非常重要!指针是一个变量,只有程序结束时才被销毁。释放了内存空间后,原来指向这块空间的指针还是存在!只不过现在指针指向的内容的垃圾,是未定义的,所以说是垃圾。因此,前面我已经说过了,释放内存后把指针指向NULL,防止指针在后面不小心又被解引用了。非常重要啊这一点!

好了!这个"题外话"终于说完了。就这么简单说一次,知道个大概就可以了!下面就进入第三个部分:

三、malloc()以及free()的机制:

这个部分我今天才有了新的认识!而且是转折性的认识!所以,这部分可能会有更多一些认识上的错误!不对的地方请大家帮忙指出!

事实上,仔细看一下free()的函数原型,也许也会发现似乎很神奇,free()函数非常简单,只有一个参数,只要把指向申请空间的指针传递

给free()中的参数就可以完成释放工作!这里要追踪到malloc()的申请问题了。申请的时候实际上占用的内存要比申请的大。因为超出的空间是用来记录对这块内存的管理信息。先看一下在《UNIX环境高级编程》中第七章的一段话:

大多数实现所分配的存储空间比所要求的要稍大一些,额外的空间用来记录管理信息――分配块的长度,指向下一个分配块的指针等等。这就意味着如果写过一个已分配区的尾端,则会改写后一块的管理信息。这种类型的错误是灾难性的,但是因为这种错误不会很快就暴露出来,所以也就很难发现。将指向分配块的指针向后移动也可能会改写本块的管理信息。

以上这段话已经给了我们一些信息了。malloc()申请的空间实际我觉得就是分了两个不同性质的空间。一个就是用来记录管理信息的空间,另外一个就是可用空间了。而用来记录管理信息的实际上是一个结构体。在C语言中,用结构体来记录同一个对象的不同信息是

天经地义的事!下面看看这个结构体的原型:

程序代码:
struct mem_control_block {
int is_available; //这是一个标记?
int size; //这是实际空间的大小
};


对于size,这个是实际空间大小。这里其实我有个疑问,is_available是否是一个标记?因为我看了free()的源代码之后对这个变量感觉有点纳闷(源代码在下面分析)。这里还请大家指出!

所以,free()就是根据这个结构体的信息来释放malloc()申请的空间!而结构体的两个成员的大小我想应该是操作系统的事了。但是这里有一个问题,malloc()申请空间后返回一个指针应该是指向第二种空间,也就是可用空间!不然,如果指向管理信息空间的话,写入的内容和结构体的类型有可能不一致,或者会把管理信息屏蔽掉,那就没法释放内存空间了,所以会发生错误!(感觉自己这里说的是废话)

好了!下面看看free()的源代码,我自己分析了一下,觉得比起malloc()的源代码倒是容易简单很多。只是有个疑问,下面指出!

程序代码:
// code...

void free(void *ptr)
{
struct mem_control_block *free;
free = ptr - sizeof(struct mem_control_block);
free->is_available = 1;
return;
}
看一下函数第二句,这句非常重要和关键。其实这句就是把指向可用空间的指针倒回去,让它指向管理信息的那块空间,因为这里是在值上减去了一个结构体的大小!后面那一句free->is_available
= 1;我有点纳闷!我的想法是:这里is_available应该只是一个标记而已!因为从这个变量的名称上来看,is_available
翻译过来就是"是可以用"。不要说我土!我觉得变量名字可以反映一个变量的作用,特别是严谨的代码。这是源代码,所以我觉得绝对是严谨的!!这个变量的值是1,表明是可以用的空间!只是这里我想了想,如果把它改为0或者是其他值不知道会发生什么事?!但是有一点我可以肯定,就是释放绝对不会那么顺利进行!因为这是一个标记!

当然,这里可能还是有人会有疑问,为什么这样就可以释放呢??我刚才也有这个疑问。后来我想到,释放是操作系统的事,那么就free()这个源代码来看,什么也没有释放,对吧?但是它确实是确定了管理信息的那块内存的内容。所以,free()只是记录了一些信息,然后告诉操作系统那块内存可以去释放,具体怎么告诉操作系统的我不清楚,但我觉得这个已经超出了我这篇文章的讨论范围了。

那么,我之前有个错误的认识,就是认为指向那块内存的指针不管移到那块内存中的哪个位置都可以释放那块内存!但是,这是大错特错!释放是不可以释放一部分的!首先这点应该要明白。而且,从free()的源代码看,ptr只能指向可用空间的首地址,不然,减去结构体大小之后一定不是指向管理信息空间的首地址。所以,要确保指针指向可用空间的首地址!不信吗?自己可以写一个程序然后移动指向可用空间的指针,看程序会有会崩!

最后可能想到malloc()的源代码看看malloc()到底是怎么分配空间的,这里面涉及到很多其他方面的知识!有兴趣的朋友可以自己去下载源
代码去看看。

--
/**************************************/
Name: Xiong Feng
E-mail:linux0818@gmail.com
MSN:linux0818@hotmail.com
QQ:23562033
Address: GuangZhou.China
/**************************************/