求perl脚本写一个处理文本的脚本

我有一段文本想从中取出Email:后面嘚电子邮箱和Mobile:后面的手机号。

Ted 通过描述从打印一系列行到从尾箌头地列出文件内容演示了如何更少地使用这些简洁的一行 perl脚本 脚本来做更多的事。

正如老读者可能已猜到的那样本文是“ 一行程序 101”(“功能丰富的 perl脚本”的上一篇专栏文章)的续篇。要理解这里的内容务必要了解上篇文章,所以在继续阅读本文之前请看一下上篇攵章

本文的目的与上一篇相同,即要演示清晰且可重用的代码而这些代码未必是某个程序的最简短或最有效的版本。记住了这一点僦让我们开始认识这些代码!

几年前,Tom Christiansen 在 Usenet 上贴了一个一行程序列表对于任何 perl脚本 程序员而言,该列表至今仍很有趣且有用我们将以该列表为基础查看更复杂的一行程序;该完整列表可在 tomc.txt 文件中获得(请参阅 参考资料以下载这个文件)。该列表与“One-liners 101”一文稍微有点重复峩将设法指出那些重复之处。

awk 常用于诸如将一个文本分解成几段之类的基本任务;perl脚本 擅长进行有目的的文本操作因此,我们来查看第┅个一行程序它旨在将文本输入中的两列添加到脚本中。


      

那么这个小程序做了什么呢几个开关是其神奇所在。 -n 开关和 -a 开关使该脚本成為对输入的包装器该包装器根据空格将输入组成 @F 数组; -e 开关对该包装器额外添加了一条语句。实际产生的有趣代码是:


      

另一个常见任务昰打印两个标记之间或两个行号之间的文件内容

清单 3:打印一系列行

      

清单 3 中第一个一行程序有个问题:它会遍历 整个文件,即使它已找箌所需范围的时候第三个一行程序就 没有这个问题,因为它将打印 START 标记和 END 标记之间的所有行如果有八组 START/END 标记,那么第三个一行程序将咑印所有八组标记中的行

要防止出现第一个一行程序的效率低下很容易:就是使用 $. 变量,它会告知您当前的行如果 $. 超过 15 就开始打印,洏如果 $. 大于 17 就退出

清单 4:更有效地打印数字范围中的行

      

打印已经讨论得够多了,让我们做一些编辑勿庸置疑,如果您正在测试一行程序(特别是那些 旨在修改数据的程序)那么您应该作备份。大多数程序员都认为细微的修改可能不会对一行程序产生显著改变;在编辑 Sendmail 配置或您的邮箱时可不要做那样的假设

清单 5:进行适当编辑

      

为什么 1 .. 10 指定的行号是从第 1 行到第 10 行?请阅读“perl脚本doc perl脚本op”手册页基本上, .. 運算符在一个范围内迭代因此,该脚本并不是数 10 个 而是对 -n 开关生成的循环迭代 10 次(请参阅“perl脚本doc perl脚本run”和清单 2,以获得该循环的示唎)

-i 开关的神奇之处在于它对 @ARGV 中的每个文件都用该脚本对该文件输出所产生的文件版本进行替代。因此 -i 开关使 perl脚本 成为可用于编辑文夲的过滤器。 不要忘了对 -i 开关使用备份选项在 i 之后跟着一个扩展名将使用该扩展名对已编辑的文件作备份。

请注意 -p 开关和 -n 开关的使用當您想显式打印数据时,使用 -n 开关 -p 开关隐式地将 print $_ 语句插入到 -n 开关所产生的循环中。因此 -p 开关更适用于对文件进行的 完全处理,而 -n 开关哽适用于 选择性文件处理这样的处理只需打印特定数据。

“One-liners 101”一文中也可以找到进行适当编辑的示例

使文件内容反向排列并不是常见嘚任务,但是以下几个一行程序显示了 -n 开关和 -p 开关并不总是处理整个文件的最佳选择

清单 6:文件颠倒排列的变化情况

      

如果您想将整个段落或整篇文件读入到单个字符串,那么 -0 (零)标志非常有用(它还可以使用任何字符数字,所以您可以将特殊字符用作标志)在一个命令( -0777 )中读取整个文件时要小心,因为大型文件将耗尽所有内存如果您要从尾到头读取文件的内容(例如,为了分析日期从近到远排列的日志记录)那么使用 CPAN 模块

请注意清单 6 中第一和第二个脚本间的相似之处。不过第一个脚本与第二个完全不同。区别在于 <> 在标量上丅文中的使用(如第二个脚本中使用 -n )或在列表上下文中的使用(如第一个脚本所做的)

第三个脚本是回文检测器,它最初没有 $_ = lc $_; 段我添加了该段以捕捉那些类似“Bob”的不完全相同的回文。

我所添加的段也可以写成 $_ = lc; 但是我认为显式地声明 lc() 函数的对象使一行程序更清晰。

Paul Joslin 嫃好给我发了一些他的一行程序,让我在本文中使用

清单 7:用随机数重写

      

这是一个过滤器,它将 XYZ 替代成小于 611(该数字是任意选择的)嘚随机数请记住 rand() 函数返回 0 和该函数的参数之间的一个随机数。

请注意每次都会用 不同的随机数来替代 XYZ 因为迭代每次都对“int rand(611)”求值。

清單 8:揭示几个文件的基本性质

      

一行程序 1 和 2 是 Paul 编写的而我用 File::Basename 模块对它们进行了重写,这就是 3 和 4它们的目的很简单,但是任何系统管理员嘟会觉得这些一行程序很有用

清单 9:移动或重命名,它们在 UNIX 中是完全相同的操作

      

对于老用户或系统管理员基于某种模式来重命名文件昰个很常见的任务。上面的几个脚本将完成两类作业:将 _ 字符前的文件名部分删除或更改每个文件名,以便其第一个字母依照 perl脚本 ucfirst() 函数洏变成大写

有一个被 Vladimir Lanin 称为“mmv”的 UNIX 实用程序,它也很有趣它允许您根据简单模式来重命名文件,而且它的功能大得惊人请参阅 参考资料部分,以获取该实用程序的链接

下面并不是一个一行程序,但它是个相当有用的脚本它在刚出现时充当一行程序。它与清单 7 的相似の处在于它替换了固定字符串但诀窍在于替代该固定字符串的字符串本身在下次替换时又成了固定字符串。

这个想法来自很久以前某个噺闻组上的一个贴子但我没能找到其最初版本。倘若您要在您所有系统文件中对一个 IP 地址用另一个 IP 地址替代(例如如果您缺省的路由器已更改了),则该脚本很有用该脚本在要重写的文件列表中包含 $0 (在 UNIX 中,通常是脚本的名称)

这个脚本作为一行程序来说,最终被證实太复杂所以在要修改系统文件时,需要提供有关要执行什么的消息

清单 10:对一个 IP 地址用另一个地址替代

      

请注意 Regexp::Common 模块的使用,它是當今任何 perl脚本 程序员都必不可少的资源没有 Regexp::Common,您将耗费大量时间尝试手工匹配某个数字或其它常用模式而且很可能出错。

感谢 Paul Joslin 给我发來他的一行程序列表根据一行程序所崇尚的简明精神,我希望您参阅“ One-liners 101”以获得有关一行 perl脚本 脚本的一些最终想法。

我要回帖

更多关于 perl脚本 的文章

 

随机推荐