在Linux系统里常用于文本查看、操作、统计的命令:
创新互联建站主要从事成都做网站、成都网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务新干,10余年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792
通过多敲键盘,形成手感 肌肉记忆 ,熟练掌握这些命令,在以后生信分析中游刃有余。以下是每个命令的详细的介绍(主要是跟着 生信技能树小郭老师 学习做的笔记)
接下来通过示例把10个命令的常用参数和用法展示出来:
参数的用法介绍:
注意事项:
用 cat 命令可以 查看文本 ,也可以 编辑文本 ,编辑文本要加 符号,退出时,另起一行,按 control C 退出
zcat可以查看压缩的文本文件,tac逆向查看
结合 管道符| 使用
head / tail -n :查看文件的前 / 后 n 行,默认 10 行 (在R语言里head和tail默认是前6行)。
less命令用得最多 ,more命令用得比较少
3.1 less命令
less [参数] 文件名
less命令重要的补充用法1 :
需要注意 退出 :只要使用less命令, 按q键
less命令重要的补充用法2 :
参数用法:
less命令 不加参数 查看文件:
less命令加 -N参数 查看文件:显示行号
less命令加 -S参数 查看文件:单行显示,非常规整
对比:less和cat命令显示文本行号的用法:less -N,cat -n
3.2 more命令
**more ** 逐页查看,按空格翻页,按回车换行 ,more命令一般很少用,熟练掌握less命令就好
查看压缩文件
wc 统计字符是也把换行符统计进去,但是别的命令不一定会把换行符算进去,。
常见参数:
切记:用less命令,按q退出
cut命令是按关键词来切的
常见参数:
排列前:
排列后:
解释:1和0比,1大;7和0比,7大…在sort字典排序里,100816比1737小,所以100816排在前面。
命令行查看一个表格结构时,因为制表符对齐的原因,出现一个错位的现象。还有 字典排序 可能和我们平时的认知不一样,所以 加上-n参数 , 让数值有数学意义上的大小来排序 。
uniq命令去重,只有两行出现重复,而且是相邻的两行,如果不相邻,即使出现两行一模一样,不会去重。
uniq命令通常和sort命令搭配使用
换其它文件试试
总之,uniq命令使用时经常和sort一起
常见参数:
常见用法1:
paste file1 file2
-s :按行合并 演示
常见用法2 : paste - -
常见参数:
要养成一个好习惯,原始数据不要轻易修改,修改的东西另外保存,文本保存用 (重定向)或是 (追加)
1. 用 less 查看 example.gtf ,然后管道符传递给 wc
2. 截取 example.gtf 第 9 列的内容
3. 在第2步的基础上截取分号分割的第1列
4. 在第3步的基础上排序、去重复并统计
5. 在第4步的基础上,将空格替换成制表符
补充小知识 :
清屏 :control L
查看历史(输入过的)命令 :history
uniq 对排序好的内容进行去重
-c 显示输出中,在每行行首加上本行在文件中出现的次数。
linux基础-字符处理
linux管道命令(pipe)
菜鸟教程
管道是一种通信机制,通常用于进程间的通信,它表现出来的形式将前面每一个进程的输出直接作为下一个进程的输入。
管道命令使用 | 作为界定符号。
默认情况下,sort命令以第一列进行排序
反向排序
按指定列进行排序,默认是空白符,也可以用 -t 指定分隔符
第二列排序的时候可以加 -n 进行数值排序
进行排序后,排序结果会显示在终端,但是原文件不会改变,可以用-o重定向或者另存。用 覆盖某个文件会失败,数据被清空,但是用 追加可以
为初学者提供的uniq命令教程及示例
uniq 命令用于检查及删除文本文件中重复出现的行列。uniq命令只有在相邻的情况下才会删除重复的行,因此一般与 sort 命令结合使用,此外,该命令也可以检查文本文件中重复出现的行列,默认区分大小写。
准备一个文件
准备一个文件
以分割符指定分割某些特定的列
Linux tr 命令用于转换或删除文件中的字符。
tr 指令从标准输入设备读取数据,经过字符串转译后,将结果输出到标准输出设备。
语法:tr [OPTION]…SET1[SET2]
小写转换为大写
删除字符
Linux paste 命令用于合并文件的列。
paste 指令会把每个文件以列对列的方式,一列列地加以合并。
不加参数会默认以制表符为分界列对列合并
-d可以设置以何种字符合并
使用s参数时。单个文件会将该文件的多行数据合并成一行显示,多个文件会将各个文件单独合并成一行之后再行对行合并
Linux split命令用于将一个文件分割成数个。
该指令将大文件分割成较小的文件,在默认情况下将按照每1000行切割成一个小文件。
将根目录文件信息写入文件
对上面的文件9行为一个文件进行分割
以1k字节分割文件
不加参数会同时显示行数,字数,Bytes数,加上上述参数会单独显示其中一项
给定两个文件 a.txt 和 b.txt ,每行是一个记录(假设没有重复),要求输出两集合的交集、并集、差集,输出的结果只包括唯一项。
交集定义为同时出现在两个文件中的记录项;
并集定义为出现在任何一个文件中的记录项;
差集( A-B )定义为出现在A中而且不出现在B中的记录;
对称差集定义为只出现在一个文件中的记录;
假设 a.txt 包括 a, c, b 三行。假设 b.txt 包括 d, e, c, b 四行。
交集 ,把两个文件放到一起排序,只输出次数多于一次的项:
$ sort a.txt b.txt | uniq -d
并集 ,把两个文件放到一起排序,重复的项只算一次:
$ sort a.txt b.txt | uniq
差集(A-B) ,把B的元素重复2份和A的元素放到一起排序,只输出出现一次的项:
$ sort a.txt b.txt b.txt | uniq -u
对称差 ,把两个文件放到一起排序,只输出出现一次的项:
$ sort a.txt b.txt | uniq -u
指定分隔符(-t)及基于哪一列(-k)、基于数值(-n) 、逆序(-r)进行排序
#排序之后删除了重复行,同时在行首位置输出该行重复的次数:
执行命令:sort testfile | uniq -c ,输出结果如下
#仅显示存在重复的行,并在行首显示该行重复的次数:
执行命令:sort testfile | uniq -dc,输出结果如下
#仅显示没有重复的行:
执行命令:sort testfile | uniq -u,输出结果如下