Linux内核调试器内幕2
——
每一帧的第一个双字(double word)指向下一帧,这后面紧跟着调用函数的地址。因此,跟踪堆栈就变成一件轻松的工作了。
[size=18:6ddc15f4ad]技巧 #3[/size:6ddc15f4ad]
go 命令可以有选择地以一个地址作为参数。如果您想在某个特定地址处继续执行,则可以提供该地址作为参数。另一个办法是使用 rm 命令修改指令指针寄存器,然后只要输入 go。如果您想跳过似乎会引起问题的某个特定指令或一组指令,这就会很有用。但是,请注意,该指令使用不慎会造成严重的问题,系统可能会严重崩溃。
[size=18:6ddc15f4ad]技巧 #4[/size:6ddc15f4ad]
您可以利用一个名为 defcmd 的有用命令来定义自己的命令集。例如,每当遇到断点时,您可能希望能同时检查某个特殊变量、检查某些寄存器的内容并转储堆栈。通常,您必须要输入一系列命令,以便能同时执行所有这些工作。defcmd 允许您定义自己的命令,该命令可以包含一个或多个预定义的 KDB 命令。然后只需要用一个命令就可以完成所有这三项工作。其语法如下:
[code:1:6ddc15f4ad][0]kdb> defcmd name "usage" "help"
[0]kdb> [defcmd] type the commands here
[0]kdb> [defcmd] endefcmd [/code:1:6ddc15f4ad]
例如,可以定义一个(简单的)新命令 hari,它显示从地址 0xc000000 开始的一行内存、显示寄存器的内容并转储堆栈:
[code:1:6ddc15f4ad][0]kdb> defcmd hari "" "no arguments needed"
[0]kdb> [defcmd] md 0xc000000 1
[0]kdb> [defcmd] rd
[0]kdb> [defcmd] md %ebp 1
[0]kdb> [defcmd] endefcmd [/code:1:6ddc15f4ad]
该命令的输出会是:
[code:1:6ddc15f4ad][0]kdb> hari
[hari]kdb> md 0xc000000 1
0xc000000 00000001 f000e816 f000e2c3 f000e816
[hari]kdb> rd
eax = 0x00000000 ebx = 0xc0105330 ecx = 0xc0466000 edx = 0xc0466000
....
...
[hari]kdb> md %ebp 1
0xc0467fbc c0467fd0 c01053d2 00000002 000a0200
[0]kdb> [/code:1:6ddc15f4ad]
[size=18:6ddc15f4ad]技巧 #5[/size:6ddc15f4ad]
可以使用 bph 和 bpha 命令(假如体系结构支持使用硬件寄存器)来应用读写断点。这意味着每当从某个特定地址读取数据或将数据写入该地址时,我们都可以对此进行控制。当调试数据/内存毁坏问题时这可能会极其方便,在这种情况中您可以用它来识别毁坏的代码/进程。
示例
[code:1:6ddc15f4ad]每当将四个字节写入地址 0xc0204060 时就进入内核调试器:
[0]kdb> bph 0xc0204060 dataw 4
在读取从 0xc000000 开始的至少两个字节的数据时进入内核调试器:
[0]kdb> bph 0xc000000 datar 2[/code:1:6ddc15f4ad]
[size=18:6ddc15f4ad]结束语[/size:6ddc15f4ad]
对于执行内核调试,KDB 是一个方便的且功能强大的工具。它提供了各种选项,并且使我们能够分析内存内容和数据结构。最妙的是,它不需要用另一台机器来执行调试。
[size=18:6ddc15f4ad]参考资料[/size:6ddc15f4ad]
?请在 Documentation/kdb 目录中查找 KDB 手册页。
?有关设置串行控制台的信息,请查找 Documentation 目录中的 serial-console.txt。
?请在 SGI 的内核调试器项目网站上下载 KDB。
?有关几个基于方案的 Linux 调试技术的概述,请阅读“掌握 Linux 调试技术”(developerWorks,2002 年 8 月)。
?教程“编译 Linux 内核”(developerWorks,2000 年 8 月)让您完整地了解配置、编译和安装内核的过程。
?IBM AIX 用户可以在 KDB Kernel Debugger and Command 页面上获取有关用于 AIX 的 KDB 的使用帮助。
?那些寻求有关调试 OS/2 信息的读者应该阅读 IBM 红皮书 The OS/2 Debugging Handbook(共四卷)的第 II 卷。
?在 developerWorks Linux 专区中查找更多针对 Linux 开发人员的参考资料。
【发表回复】【查看CU论坛原帖】【关闭】
zhchhui 回复于:2003-09-15 10:38:56
掌握 Linux 调试技术
内容:
常见调试方法
第 1 种情况:内存调试工具
MEMWATCH
YAMD
Electric Fence
第 2 种情况:使用 strace
第 3 种情况:使用 gdb 和 Oops
kgdb
Oops 分析
kdb
第 4 种情况:使用魔术键控顺序获取反跟踪
结束语
zhchhui 回复于:2003-09-15 10:42:18
在 Linux 上找出并解决程序错误的主要方法
Steve Best(sbest@us.ibm.com)
JFS 核心小组成员,IBM
2002 年 8 月
您可以用各种方法来监控运行着的用户空间程序:可以为其运行调试器并单步调试该程序,添加打印语句,或者添加工具来分析程序。本文描述了几种可以用来调试在 Linux 上运行的程序的方法。我们将回顾四种调试问题的情况,这些问题包括段错误,内存溢出和泄漏,还有挂起。
本文讨论了四种调试 Linux 程序的情况。在第 1 种情况中,我们使用了两个有内存分配问题的样本程序,使用 MEMWATCH 和 Yet Another Malloc Debugger(YAMD)工具来调试它们。在第 2 种情况中,我们使用了 Linux 中的 strace 实用程序,它能够跟踪系统调用和信号,从而找出程序发生错误的地方。在第 3 种情况中,我们使用 Linux 内核的 Oops 功能来解决程序的段错误,并向您展示如何设置内核源代码级调试器(kernel source level debugger,kgdb),以使用 GNU 调试器(GNU debugger,gdb)来解决相同的问题;kgdb 程序是使用串行连接的 Linux 内核远程 gdb。在第 4 种情况中,我们使用 Linux 上提供的魔术键控顺序(magic key sequence)来显示引发挂起问题的组件的信息。
[size=18:b0b26de3a8][b:b0b26de3a8]常见调试方法[/b:b0b26de3a8][/size:b0b26de3a8]
当您的程序中包含错误时,很可能在代码中某处有一个条件,您认为它为真(true),但实际上是假(false)。找出错误的过程也就是在找出错误后推翻以前一直确信为真的某个条件过程。
以下几个示例是您可能确信成立的条件的一些类型:
?在源代码中的某处,某变量有特定的值。
?在给定的地方,某个结构已被正确设置。
?对于给定的 if-then-else 语句,if 部分就是被执行的路径。
?当子例程被调用时,该例程正确地接收到了它的参数。
找出错误也就是要确定上述所有情况是否存在。如果您确信在子例程被调用时某变量应该有特定的值,那么就检查一下情况是否如此。如果您相信 if 结构会被执行,那么也检查一下情况是否如此。通常,您的假设都会是正确的,但最终您会找到与假设不符的情况。结果,您就会找出发生错误的地方。
调试是您无法逃避的任务。进行调试有很多种方法,比如将消息打印到屏幕上、使用调试器,或只是考虑程序执行的情况并仔细地揣摩问题所在。
在修正问题之前,您必须找出它的源头。举例来说,对于段错误,您需要了解段错误发生在代码的哪一行。一旦您发现了代码中出错的行,请确定该方法中变量的值、方法被调用的方式以及关于错误如何发生的详细情况。使用调试器将使找出所有这些信息变得很简单。如果没有调试器可用,您还可以使用其它的工具。(请注意,产品环境中可能并不提供调试器,而且 Linux 内核没有内建的调试器。)
[size=18:b0b26de3a8][b:b0b26de3a8]实用的内存和内核工具[/b:b0b26de3a8][/size:b0b26de3a8]
您可以使用 Linux 上的调试工具,通过各种方式跟踪用户空间和内核问题。请使用下面的工具和技术来构建和调试您的源代码:
[size=18:b0b26de3a8][b:b0b26de3a8]用户空间工具[/b:b0b26de3a8][/size:b0b26de3a8]:
?内存工具:MEMWATCH 和 YAMD
?strace
?GNU 调试器(gdb)
?魔术键控顺序
[size=18:b0b26de3a8][b:b0b26de3a8]内核工具[/b:b0b26de3a8][/size:b0b26de3a8]:
?内核源代码级调试器(kgdb)
?内建内核调试器(kdb)
?Oops
本文将讨论一类通过人工检查代码不容易找到的问题,而且此类问题只在很少见的情况下存在。内存错误通常在多种情况同时存在时出现,而且您有时只能在部署程序之后才能发现内存错误。
评论