本研究使用规则加统计的方法,提出了一种从互联网海量信息中实现术语定义自动抽取的策略。系统在术语定义规则匹配的基础上,使用统计的方法从大规模的术语数据库中提炼出一些定义识别的参数,再通过构建语言模型等统计计算的方法,进一步提高术语定义抽取的准确率。互联网提供了一个大规模、动态更新的信息资源库,能够反映真实的自然语言现象。本研究基于互联网,从大规模的真实语料中进行术语定义抽取。术语定义抽取也是知识发现的一项重要内容。