蜘蛛网络语言(红蜘蛛解析)

2023-01-12 本文已影响 679人

中国论文网为大家解读本文的相关内容：

摘　要：

关键词：

网络蜘蛛（Web Spider）是一个形象的名字，它把因特网比喻成一个蜘蛛网，那么Spider就是在网上觅食的蜘蛛。网络蜘蛛通过WEB文档中的链接地址来寻找WEB文档，从网站某一个页面开始读取文档的内容，找到在WEB文档中的下一级链接地址，然后通过这些链接地址寻找更下一层的WEB文档，这样循环直到将此网站的WEB文档资源都搜寻完为止。
1 网络蜘蛛的抓取策略
在抓取WEB文档的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。在实际应用中通常并非要抓取全部的WEB文档，对一些不太重要的网站，可以设置访问的层数，对于超过一定层数的WEB文档不再抓取。
2 WEB文档的种类及在信息提取中的价值
基于内容文本的WEB数据挖掘的处理对象是文本文件。对于WEB文档内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用基于插件的可扩展模式，通过一个插件程序，对各格式的WEB文档采用相应的插件处理。这种模式的优点在于扩充性好，以后每新增一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
3 HTML结构化解析
在网络蜘蛛的实现时，我们采用广度优先链接跟踪法解析HTML。要提取WEB文档中的链接和文本，首要对HTML进行解析，将HTML字符流变为由HTML标签系列组成的结构化文档。Sun公司开发的HTML解析器能够处理绝大部分HTML解析任务。下面是Sun的HTML解析器的主要功能部件。
（1）类
它是最重要的一个HTML解析类，是一个内部类，声明如下：
:
public abstract static class extends Object
由于它是一个抽象类，因此真正的解析工作是由它具体的子类的实例来完成，这个子类是Delegator:
public class ParserDelegator extends
当解析一个HTML文件时，需要实现一个Callback的子类，由它来按照要求对文本和标签做出处理。然后将它的实例传给的parse()方法。parse()是类的唯一public方法。所有的工作是由Callback子类的回调方法来完成。在进行这项工作之前，必须获得一个类的实例，但是它是一个抽象类，其子类Delegator是一个具体类，在能够取用它之前，必须给它配置一个DTD，使用protected static方法。因此创建一个ParserDelegator，需要DTD的一个实例。DTD类有一个protected型的构造器和许多protected方法，这里直接使用,getParser()方法。它是一个protected方法，只需要创建HTMLEditorKit的子类，并用一个public型的getParser()来覆写它。
现在就可以用它来解析中文WEB文档。这是通过类的parse()方法来完成的。
（2）Callback类
ParserCallback是一个public型的内部类，也就是itorKit的内部类。其声明如下：
public static calss Callback extends Objects DTD。它有一个简单的无参数构造器：public Callback()
但是，要真正执行解析动作，需要实现其子类，并重载6个空的回调方法，执行具体的任务。
解析器并不是多线程安全的，通常在一个单独的线程中解析。因此，当parse()方法返回时，并不意味着文档被解析了。若使用同一个Callback对象来完成两个独立的解析过程，必须用线程同步机制，保证所有的回调方法都是线程安全的。
（3）类
Tag是一个类的一个public型的内部类。public static class extends Object它含有四个方法：breaksFlow()方法当标签应该产生一个单行分隔时返回true。isBlock()方法当标签应该产生一个双行分隔时返回true。isPreformatted()方法当标签中的空白应该被保留时返回true。有了类，可以根据不同的标签类别，执行不同的操作。
（4）属性
处理HTML文件时，经常需要查看标签和属性。HandleStartTag()和handleSimpleTag()回调方法的第二个参数是eAttributeSet类，这个对象允许查看某个标签附属了哪些属性。MutableAttributeSet是uteSet接口的子接口。
AttributeSet和MutableAttributeSet都代表着HTML标签的属性集。不同的是后者接口增加了添加删除属性方法和属性集的视图。属性本身代表着对，一个代表属性名，另一个代表属性值。
与一样，属性值是字符串，属性名是ute对象。在提取链接地址时，就需要调用这些方法。在WEB文档所包含的链接信息通常都含有大量的相对URL地址，在进一步访问这些链接地址时则需要绝对地址，因此需要进行转换。
小结
本文介绍了实现网络蜘蛛所涉及到的详细算法，并以SUN公司的HTML解析器为例说明了HTML代码解析的整个过程。可以看到整个HTML代码的解析过程是庞大而复杂的。

　　中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。返回综合论文列表

展开剩余（

）

蜘蛛网络语言(红蜘蛛解析)

继续阅读

热门标签