1.vim tomcat/conf/server.xml     remove comment  <!--<Engine name="Standalone" defaultHost="localhost" jvmRoute="tomcat1">-->     add comment <!--    <Engine name="Catalina" defaultHost=&quo ...
apache2 and tomcat config 1.install apache2 2.instal apache2 jk 3.vim /etc/apache2/mods-available/jk.conf      # Where to find workers.properties   # Update this path to match your conf directory location (put workers.properties next to httpd.conf)   JkWor ...
Ant 是著名Java开源组织Apache的一个项目,是一个基于java的build工具。它可以使你通过ant脚本语言,自动你的项目拷贝到某个目录,发布 项目,或者生成一些代码,执行SQL语言。总之它可以帮助你完成项目开发中除了开发代码以外的大部分辅助性工作。为什么需要手工去编写ant脚本呢,很多 IDE工具会为我们生成ant脚本阿?有人会这么问。要知道靠IDE自动生成的东西,总是有这样那样的缺点,以及不足,他不能完全满足你的很多需要。如果 出现了问题,你不得不手动修改ant脚本,这时候如果你不了解ant那么你将会一筹莫展。所以为了能使自己的项目变得更专业化,或者想在领导面前show ...
内容: 下载,安装 hello ant hello ant 进级 参考及下载 下载,安装    又下载?又是一大堆参数变量?  :(     http://jakarta.apache.org/ant/index.html 它是apache的java子项目"jakarta"的子项目.你可以选择 当前的版本,目前我是1.5版,window版,以下就用它讲。     解压后ant_home用来方便访问。并确保你也设置了java_home 。    ...
import java.net.URLEncoder; public class MyMSN { public static void main(String[] args) throws Exception { String username = "fly.net.cn@126.com"; String password = ""; String remoteusername = "lzhfengyun@hotmail.com"; String remoteusername2= "do ...
  • 21:39
  • 浏览 (216)
  • 评论 (0)
从 HTML 文档提取数据的方法有许多种,但是我真的很喜欢 Sam 采用的方法:既把 XQuery 当作屏幕搜集工具(从页面中提取相当的数据),又把它当作样式表工具(重新格式化数据,以便数据适应页面,不需要进行页面滚动)。只要少量基础设施和一些 非常简单的 XQuery 表达式,就可以从大量数据源提取出相关数据 —— 例如交通、天气和财务报价等,并在电话上完好地显示数据。 我过去经常处于这种情况:对 HTML 页面进行屏幕搜集对某些特定问题来说似乎是可行的方案,但是几乎没有用于屏幕搜集的 Java 工具包。有许多 HTML 解析工具,但它们通常缺少足够的抽象能力( ...
本文将通过一个简单的问候程序 HelloServer 来介绍 MINA 的基础架构的同时演示如何使用MINA 开发网络应用程序。 环境准备 首先到官方网站下载最新的 MINA 版本,地址是:http://mina.apache.org/downloads.html。 下载之前先介绍一下 MINA 的两个版本:1.0.x 适合运行环境为 JDK1.4,1.1.x 适合 JDK1.5 的版本,两者的编译环境都需要 JDK1.5。JDK1.5 已经是非常普遍了,本文中使用 1.1.5 版本的 MINA,编译和运行所需的文件是 mina-core-1.1.5.jar。 下 ...
2007-09-14

基于 Web 的数据挖掘

关键字: 自动抽取用 HTML、XML 和 Java 编写的信息
不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发 布的信息。 在信息时代快速成长起来的万维网导致各种各样的公用信息被大量分发。不幸的是,尽管作为信息主要载体的 HTML 提供了一种方便地向读者呈现信息的方法,但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或应用程序相关的信息的结构。 已 经尝试了多种方法来解决这个问题。大多数方法都采用一些专用查询语言的形式把 HTML 页面的各个部分映射成代码,而这些代码将 Web ...
1. 引言 数 据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需 要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。 2. 数据挖掘的任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和 ...
1. Web数据自动采集的理论基础 Web 可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。因此给人们要准确迅速的获得自己所需要的数据越来越难,尽管目前有各种搜索引 擎,但是搜索引擎在数据的查全率考虑较多,而查准率不足,而且很难进一步挖掘深度数据。因此人们开始研究如何更进一步获取互联网上某一个特定范围的数据, 从信息搜索到知识发现。 1.1相关概念 Web 数据自动采集内涵和外延非常广泛,目前尚无明确定义。Web数据自动采集涉及到Web数据挖掘(Web Data Mining), Web信息检索(Web Information Revival),信息提 ...
fly.net.cn
搜索本博客
最近加入圈子
存档
最新评论