⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 79.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]关于数据导入的问题
发信站: 南京大学小百合站 (Fri Mar 28 16:21:35 2003)

irvine (♂大漠风暴) 于Tue Mar 25 09:56:00 2003)
提到:

现有几百个文本格式的文件数据
想装载到数据仓库中去
现遇到一些麻烦,请大家帮忙
原本准备先用Access把文本格式的数据转化成.mdb格式的数据
再用DTS进行ETL处理
但是现在我发现文本格式的文件有很多垃圾数据
在几千行开始都是乱码的无用信息
现在我想把这些无用的数据先去除,应该怎么办?
还有好几百个文件如何导入数据仓库比较方便
一个个文件来?似乎有点累人啊


knife (编程浪子·要用功了) 于Tue Mar 25 11:25:43 2003)
提到:

自己写个小程序就行了阿

【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 现有几百个文本格式的文件数据
: 想装载到数据仓库中去
: 现遇到一些麻烦,请大家帮忙
: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据
: 再用DTS进行ETL处理
: 但是现在我发现文本格式的文件有很多垃圾数据
: 在几千行开始都是乱码的无用信息
: 现在我想把这些无用的数据先去除,应该怎么办?
: 还有好几百个文件如何导入数据仓库比较方便
: 一个个文件来?似乎有点累人啊


patrickli (打死也不说) 于Tue Mar 25 13:28:05 2003)
提到:

我就是自己写的程序
股市一年有248个左右的交易日,每一天一个文件,每一个文件包含了
510多个股票,我把这些文本读出来写到mdb中,结果来了13万条记录

【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 现有几百个文本格式的文件数据
: 想装载到数据仓库中去
: 现遇到一些麻烦,请大家帮忙
: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据
: 再用DTS进行ETL处理
: 但是现在我发现文本格式的文件有很多垃圾数据
: 在几千行开始都是乱码的无用信息
: 现在我想把这些无用的数据先去除,应该怎么办?
: 还有好几百个文件如何导入数据仓库比较方便
: 一个个文件来?似乎有点累人啊


irvine (♂大漠风暴) 于Tue Mar 25 13:33:13 2003)
提到:

用VB吗?
我以前没有用过VB,能否提供一些关于这一块编程的资料?
【 在 patrickli (打死也不说) 的大作中提到: 】
: 我就是自己写的程序
: 股市一年有248个左右的交易日,每一天一个文件,每一个文件包含了
: 510多个股票,我把这些文本读出来写到mdb中,结果来了13万条记录
: 【 在 irvine (♂大漠风暴) 的大作中提到: 】


patrickli (打死也不说) 于Tue Mar 25 14:33:12 2003)
提到:

用VC,利用CStdioFile类的函数可以每一次读取一行的文本
然后把这一行当做字符串进行处理
利用CRecordset类和CDatabase类进行数据库操作

【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 用VB吗?
: 我以前没有用过VB,能否提供一些关于这一块编程的资料?
: 【 在 patrickli (打死也不说) 的大作中提到: 】


francois (断玉) 于Tue Mar 25 18:52:39 2003)
提到:

如果数据量不太大(比如不超过100M),处理规则简单的话(比如乱码可以用简单的方法识别
出来),可以直接用UltraEdit之类的编辑器,用它的查找替换功能把这些乱码的行给滤掉


如果识别这些乱码的规则比较复杂,我建议你用PERL,它的正则表达式绝对是处理文本的强
力工具.实际上,我们在数据仓库项目中就是用PERL作为ETL的脚本语言的


【 在 irvine 的大作中提到: 】

: 现有几百个文本格式的文件数据

: 想装载到数据仓库中去

: 现遇到一些麻烦,请大家帮忙

: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据

: 再用DTS进行ETL处理

: 但是现在我发现文本格式的文件有很多垃圾数据

: 在几千行开始都是乱码的无用信息

: 现在我想把这些无用的数据先去除,应该怎么办?

: 还有好几百个文件如何导入数据仓库比较方便

: 一个个文件来?似乎有点累人啊



irvine (♂大漠风暴) 于Wed Mar 26 09:02:53 2003)
提到:

多谢这位兄弟
基于VB与Access的关联性比较好
现在我用VB来编制这个小程序了

不过还有一个疑惑
Access能支持一个1G左右的表吗?
【 在 patrickli (打死也不说) 的大作中提到: 】
: 用VC,利用CStdioFile类的函数可以每一次读取一行的文本
: 然后把这一行当做字符串进行处理
: 利用CRecordset类和CDatabase类进行数据库操作
: 【 在 irvine (♂大漠风暴) 的大作中提到: 】


knife (编程浪子·要用功了) 于Wed Mar 26 12:15:35 2003)
提到:

最好不要用access

【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 多谢这位兄弟
: 基于VB与Access的关联性比较好
: 现在我用VB来编制这个小程序了
: 不过还有一个疑惑
: Access能支持一个1G左右的表吗?
: 【 在 patrickli (打死也不说) 的大作中提到: 】


lyly (李之远※毕业生※下班后写论文) 于Wed Mar 26 19:10:42 2003)
提到:

只要你的文本格式是规范的

可以直接导入ibm的库的

【 在 irvine 的大作中提到: 】

: 现有几百个文本格式的文件数据

: 想装载到数据仓库中去

: 现遇到一些麻烦,请大家帮忙

: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据

: 再用DTS进行ETL处理

: 但是现在我发现文本格式的文件有很多垃圾数据

: 在几千行开始都是乱码的无用信息

: 现在我想把这些无用的数据先去除,应该怎么办?

: 还有好几百个文件如何导入数据仓库比较方便

: 一个个文件来?似乎有点累人啊



patrickli (打死也不说) 于Thu Mar 27 13:18:11 2003)
提到:

不知道能不能支持,我的数据库记录了2001年上海证券交易所的全部股票
信息,大小是148M

【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 多谢这位兄弟
: 基于VB与Access的关联性比较好
: 现在我用VB来编制这个小程序了
: 不过还有一个疑惑
: Access能支持一个1G左右的表吗?
: 【 在 patrickli (打死也不说) 的大作中提到: 】


⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -