📄 79.txt
字号:
发信人: GzLi (笑梨), 信区: DataMining
标 题: [合集]关于数据导入的问题
发信站: 南京大学小百合站 (Fri Mar 28 16:21:35 2003)
irvine (♂大漠风暴) 于Tue Mar 25 09:56:00 2003)
提到:
现有几百个文本格式的文件数据
想装载到数据仓库中去
现遇到一些麻烦,请大家帮忙
原本准备先用Access把文本格式的数据转化成.mdb格式的数据
再用DTS进行ETL处理
但是现在我发现文本格式的文件有很多垃圾数据
在几千行开始都是乱码的无用信息
现在我想把这些无用的数据先去除,应该怎么办?
还有好几百个文件如何导入数据仓库比较方便
一个个文件来?似乎有点累人啊
knife (编程浪子·要用功了) 于Tue Mar 25 11:25:43 2003)
提到:
自己写个小程序就行了阿
【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 现有几百个文本格式的文件数据
: 想装载到数据仓库中去
: 现遇到一些麻烦,请大家帮忙
: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据
: 再用DTS进行ETL处理
: 但是现在我发现文本格式的文件有很多垃圾数据
: 在几千行开始都是乱码的无用信息
: 现在我想把这些无用的数据先去除,应该怎么办?
: 还有好几百个文件如何导入数据仓库比较方便
: 一个个文件来?似乎有点累人啊
patrickli (打死也不说) 于Tue Mar 25 13:28:05 2003)
提到:
我就是自己写的程序
股市一年有248个左右的交易日,每一天一个文件,每一个文件包含了
510多个股票,我把这些文本读出来写到mdb中,结果来了13万条记录
【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 现有几百个文本格式的文件数据
: 想装载到数据仓库中去
: 现遇到一些麻烦,请大家帮忙
: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据
: 再用DTS进行ETL处理
: 但是现在我发现文本格式的文件有很多垃圾数据
: 在几千行开始都是乱码的无用信息
: 现在我想把这些无用的数据先去除,应该怎么办?
: 还有好几百个文件如何导入数据仓库比较方便
: 一个个文件来?似乎有点累人啊
irvine (♂大漠风暴) 于Tue Mar 25 13:33:13 2003)
提到:
用VB吗?
我以前没有用过VB,能否提供一些关于这一块编程的资料?
【 在 patrickli (打死也不说) 的大作中提到: 】
: 我就是自己写的程序
: 股市一年有248个左右的交易日,每一天一个文件,每一个文件包含了
: 510多个股票,我把这些文本读出来写到mdb中,结果来了13万条记录
: 【 在 irvine (♂大漠风暴) 的大作中提到: 】
patrickli (打死也不说) 于Tue Mar 25 14:33:12 2003)
提到:
用VC,利用CStdioFile类的函数可以每一次读取一行的文本
然后把这一行当做字符串进行处理
利用CRecordset类和CDatabase类进行数据库操作
【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 用VB吗?
: 我以前没有用过VB,能否提供一些关于这一块编程的资料?
: 【 在 patrickli (打死也不说) 的大作中提到: 】
francois (断玉) 于Tue Mar 25 18:52:39 2003)
提到:
如果数据量不太大(比如不超过100M),处理规则简单的话(比如乱码可以用简单的方法识别
出来),可以直接用UltraEdit之类的编辑器,用它的查找替换功能把这些乱码的行给滤掉
如果识别这些乱码的规则比较复杂,我建议你用PERL,它的正则表达式绝对是处理文本的强
力工具.实际上,我们在数据仓库项目中就是用PERL作为ETL的脚本语言的
【 在 irvine 的大作中提到: 】
: 现有几百个文本格式的文件数据
: 想装载到数据仓库中去
: 现遇到一些麻烦,请大家帮忙
: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据
: 再用DTS进行ETL处理
: 但是现在我发现文本格式的文件有很多垃圾数据
: 在几千行开始都是乱码的无用信息
: 现在我想把这些无用的数据先去除,应该怎么办?
: 还有好几百个文件如何导入数据仓库比较方便
: 一个个文件来?似乎有点累人啊
irvine (♂大漠风暴) 于Wed Mar 26 09:02:53 2003)
提到:
多谢这位兄弟
基于VB与Access的关联性比较好
现在我用VB来编制这个小程序了
不过还有一个疑惑
Access能支持一个1G左右的表吗?
【 在 patrickli (打死也不说) 的大作中提到: 】
: 用VC,利用CStdioFile类的函数可以每一次读取一行的文本
: 然后把这一行当做字符串进行处理
: 利用CRecordset类和CDatabase类进行数据库操作
: 【 在 irvine (♂大漠风暴) 的大作中提到: 】
knife (编程浪子·要用功了) 于Wed Mar 26 12:15:35 2003)
提到:
最好不要用access
【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 多谢这位兄弟
: 基于VB与Access的关联性比较好
: 现在我用VB来编制这个小程序了
: 不过还有一个疑惑
: Access能支持一个1G左右的表吗?
: 【 在 patrickli (打死也不说) 的大作中提到: 】
lyly (李之远※毕业生※下班后写论文) 于Wed Mar 26 19:10:42 2003)
提到:
只要你的文本格式是规范的
可以直接导入ibm的库的
【 在 irvine 的大作中提到: 】
: 现有几百个文本格式的文件数据
: 想装载到数据仓库中去
: 现遇到一些麻烦,请大家帮忙
: 原本准备先用Access把文本格式的数据转化成.mdb格式的数据
: 再用DTS进行ETL处理
: 但是现在我发现文本格式的文件有很多垃圾数据
: 在几千行开始都是乱码的无用信息
: 现在我想把这些无用的数据先去除,应该怎么办?
: 还有好几百个文件如何导入数据仓库比较方便
: 一个个文件来?似乎有点累人啊
patrickli (打死也不说) 于Thu Mar 27 13:18:11 2003)
提到:
不知道能不能支持,我的数据库记录了2001年上海证券交易所的全部股票
信息,大小是148M
【 在 irvine (♂大漠风暴) 的大作中提到: 】
: 多谢这位兄弟
: 基于VB与Access的关联性比较好
: 现在我用VB来编制这个小程序了
: 不过还有一个疑惑
: Access能支持一个1G左右的表吗?
: 【 在 patrickli (打死也不说) 的大作中提到: 】
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -