查看: 1463|回复: 11
打印 上一主题 下一主题

[求助] 一次性从txt中提取多词条

[复制链接]
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    跳转到指定楼层
    1
    发表于 2012-4-29 11:43:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    哪位高手可以一次性从mdx转化的txt中提取多个词条,做出想要的,只含需要词条的txt?
    求高手解答,用什么软件,如何操作?
    谢谢。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    2
    发表于 2012-4-29 16:51:28 | 只看该作者
    又是你呀, 也算有缘. 给点例子. 把问题说详细些. 例如你想要提取的词条的共同特点.

    该用户从未签到

    0

    主题

    279

    回帖

    -135

    积分

    禁止发言

    积分
    -135
    3
    发表于 2012-4-29 17:09:27 | 只看该作者
    顶顶顶顶顶顶
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    4
     楼主| 发表于 2012-4-30 07:58:19 | 只看该作者
    呵呵 没有共同特点 只有一个词条列表 有大侠能做吗?

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    5
    发表于 2012-4-30 11:17:23 | 只看该作者
    把文件贴上来.
    就是从mdx提出来的. 还有词条列表也贴上来. 词条列表从哪提取的?

    把你觉得可能会用到的文本源都贴上来. 不然一天沟通一次, 不知哪天才能解决. 我5.2假期就没了. 到时1周来1次. 你等得了?

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    6
    发表于 2012-5-1 13:40:00 | 只看该作者
    本帖最后由 惟吾无为 于 2012-5-2 20:45 编辑

    问题通过qq解决, 由于文件格式已经做过很好的排版, 所以直接使用grep.
    1. time grep -x -f /dt/vocabulary\ .txt /dt/4朗文英汉双解第四版.TXT -A 3 | grep -v "^--$" > /dt/new4.txt
    复制代码
    以上命令在cygwin utf-8环境下运行. 文本预先转换为utf-8编码, unix换行符.
    保证在linux平台下gnu grep可运行. 不保证其他平台的效果.

    time是计时命令, grep查找文本.
    -x 进行整行匹配
    -f 指定关键字列表文件
    -A 3 显示匹配行的后3行.
    由于输出中含有--的分隔符, 所以需要过滤掉.
    ^--$ 匹配整行为--的行.
    -v 反向匹配.

    由于使用了管道, 导致速度慢了点. 总共花了19秒多. 但比ue人工替换又快多了.

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    7
    发表于 2012-5-1 13:58:07 | 只看该作者
    刚刚找了下漏掉的那些单词
    1. # awk 'BEGIN{RS="</>"} { print $1} ' /dt/new7.txt | sort - /dt/vocabulary\ .txt  | uniq -u
    2. Africa
    3. afterward
    4. agricultural
    5. America
    6. analyse/ze
    7. Asia
    8. Atlantic
    9. bacterium
    10. beancurd
    11. beddings
    12. bravery
    13. chopsticks
    14. civilization/sation
    15. dialog
    16. digitalversatiledisk
    17. Dr.
    18. e-mail
    19. fireworks
    20. ful
    21. happiness
    22. harbor
    23. hardworking
    24. hotdog
    25. humanbeing
    26. ice-cream
    27. irrigation
    28. jeep
    29. jewelry
    30. ladoratory
    31. liberation
    32. math
    33. maths
    34. metmet
    35. milimetre
    36. motivation
    37. Mr.
    38. Mrs
    39. Mrs.
    40. Ms.
    41. neighbor
    42. northeast
    43. northwest
    44. organise
    45. ought
    46. Pacific
    47. percent
    48. realise
    49. recognise
    50. s
    51. schoolbag
    52. schoolboy/-girl
    53. seagul
    54. sideroad
    55. sideway
    56. skil
    57. southeast
    58. southwest
    59. spokesman/woman
    60. stainless
    61. statesman/-woman
    62. statistics
    63. sunburnt
    64. tabletennis
    65. theater
    66. thermos
    67. toward
    68. traveler
    69. waitingroom
    70. westward
    71. yoghurt
    复制代码
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    8
     楼主| 发表于 2012-5-8 15:59:36 | 只看该作者
    呵呵,感谢这位老兄!能力超强!好快解决了我多个月的问题,现在我要学习类似软件,还望你继续帮助。谢谢!
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    9
     楼主| 发表于 2012-5-21 15:14:20 | 只看该作者
    你好。请问你这里的/dt/是什么?

    该用户从未签到

    0

    主题

    25

    回帖

    73

    积分

    被盗用户

    积分
    73
    10
    发表于 2012-12-16 21:50:45 | 只看该作者
    大神啊 神仙一出手,就知有没有 太厉害了!!!
    虽然我没有看懂

    该用户从未签到

    10

    主题

    213

    回帖

    2223

    积分

    被盗用户

    积分
    2223
    11
    发表于 2013-2-8 02:01:30 | 只看该作者
    超強