Repeated DNA Sequences
程序员文章站
2022-05-02 19:15:21
...
All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.
Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.
For example,
Given s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT",
Return:
["AAAAACCCCC", "CCCCCAAAAA"].
给定一个DNA序列,从中找出长度为10的出现次数大于一次的所有子序列。我们可以借助string的substring方法,从第一个字符开始一次截取,借助哈希表查看是否是重复的子串,如果重复就将这个字符串放入结果集中(结果集中不能重复),对于解决结果集中不能重复我们可以通过contains方法来解决,也可以通过建立两个哈希表,判断一个子串是否应该加入结果集合中时,如果该子串在第一个集合中存在,在第二个集合中不存在,这种情况下就加入,并且这样可以保证结果集中不会有重复的结果。set中的add方法,如果存在要加入的元素返回false,如果不存在当前要加入的元素返回true。代码如下:
我们还可以通过位运算来处理,DNA序列中只有四个元素,我们用两个比特位就可以表示,在构造子串的时候,设置一个变量,初始值为0,然后每次移动两位添加新的元素,移动十次之后就构成了一个子串,这样我们通过比较这个数是否在集合中出现就可以了。代码如下:
Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.
For example,
Given s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT",
Return:
["AAAAACCCCC", "CCCCCAAAAA"].
给定一个DNA序列,从中找出长度为10的出现次数大于一次的所有子序列。我们可以借助string的substring方法,从第一个字符开始一次截取,借助哈希表查看是否是重复的子串,如果重复就将这个字符串放入结果集中(结果集中不能重复),对于解决结果集中不能重复我们可以通过contains方法来解决,也可以通过建立两个哈希表,判断一个子串是否应该加入结果集合中时,如果该子串在第一个集合中存在,在第二个集合中不存在,这种情况下就加入,并且这样可以保证结果集中不会有重复的结果。set中的add方法,如果存在要加入的元素返回false,如果不存在当前要加入的元素返回true。代码如下:
public class Solution { public List<String> findRepeatedDnaSequences(String s) { List<String> list = new ArrayList<String>(); Set<String> set = new HashSet<String>(); Set<String> secondSet = new HashSet<String>(); if(s == null || s.length() <= 10) return list; for(int i = 0; i <= s.length() - 10; i++) { String str = s.substring(i, i + 10); if(!set.add(str) && secondSet.add(str)) { list.add(str); } } return list; } }
我们还可以通过位运算来处理,DNA序列中只有四个元素,我们用两个比特位就可以表示,在构造子串的时候,设置一个变量,初始值为0,然后每次移动两位添加新的元素,移动十次之后就构成了一个子串,这样我们通过比较这个数是否在集合中出现就可以了。代码如下:
public class Solution { public List<String> findRepeatedDnaSequences(String s) { List<String> list = new ArrayList<String>(); Set<Integer> set = new HashSet<Integer>(); Set<Integer> secondSet = new HashSet<Integer>(); if(s == null || s.length() <= 10) return list; int[] map = new int[26]; map['A' - 'A'] = 0; map['C' - 'A'] = 1; map['G' - 'A'] = 2; map['T' - 'A'] = 3; for(int i = 0; i <= s.length() - 10; i++) { int key = 0; for(int j = i; j < i + 10; j++) { key |= map[s.charAt(j) - 'A']; key <<= 2; } if(!set.add(key) && secondSet.add(key)) { list.add(s.substring(i, i + 10)); } } return list; } }
推荐阅读
-
DNA级优化!华为EMUI 9.1三大利器:刷新流畅新高度
-
Orange运营商DNA的云服务开花天狮集团
-
华为PC三大DNA:其他厂商目前只能望其项背
-
16GB的*英文版被完整塞入一段DNA分子链中:保用万年
-
科学家用DNA造纳米机器人,可做人体内的搬运工
-
华裔女科学家发明可分拣运输的DNA机器人
-
辽宁男子自称帝王后裔,经DNA检测后证实
-
数字化生存时代来临:谁能重组互联网下半场的"信息 DNA"?
-
读取DNA中的遗传密码 AI将从基因层面解决癌症
-
C# copy files from source directory to destination file and rename repeated files and does not override